Вы находитесь на странице: 1из 128

Introduzione alla Probabilità

A.A. 2016–2017

Prof. Carlo Sempi


Dipartimento di Matematica
“Ennio De Giorgi”
Università del Salento
carlo.sempi@unisalento.it

22 novembre 2017
ii
Indice

Prefazione 1

1 Probabilità discrete 1
1.1 Che cos’è la probabilità? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Operazioni sugli insiemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Probabilità discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Alcuni problemi d’urna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5 Probabilità condizionata e indipendenza . . . . . . . . . . . . . . . . . . . . . 17
1.6 Variabili aletorie discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.7 La diseguaglianza di Čebyšev . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.8 Alcune distribuzioni di probabilità discrete . . . . . . . . . . . . . . . . . . . 28
1.9 Probabilità di un assegnato numero di eventi . . . . . . . . . . . . . . . . . . 33
1.10 Alcuni problemi classici di probabilità . . . . . . . . . . . . . . . . . . . . . . 35
1.11 Passeggiata aleatoria di Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . 39
1.12 La funzione generatrice delle probabilità . . . . . . . . . . . . . . . . . . . . . 49
1.13 Passeggiata aleatoria in Zd . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
1.14 La definizione soggettiva della probabilità . . . . . . . . . . . . . . . . . . . . 53
1.15 Note al Capitolo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
1.16 Esercizı̂ sul Capitolo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57

2 Variabili Aleatorie 69
2.1 Variabili aleatorie assolutamente continue . . . . . . . . . . . . . . . . . . . . 69
2.2 Le funzioni di ripartizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
2.3 Esempı̂ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
2.4 Probabilità geometriche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
2.5 Vettori aleatorı̂ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
2.6 La covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
2.7 Trasformazioni di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . 87
2.8 La funzione generatrice dei momenti . . . . . . . . . . . . . . . . . . . . . . . 93
2.9 La formula di de Moivre–Stirling . . . . . . . . . . . . . . . . . . . . . . . . . 97
2.10 I teoremi di de Moivre–Laplace . . . . . . . . . . . . . . . . . . . . . . . . . . 100
2.11 Note al Capitolo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
2.12 Esercizı̂ sul Capitolo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103

iii
iv INDICE
Prefazione

Queste lezioni riproducono, con qualche ampliamento, l’argomento del corso introduttivo
di Probabilità che, oramai da molti anni, tengo presso l’Università di Lecce, prima e del
Salento poi. Esse non sono un trattato di Probabilità e sono state scritte al solo scopo di
facilitare il compito dello studente che, per la prima volta, si avvicini a questa disciplina.
Quanto è qui presentato corrisponde al programma che è possibile svolgere in un corso di
durata trimestrale; mi pare però giusto lasciare intravvedere agli studenti, almeno quelli
dotati di maggiore curiosità intellettuale, che esistono orizzonti piú ampı̂. Ad ogni capitolo
ho fatto seguire brevi note con un duplice intento,
– fornire una guida bibliografica alla letteratura per chi volesse approfondire qualche
argomento e dare traccia di approcci alternativi;
– dare lo scheletro di una storia della disciplina, sia pur estremamente sintetica.
Spero che queste lezioni, se non lo avranno annoiato troppo, inducano qualche studente
alla lettura di qualcuno dei testi citati in bibliografia e a proseguire, approfondire ed esten-
dere lo studio della probabilità. Desidero, infine, ringraziare tutti i colleghi (e sono numerosi)
dai quali ho imparato qualcosa e gli studenti che, con osservazioni e domande, mi hanno
obbligato ad uno sforzo di chiarezza del quale mi posso solo augurare che si veda il segno.
Un ringraziamento particolare va a Giorgio Metafune, Gianfausto Salvadori e a Angela Al-
banese per l’aiuto datomi nel corso degli anni, tenendo le esercitazioni e partecipando agli
esami, e, soprattutto, per avermi obbligato a ripensare alcuni degli argomenti e la maniera
di presentarli agli studenti. Naturalmente, non v’è ragione perché debbano dividere con me
le critiche o la responsabilità per gli errori, che, inevitabilmente saranno rimasti; questa è
interamente mia.

Carlo Sempi
Lecce, 22 novembre 2017

1
2 PREFAZIONE
Capitolo 1

Probabilità discrete

1.1 Che cos’è la probabilità?


Il Calcolo delle Probabilità sorge alla fine del Rinascimento per rispondere a domande che si
ponevano spontaneamente nei giochi d’azzardo, almeno alla mente di giocatori che avevano
un’inclinazione matematica. La prima raccolta di problemi, si sarebbe tentati di dire, il
primo libro di Probabilità, fu scritto da Gerolamo Cardano nel Cinquecento. Il libro non
fu pubblicato che nell’Ottocento, ma ebbe diffusione tra i cultori di matematica all’epoca
nella quale fu scritto. Inoltre, nel Talmud , quindi in tempi ancora precedenti, si hanno brevi
cenni a questioni che oggi diremmo di probabilità; tuttavia, la conoscenza del Talmud era
in Europa limitata ai dotti delle comunità ebraiche, sicché non si può affermare che le ques-
tioni alle quali si è accennato abbiano avuto risonanza nella comunità scientifica. Anche nei
testi religiosi indiani si trovano considerazioni che, dal punto di vista qualitativo, possono
essere interpretate come probabilistiche. Queste sono riscoperte oggi piú come antiquariato
storico che come vero germe del moderno Calcolo delle Probabilità. È tradizione far in-
cominciare la storia “ufficiale” del calcolo delle probabilità un poco piú tardi, precisamente,
dalla corrispodenza intercorsa nel Seicento, tra Pascal e Fermat a proposito della soluzione
di alcuni problemi posti a Pascal dal cavaliere de Meré. In seguito, numerosi matematici
si sono occupati di probabilità, anche se il primo libro che trattava in maniera profonda
di questa disciplina dovette attendere l’inizio del Settecento per essere stampato: il libro
di Jacques Bernoulli Ars Conjectandi pubblicato postumo a Basilea nel 1713 a cura e con
contributi del nipote Nicola Bernoulli; la prima delle quattro parti del libro riproduce il testo
del manoscritto di Huyghens De Ludo Aleae. I problemi con i quali si confronta la nuova
disciplina sono quelli che piú immediatamente si presentano all’attenzione degli osservatori
attenti: i giochi d’azzardo. Non deve sorpendere che sia stato cosı́; il dominio del Calcolo
delle Probabilità è infatti costituito da tutti i fenomeni nei quali viene meno il legame tra
causa ed effetto e nei quali le stesse condizioni, almeno per ciò che rientra nel controllo e
nelle conoscenze dell’osservatore, possono produrre esiti differenti. Nulla di piú naturale che
ciò sia stato avvertito per la prima volta nel lancio di una moneta, nel lancio di un dado,
nell’osservazione di un gioco di carte.
All’incirca nello stesso periodo che vide la nascita del calcolo delle probabilità, anzi con
Newton, che è attivo nella seconda metà del Seicento, addirittura leggermente piú tardi
rispetto alla corrispondenza tra Pascal e Fermat, nasceva la moderna meccanica razionale
che vedeva subito un sensazionale sviluppo segnato da applicazioni importantissime all’as-
tronomia, alla meccanica dei solidi, alla teoria dei fluidi. La meccanica razionale nasceva già
fornita dei suoi strumenti — l’analisi matematica messa a punto all’uopo da Newton stesso
— e, in un certo senso, in una forma definitiva, tanto da non essere molto differente, per
esempio, da quella che si insegna ancora oggi nei primi bienni delle nostre Università.
Al contrario, per lungo tempo, il Calcolo delle Probabilità fu semplicemente una raccolta
di risultati sparsi, talvolta profondi, ma non unificati da una teoria che fosse il nucleo di un

1
2 CAPITOLO 1. PROBABILITÀ DISCRETE

modello matematico della classe di fenomeni in esame, quelli ai quali si è accennato sopra
e che oggi, con un nome di chiara derivazione dal primo campo di applicazione nei giochi
d’azzardo, chiamiamo aleatorı̂.
Da allora, la letteratura sulle probabilità è venuta aumentando sino ad essere ai giorni
nostri piú vasta di quanto una sola persona riesca a padroneggiare. Tuttavia lo sviluppo del
Calcolo delle Probabilità è relativamente recente e data dagli anni Trenta del secolo scorso;
per rendersi conto di quanto sia stato radicale il cambiamento basta consultare il libro di
Calcolo delle Probabilità di G. Castelnuovo del 1926 e confrontarlo con un libro moderno
(per esempio uno di quelli citati in bibliografia). Le righe che precedono non portano alcuna
risposta alla domanda che costituisce il titolo di questa sezione, che cosa sia la probabilità.
In quelle che seguono, cercherò di tratteggiare assai brevemente alcune visioni sul significato
della probabilità. Il dominio di applicazione del calcolo delle probabilità è costituito da
tutti quei fenomeni dei quali non si sappia prevedere o calcolare l’esito, o per mancanza
d’informazione o per la difficoltà (o addirittura l’impossibilità) di eseguire i calcoli; è cosı́
evidente perché le prime considerazioni di probabilità siano storicamente state collegate con
i giochi d’azzardo. Tuttavia, l’impulso decisivo allo sviluppo di questa disciplina è venuto
con il sorgere, nel secolo scorso, della teoria cinetica dei gas e della Meccanica Statistica.
L’apparire di campi nei quali era spontaneo usare concetti probabilistici ha obbligato i mate-
matici ad uno sforzo di formalizzazione per porre su solide basi scientifiche quelli che prima
erano stati risultati interessanti, talvolta profondi, ma sparsi e senza una teoria coerente che
li sostenesse e li ponesse in un quadro unitario. A cavallo tra la seconda metà dell’Ottocento
e l’inizio del Novecento si compie il lavoro di preparazione, nel quale svolgono un ruolo
importante le scuole francesi (Poincaré, Borel, Lebesgue, Fréchet, . . . ) e russa (Čebyšev,
Markov, Lyapunov, . . . ). Ancora nel 1919, von Mises poteva dichiarare che “la teoria
delle probabilità non è una disciplina matematica”; nello stesso articolo esprimeva però la
convinzione che la probabilità fosse “una scienza naturale dello stesso genere della geometria
o della meccanica” e che dovesse essere considerata il modello matematico di una certa classe
di fenomeni. Come si vede si tratta di un punto di vista molto moderno. In un articolo del
1926, alla vigilia della sistemazione definitiva della probabilità, Cramér scriveva:

Il concetto di probabilità dovrebbe essere introdotto mediante una definizione pura-


mente matematica, dalla quale le sue proprietà fondamentali ed i teoremi classici si
deducono per via puramente matematica. . . . D’altro canto occorre sottolineare che la
teoria matematica non prova alcunché sugli eventi reali. Le formule della probabilità
sono altrettanto incapaci di dettare lo svolgersi degli eventi reali quanto le formule
della meccanica classica lo sono di prescrivere che le stelle si debbano attrarre secondo
le leggi di Newton. Solo l’esperienza ci può guidare e mostrare se il nostro modello
matematico fornisca un’approssimazione accettabile delle nostre osservazioni.

Il lavoro di preparazione culmina, dopo la sistemazione definitiva della Teoria della Misura,
nella sintesi di Kolmogorov del 1933. Oggi, le considerazioni probabilistiche si incontrano
spesso nelle applicazioni, sicché il modo di ragionare probabilistico costituisce un ingrediente
importante della formazione scientifica matematica. Si tenga presente che considerazioni di
probabilità sono alla base della Meccanica Quantistica.
Esempı̂ tipici, e molto semplici, di situazioni nelle quali vi è incertezza sull’esito di un
fenomeno, sono il lancio di un dado o di una moneta, ma anche la previsione del tempo
di domani. Si osservi che nel lancio di una moneta, per esempio, non vi sarebbe alcuna
incertezza sull’esito se si conoscessero le condizioni iniziali (posizione al momento del lancio,
velocità e forza con la quale si lancia la moneta, etc.) e la struttura del sistema (peso,
forma, dimensioni della moneta, etc.); in queste condizioni, con un po’ di pazienza (e buone
conoscenze di Meccanica) si potrebbero risolvere le equazioni del moto e prevedere quale
faccia della moneta sarà rivolta verso l’alto. In effetti, nessuno userà un approccio simile,
che, evidentemente, non è facilmente estendibile a sistemi piú complicati della semplice
moneta. La prima definizione della probabilità è dovuta a Laplace all’inizio dell’Ottocento
1.1. CHE COS’È LA PROBABILITÀ? 3

ed è riassunta nella formula


N (A)
P(A) = , (1.1.1)
N (Ω)
che si interpreta, tradizionalmente, dicendo che la probabilità di un evento A è il rapporto
tra il numero N (A) dei casi favorevoli al realizzarsi dell’evento A ed il numero N (Ω) dei casi
possibili, se (e si tratta di un’ipotesi cruciale) questi sono egualmente possibili (ritorneremo
su quest’espressione). Mentre, da un lato, questa definizione trova vasta applicazione in
molte situazioni, essa presenta alcune pecche che non paiono facilmente eliminabili: intanto
è restrittivo dover considerare solo fenomeni che presentino un numero finito di risultati,
perché è evidente che la (1.1.1) perde significato se N (Ω) e/o N (A) sono infiniti. Non
è, inoltre, immediato che, in tutti i fenomeni che si vogliono studiare, i possibili risultati
abbiano la stessa probabilità. Ma è piú grave che la definizione dipenda dalla condizione
che i possibili risultati debbano essere egualmente possibili; anche se Laplace diceva che
non vi dovesse essere ragione per ritenere che uno fosse piú probabile dei rimanenti, la
definizione viene a dipendere da un’idea non precisata del concetto di probabilità che si
voleva per l’appunto definire. Perciò la (1.1.1), benché utile, non può servire come base per
la definizione di probabilità. Un approccio che ha incontrato notevole successo, in ispecie
nelle discipline sperimentali, è la cosiddetta interpretazione delle probabilità come frequenze.
In questo approccio si immagina di ripetere lo stesso esperimento n volte e si considera la
frequenza con la quale l’evento in esame si manifesta; tale frequenza è, per definizione, il
rapporto n(A)/n, essendo n(A) il numero di volte nelle quali l’evento A si è realizzato nel
corso delle n ripetizioni dell’esperimento. Si definisce ora come probabilità dell’evento A il
limite
n(A)
P(A) := lim . (1.1.2)
n→+∞ n
Questa definizione pone almeno due difficoltà, una di carattere tecnico, l’altra di natura
concettuale: la prima è che non è chiaro in quale senso si debba intendere il limite. Sono,
infatti, numerosi i tipi di limite che si considerano in probabilità; scegliere uno di questi modi
di convergenza appianerebbe questa difficoltà, ma porrebbe subito il problema di giustificare
la scelta fatta. Quanto alla difficoltà concettuale, appare evidente come la (1.1.2) limiti la
definizione di probabilità a quei fenomeni che siano riproducibili indefinitamente: mentre
questo può ben adattarsi ad alcune discipline sperimentali, nelle quali, in condizioni di
laboratorio, un esperimento può essere ripetuto, almeno in linea di principio, un numero
infinito di volte, non sembra costituire un buon modello per tutte le situazioni alle quali si
potrebbe pensare di applicare considerazioni di tipo probabilistico. Cosı́, per esempio, nel
lancio di un dado, il limite (1.1.2) non dà alcuna informazione sul risultato del lancio che
si sta per eseguire, benché, naturalmente, dica qualcosa sul comportamento delle frequenze
in una serie (infinita) di lanci. Inoltre la definizione (1.1.2) esclude tutti gli eventi che
si considerino nella loro individualità, sicché diviene, a rigore, privo di significato porsi la
domanda: qual è la probabilità che domani piova? è infatti il domani un evento unico e
irripetibile. Si osservi che la definizione (1.1.2) rende la probabilità una proprietà intrinseca
del fenomeno, come sono, per esempio, la temperatura, il peso, la velocità di un corpo.
L’approccio che evita gli inconvenienti di quelli che abbiamo sommariamente abbozzato
sopra, è quello di considerare la probabilità di un evento come il grado di fiducia nel realiz-
zarsi dell’evento da parte dell’osservatore. Tale approccio è stato illustrato con semplicità e
profondità, in numerosi scritti, da Bruno de Finetti. Si consideri l’esempio di una partita tra
due giocatori, uno dei quali sia un baro: è evidente che in queste condizioni le previsioni dei
due giocatori saranno differenti. Se, per esempio, essi stanno giocando a dadi, il giocatore
“onesto” sarà portato, in mancanza di altre informazioni, ad attribuire probabilità 1/6
ad ogni faccia del dado (in accordo con la (1.1.1)), mentre il baro darà una valutazione
differente della probabilità di ogni faccia, valutazione che terrà conto della sua conoscenza
della struttura del dado truccato (per esempio, della posizione del suo baricentro). Si può
dire, anticipando sviluppi futuri, che ogni probabilità è una probabilità condizionata (per le
probabilità condizionate si veda, oltre, la sezione 1.6). In questo approccio è ovvio che la
4 CAPITOLO 1. PROBABILITÀ DISCRETE

probabilità non è una proprietà intrinseca dell’evento, ma dipende dalla valutazione che ne
fa l’osservatore: per questa ragione si parla di probabilità soggettive. A chi scrive sembra che
questo approccio sia il solo valido. Lo studente potrà conoscerlo nel libro di de Finetti Teoria
delle Probabilità, citato in bibliografia. La trattazione di questi appunti prescinderà, tuttavia
dall’interpretazione che si dà alla probabilità per adottare un’impostazione assiomatica,
quella formulata da Kolmogorov nel 1933, e alla quale si è fatto cenno sopra. In questa
formulazione, come del resto in tutte le formulazioni assiomatiche, si evitano le polemiche
riguardanti il significato delle probabilità.
Gli eventi saranno rappresentati da sottoinsiemi di un insieme non vuoto Ω(6= ∅). La
scelta dell’insieme Ω può non essere unica, e la teoria non dà regole per la costruzione dello
spazio Ω che si chiama solitamente spazio dei risultati o spazio dei campioni o, ancora,
spazio campionario. È bene che lo studente, nell’avvicinarsi per la prima volta al Calcolo
delle Probabilità, si abitui, in ogni esercizio, a scrivere esplicitamente che cosa sia l’insieme
Ω; con un po’ di pratica, non dovrebbe essere difficile costruirlo. Lo spazio Ω è, cosı́, parte del
modello che si costruisce per rappresentare un fenomeno. La condizione piú importante alla
quale deve ottemperare Ω è che contenga tutti i possibili risultati che ci possano attendere
dal fenomeno del quale si vuole costruire il modello.

Esempio 1.1.1. Se si lancia una moneta lo spazio dei risultati può essere rappresentato
come Ω = {C, T } con ovvio significato dei simboli. Rappresentazioni equivalenti sono Ω =
{0, 1} oppure Ω = {s, f } ove s indica, convenzionalemente, il “successo” e f il “fallimento”.
Le denominazioni di “successo” e “fallimento” sono convenzionali e possono essere scambiate
tra loro. Nella sua semplicità questo modello è fondamentale e riccore ogni qual volta
si sia interessati alla partizione dei risultati, che possono essere anche piú d’uno, in due
sottoinsiemi.
Se si ha il dubbio che la moneta possa rimanere in bilico sul bordo si può ampiare Ω e
prendere Ω = {C, T, B}; al piú si attribuirà probabilità nulla all’esito B. 

Esempio 1.1.2. Si supponga di lanciare un dado; in questo caso si può scrivere Ω =


{1, . . . , 6}. La roulette è un gioco d’azzardo nel quale si lancia una pallina su un piatto
orizzontale diviso in 37 spicchi di egual ampiezza numerati da 0 a 37 (nei casinò americani
le caselle sono 38 perché si aggiunge il doppio zero 00). Lo spazio dei risultati è Ω =
{0, 1, . . . , 36}. 

Esempio 1.1.3. Come ultimo esempio si prenda in considerazione la misura dell’altezza


degli individui di una popolazione. Se le altezze si misurano in centimetri è ragionevole
porre Ω = {50, 51, . . . , 300}; se la misura è effettuata in mezzi centimetri, come si faceva
mediante l’antropometro durante la visita militare di leva, si adotterà

Ω = {50, 50.5, 51, 51.5, . . . , 299.5, 300} .

Infine, se uno strumento consentisse di misurare le altezze nel continuo, si adotterebbe


Ω = [50, 300]. 

Nel seguito parleremo senza fare distinzioni degli eventi o degli insiemi che li rappre-
sentano. Ad operazioni logiche sugli eventi corrispondono operazioni sugli insiemi che li
rappresentano: cosı́, dati gli eventi A e B (che, per una volta, si rappresenteranno con sim-
boli diversi da quelli usati per gli insiemi) ad essi si faranno corrispondere gli insiemi A e
B; all’evento A ∧ B (è questo l’evento “si realizzano tanto A quanto B”) si fa corrispondere
l’insieme A ∩ B. Analogamente, all’evento A ∨ B (=“si realizza uno almeno degli eventi A
o B”) si fa corrispondere l’insieme A ∪ B. All’opposto, ¬A, di un evento A corrisponde il
complementare Ac dell’insieme A. Altre corrispondenze tra operazioni logiche sugli eventi
e operazioni sugli insiemi che li rappresentano si vedranno nel seguito.
1.2. OPERAZIONI SUGLI INSIEMI 5

1.2 Operazioni sugli insiemi


Il complementare di un insieme A sarà indicato con Ac . Valgono le note leggi di De Morgan:
!c !c
[ \ \ [
Aι = Acι , Aι = Acι
ι∈I ι∈I ι∈I ι∈I

ove I è un’arbitraria famiglia di indici (in particolare, non si fa alcuna ipotesi sulla car-
dinalità di I); vale, inoltre, la relazione (Ac )c = A, che mostra come l’operazione di
complementazione sia involutoria.
È opportuno ricordare le relazioni, valide per ogni insieme A,
\ [ [ \
A ∅ = ∅, A ∅ = A, A Ω = Ω, A Ω = A.

La differenza di due insiemi A, B ⊂ Ω è definita da

A \ B := {ω ∈ Ω : ω ∈ A, ω ∈
/ B}.

Due insiemi A, B ⊂ Ω si dicono disgiunti se accade che essi non abbiano punti in comune,
A ∩ B = ∅; riferendosi ad eventi, si dice che essi si escludono mutuamente. Si osservi che le
relazioni \ [
A⊂B A B=B A B=B
sono equivalenti e si leggono “A è incluso in B” o “B include A” o, ancora “A implica B”;
in quest’ultima espressione si fa riferimento agli insiemi A e B come eventi. Si osservi che
il simbolo d’inclusione ⊂ è inteso in senso debole, vale a dire che scrivendo A ⊂ B, si lascia
la possibilità che i due insiemi A e B siano eguali, A = B. Non sarà mai usato in queste
lezioni il simbolo ⊆.
Valgono le relazioni:
\
A \ B = A Bc,
[ [
A = (A ∩ B) (A ∩ B c ) = (A ∩ B) (A \ B)
(si tratta di un’unione disgiunta),
[ [ [
A B=A (B \ A) = B (A \ B) (unioni disgiunte),
\ [
A ⊂ B ⇐⇒ A B = A ⇐⇒ A B = B.

La differenza simmetrica di due insiemi è definita da


[
A∆B := (A \ B) (B \ A) ;

essa corrisponde all’evento “si realizza esattamente uno tra i due eventi A e B”. Le proprietà
della differenza simmetrica, come pure i rapporti con le altre operazioni sugli insiemi, si
troveranno negli esercizı̂.
Si indicherà con P(Ω) la famiglia costituita da tutti i sottoinsiemi dell’insieme non vuoto
Ω, P(Ω) := {A ⊂ Ω}; essa si chiama famiglia delle parti di Ω o potenza di Ω.
Dato un insieme non vuoto Ω (Ω 6= ∅), per ogni sottoinsieme A di Ω si definisce la
funzione indicatrice di A, 1A : Ω → {0, 1} mediante
(
1, se ω ∈ A,
1A (ω) :=
0, se ω ∈/ A.

Ovviamente, 1Ω = 1 e 1∅ = 0 (le funzioni identicamente eguali a 1 e 0, rispettivamente). Nei


corsi di Analisi Matematica si usa spesso, in luogo del nome funzione indicatrice, quello di
6 CAPITOLO 1. PROBABILITÀ DISCRETE

funzione caratteristica; quest’ultimo è però riservato, nel Calcolo delle Probabilità, ad una
diversa funzione che però non costituisce argomento di queste lezioni introduttive. Inoltre
si usano anche i simboli χA e |A|.
Si incontrano difficoltà a considerare come eventi tutti i sottoinsiemi di un insieme Ω.
Occorrerà restringere l’attenzione a particolari famiglie di sottoinsiemi. L’opportunità, intui-
tivamente necessaria, di considerare, accanto all’insieme A, anche il suo complementare Ac
e, oltre agli eventi A e B, anche la loro unione e la loro intersezione, giustifica l’introduzione
della seguente
Definizione 1.2.1. Dato un insieme non vuoto Ω, si chiama algebra di sottoinsiemi di Ω,
ogni famiglia A ⊂ P(Ω), non vuota, che sia stabile per la complementazione, per l’unione
finita e tale che l’insieme vuoto appartenga ad A; cioè:
(a) Ω ∈ A;
(b) A ∈ A =⇒ Ac ∈ A;
S
(c) A, B ∈ A =⇒ A B ∈ A.

Ricordiamo che un’operazione binaria ∗ sopra un dato insieme E, si dice stabile se il


risultato è ancora in E, vale a dire

∀ x, y ∈ E x∗y ∈E.

Naturalmente, se A è un’algebra (di sottoinsiemi di Ω) e se A e B sono in A, allora vi


appartengono anche A ∩ B, A \ B, A∆B; infatti
\  [ c \
A B = Ac Bc , A\B =A Bc ,
[
A∆B = (A \ B) (B \ A) .

Definizione 1.2.2. Si chiama tribú, o σ–algebra, una famiglia F di sottoinsiemi di Ω,


F ⊂ P(Ω), che goda delle seguenti proprietà:

(a) Ω ∈ F;
(b) A ∈ F =⇒ Ac ∈ F;
S
(c) ∀ n ∈ N An ∈ F =⇒ n∈N An ∈ F.

Una tribú è dunque stabile rispetto all’operazione di unione numerabile. Usando le leggi
di de Morgan è immediato dimostrare il seguente
1.2. OPERAZIONI SUGLI INSIEMI 7

Teorema 1.2.1. Sia F una tribú di sottoinsiemi di Ω. Allora

(a) F è stabile per le unioni finite:


n
[
Ai ∈ F(i = 1, . . . , n) =⇒ Ai ∈ F ;
i=1

(b) F è stabile rispetto alle intersezioni numerabili:


\
∀n ∈ N An ∈ F =⇒ An ∈ F ,
n∈N

(c) F è stabile rispetto alle intersezioni finite:


n
\
Ai ∈ F (i = 1, 2, . . . , n) =⇒ Ai ∈ F .
i=1

Si osservi che una tribú è anche un’algebra. Naturalmente, come si vedrà, non tutte le
algebre sono anche tribú.
La classe delle tribú di sottoinsiemi di un insieme non vuoto Ω è ordinata, parzialmente,
rispetto all’inclusione e contiene una piú piccola tribú, la tribú banale, N := {∅, Ω} ed
una piú grande tribú, che è la famiglia delle parti P(Ω), sicché, per ogni tribú F, si ha
N ⊂ F ⊂ P(Ω).
Sia A un sottoinsieme proprio e non vuoto di Ω, cioè A 6= ∅ e A 6= Ω; la famiglia
F(A) := {∅, A, Ac , Ω} è un’algebra; è anzi, una tribú, poiché ogni algebra finita è anche una
tribú, dato che ogni successione è necessariamente composta da un numero finito di insiemi
distinti, sicché ogni unione numerabile è, di fatto, un’unione finita; essa è la piú piccola tribú
che contenga A (e si dice generata da A). Infatti se G è una tribú che contiene A, risulta,
per definizione,
A ∈ G , Ac ∈ G , ∅ ∈ G , Ω ∈ G ,
onde F(A) ⊂ G. Si noti che se i sottoinsiemi A e B sono differenti, le tribú F(A) e F(B)
non sono paragonabili.
Il teorema seguente è di dimostrazione banale.

Teorema 1.2.2. Se {Fι : ι ∈ I} è un’arbitraria famiglia di tribú di sottoinsiemi di Ω, è


una tribú anche ∩ι∈I Fι .

Quest’ultimo risultato consente di risolvere il problema dell’esistenza della piú piccola


tribú che contenga un’assegnata famiglia C di sottoinsiemi di Ω. Tale tribú si indica con
F(C) e si dice generata da C; essa è eguale all’intersezione di tutte le tribú in P(Ω) che
contengano C. Si noti che la famiglia della quale si considera l’intersezione non è vuota
perché vi appartiene almeno P(Ω). Un esempio fondamentale di tale situazione è fornito
dalla famiglia I degli intervalli aperti della retta reale R, I := {]a, b[: a, b ∈ R, a ≤ b}; si
osservi che la condizione a ≤ b, in luogo di quella piú naturale a < b, fa sı́ che l’insieme
vuoto ∅ sia considerato come un particolare intervallo, ciò che è comodo. I non è un’algebra
(e pertanto neanche una tribú), poiché se, ad esempio, a < b < c < d, l’unione ]a, b[ ∪ ]c, d[
non è un intervallo. La tribú generata da I si chiama tribú di Borel e la si denota con B(R)
o, se non sorgono ambiguità, semplicemente con B; i suoi insiemi si chiamano boreliani. Vale
il seguente utile

Teorema 1.2.3. La tribú di Borel B(R) è generata da una qualsiasi delle seguenti famiglie:

(a) le semirette del tipo ] − ∞, x] (x ∈ R);

(b) gli insiemi aperti di R;


8 CAPITOLO 1. PROBABILITÀ DISCRETE

(c) gli insiemi chiusi di R.

Dimostrazione. Sia B = B(R) e si indichi con B1 la tribú generata dalla famiglia indicata in
(a). Si osservi che anche gli intervalli aperti a sinistra e chiusi a destra, cioè del tipo ]a, b],
con a e b in R, appartengono a B. Infatti
\  1

]a, b] = a, b + .
n
n∈N

Ora ]x, +∞[ = ∪n∈N ]x, x + n] che appartiene a B onde


c
]−∞, x] = ]x, +∞[ ∈ B,
c
e perciò B1 ⊂ B. D’altra parte, ]x, +∞[ = ]−∞, x] ∈ B1 onde, se x < y,
\
]x, y] = ]−∞, y] ]x, +∞[ ∈ B1 .

Infine ]x, y[ = ∪n∈N ]x, y − 1/n] ∈ B1 . Dunque B ⊂ B1 e quindi B1 = B.


Si indichi con B2 la tribú generata dagli aperti. Poiché l’intervallo ]x, y[ è esso stesso un
aperto, si ha B ⊂ B2 . Se A ⊂ R è aperto, esiste, com’è noto, una successione (]xn , yn [) di
intervalli aperti tale che si possa rappresentare A nella forma A = ∪n∈N ]xn , yn [ onde A ∈ B
e quindi B2 ⊂ B. Che B sia generata anche dagli insiemi chiusi è ora immediato.

Se F è la tribú generata dalla famiglia C, non si può, in generale, dare una descrizione
costruttiva degli elementi di F partendo dagli elementi di C.
Nel seguito si diranno misurabili (o, ove vi sia possibilità di confusione, F–misurabili )
gli insiemi appartenenti ad una prefissata tribú F. Si dirà spazio misurabile la coppia (Ω, F)
costituita da un insieme non vuoto Ω e da una tribú F di suoi sottoinsiemi.

1.3 Probabilità discrete


Diamo ora la definizione di probabilità in una forma equivalente a quella proposta da
Kolmogorov nel 1933.

Definizione 1.3.1. Dato uno spazio misurabile (Ω, F) — vale a dire un insieme non vuoto
Ω ed una tribú F di suoi sottoinsiemi — si dice (misura di) probabilità su (Ω, F) ogni
funzione P : F → R che soddisfaccia alle seguenti condizioni:

(P.1) P(A) ≥ 0 per ogni insieme A ∈ F;

(P.2) P(Ω) = 1;

(P.3) per ogni successione (An )n∈N di insiemi misurabili disgiunti (An ∈ F, per ogni n ∈ N,
con Aj ∩ Ak = ∅ (j 6= k)), vale la proprietà di additività numerabile o σ–additività:
!
[ X
P An = P(An ) .
n∈N n∈N

Una terna (Ω, F, P) formata da uno spazio misurabile e da una misura di probabilità su
F si dice spazio di probabilità.
Diamo ora alcune conseguenze elementari della definizione appena data, avvertendo che
tutti gli insiemi che compaiono si intendono appartenere all’assegnata tribú F.

P(∅) = 0. (1.3.1)
1.3. PROBABILITÀ DISCRETE 9

Si consideri una successione (An ) tale che A1 = Ω e An = ∅ per n ≥ 2; si tratta, eviden-


temente, di una successione di insiemi disgiunti, alla quale è quindi possibile applicare la
(P.3), ottenendo cosı́

!
[ X
1 = P(Ω) = P An = 1 + P(∅) ;
n∈N n=2

l’ultima serie scritta è convergente ed ha i termini tutti eguali a P(∅); l’unica serie a termini
costanti che risulti convergente è quella con i termini tutti nulli; dunque P(∅) = 0, come
asserito.
Siano ora A e B due insiemi misurabili disgiunti (A ∩ B = ∅). Si consideri la successione
(An )n∈N cosı́ definita: A1 = A, A2 = B, An = ∅ per n ≥ 3. Per questa successione è
∪n∈N An = A ∪ B; la (P.3) e la (1.3.1) danno
 [ 
P A B = P(A) + P(B) , (1.3.2)

proprietà che si dice di additività semplice. Si è quindi visto che l’additività semplice (1.3.2)
vale in ogni spazio di probabilità. Esistono esempı̂ nei quali vale la (1.3.2) senza che valga
la (P.3); quest’ultima è dunque una proprietà piú forte. Inoltre si vede facilmente per
induzione finita che la proprietà di additività semplice si estende ad un numero finito di
insiemi disgiunti: se A1 , . . . , An sono insiemi a due a due disgiunti, Aj ∩ Ak = ∅ per j 6= k,
allora  
[n Xn
P Aj  = P(Aj ) .
j=1 j=1

In un insieme finito risulta impossibile considerare una successione di insiemi disgiunti


che siano contemporaneamente distinti e differenti dall’insieme vuoto. In tal caso sarà
possibile sostituire all’assioma di additività numerabile (P.3) quello di additività semplice
(1.3.2).
La differenza di due insiemi è
 \   \ 
P (B \ A) = P B Ac = P(B) − P A B . (1.3.3)

Infatti, per la distributività delle operazioni di unione e intersezione, si ha


\ \ [   \ [ \ 
B=B Ω=B A Ac = B A B Ac ,

che è un’unione disgiunta, onde P(B) = P(B ∩ A) + P(B ∩ Ac ).

P(Ac ) = 1 − P(A) . (1.3.4)


Basta porre B = Ω nella (1.3.3).
Se i due insiemi considerati non sono necessariamente disgiunti la proprietà (1.3.2) si
sostituisce con la seguente
 [   \ 
P A B = P(A) + P(B) − P A B : (1.3.5)

basta scrivere A ∪ B come un’unione disgiunta A ∪ B = A ∪ (B \ A); l’asserto segue ora dalla
(P.3) e dalla (1.3.3).

A⊂B =⇒ P(A) ≤ P(B) . (1.3.6)


Segue infatti dalla (P.1) e dalla (1.3.3) che
 \ 
0 ≤ P(B \ A) = P(B) − P A B = P(B) − P(A) .
10 CAPITOLO 1. PROBABILITÀ DISCRETE

La (1.3.6) si esprime dicendo che le probabilità sono isotone (o crescenti) rispetto all’inclu-
sione.
∀A ∈ F 0 ≤ P(A) ≤ 1 . (1.3.7)
Per quest’ultima relazione basta osservare che ∅ ⊂ A ⊂ Ω ed usare la (1.3.6), la (1.3.1) e la
(P.2).
È notevole la diseguaglianza di Boole
 [ 
P(A) + P(B) ≥ P A B . (1.3.8)

Questa è conseguenza della (1.3.5) e della (P.1). Per induzione la (1.3.8) si estende al caso
di un numero finito di insiemi.
n
! n
[ X
P Ai ≤ P(Ai ) . (1.3.9)
i=1 i=1

Vale per le probabilità il seguente risultato che si potrebbe chiamare “di passaggio al
limite lungo le successioni monotone di insiemi”.

Teorema 1.3.1. (a) Nello spazio di probabilità (Ω, F, P) sia (An ) una successione crescente
di insiemi di F, An ∈ F per ogni n ∈ N,

A1 ⊂ A2 ⊂ · · · ⊂ An ⊂ . . . ;

allora, posto A := ∪n∈N An , è


P(A) = lim P(An ) . (1.3.10)
n→+∞

(b) Se (An ) è una successione decrescente di insiemi di F, An ∈ F per ogni n ∈ N,

A1 ⊃ A2 ⊃ · · · ⊃ An ⊃ . . . ;

allora, posto A := ∩n∈N An , è


P(A) = lim P(An ) . (1.3.11)
n→+∞

Dimostrazione. (a) Sia data una successione crescente (An ) di insiemi misurabili e si definis-
ca, a partire da questa, una nuova successione (Bn ) cosı́ definita
\
B1 := A1 , Bn := An \ An−1 = An Acn−1 , . . . .

La nuova successione è costituita da insiemi disgiunti, Bk ∩ Bn = ∅ se k = 6 n; infatti,


supposto, k < n, si ha, per definizione, Bk ⊂ Ak , mentre Bn ⊂ Acn−1 ⊂ · · · ⊂ Ack , poiché
l’inclusione Ak ⊂ An equivale all’altra Acn ⊂ Ack .
Per ogni n ∈ N vale l’eguaglianza
n
[
An = Bj . (1.3.12)
j=1

Se j ≤ n, si ha Bj ⊂ Aj ⊂ An , sicché vale l’inclusione


n
[
B j ⊂ An .
j=1

Per dimostrare l’inclusione inversa, si consideri un qualsiasi punto ω di An e si introduca

k = k(ω) := min{j ∈ {1, 2, . . . , n} : ω ∈ Bj } ,


1.3. PROBABILITÀ DISCRETE 11

il minimo indice j per il quale ω appartiene a Bj . È ora evidente che vale l’inclusione
n
[
An ⊂ Bj .
j=1

Ciò stabilisce la (1.3.12).


In maniera del tutto analoga si dimostra che vale l’eguaglianza
[
A= Bn .
n∈N

Dalla (1.3.12) e dalla proprietà di additività finita si ottiene, per ogni n ∈ N,


n
X
P(An ) = P(Bj ) ;
j=1

d’altro canto, segue dalla definizione di somma di una serie che


X n
X
P(A) = P(Bj ) = lim P(Bj ) = lim P(An ) ,
n→+∞ n→+∞
j∈N j=1

vale a dire la (1.3.10).


(b) Se si ha una successione decrescente A1 ⊃ A2 ⊃ · · · ⊃ An ⊃ . . . , si consideri la
successione dei complementari, per la quale l’inclusione inversa
Ac1 ⊂ Ac2 ⊂ · · · ⊂ Acn ⊂ . . . .
Sfruttando quanto dimostrato in (a), si ha
! !
\ [
P(A) = P An = 1 − P(Ac ) = 1 − P Acn = 1 − lim P(Acn )
n→+∞
n∈N n∈N
= 1 − lim {1 − P(An )} = lim P(An ) ,
n→+∞ n→+∞

ciò che dimostra la (1.3.11).

Sia Ω un insieme finito o numerabile, con Ω = {ω1 , . . . , ωn , . . . }. È naturale supporre che


la tribú sulla quale è definita la probabilità contenga i singoletti {ωn }; risultano cosı́ definiti
i numeri positivi pn := P({ωn }) per n ∈ N. Ma è ora possibile calcolare la probabilità di
un qualsiasi sottoinsieme A di Ω; infatti, in virtú della (P.3), è
X
P(A) = P({ωn }).
ωn ∈A
P
Dalla (P.2) segue che n pn = 1; si tratterà di una somma finita o di una serie secondo che
Ω sia finito o numerabile, rispettivamente. P
Viceversa, dati i numeri positivi pn ≥ 0 (n ∈ N) con n pn = 1, resta P individuata una
probabilità P sulla famiglia delle parti P(Ω) definita mediante P(A) := ωi ∈A pi .
Si vede cosı́ che non è restrittivo, quando l’insieme Ω sia finito o numerabile, supporre
che la probabilità sia definita sulla famiglia delle parti P(Ω); nel seguito di questo capitolo,
si supporrà sempre di porsi in queste condizioni. Una probabilità definita sulla famiglia
delle parti di un insieme Ω finito o numerabile, card(Ω) ≤ ℵ0 , si dirà discreta.
Se Ω è finito e se ragioni di simmetria, o l’informazione a disposizione, portano a ritenere
equiprobabili gli eventi {ωi } (detti elementari ), si avrà p = 1/n (in tal caso si parlerà di
legge, o distribuzione uniforme) e quindi per ogni sottoinsieme A di Ω
N (A)
P(A) = (1.3.13)
N (Ω)
12 CAPITOLO 1. PROBABILITÀ DISCRETE

ove, per semplicità, si è posto N (A) := card(A). La (1.3.13) è, essenzialmente, la definizione
classica di probabilità dovuta a Laplace che abbiamo già incontrato. I problemi di proba-
bilità basati sulla (1.3.13), e ve ne sono molti ed importanti per le applicazioni, sono quindi di
fatto problemi di calcolo combinatorio. Riterremo noti gli elementi del calcolo combinatorio,
limitandoci a richiamarli nelle sezioni successive, quando necessario.
Nel seguito di questo capitolo tratteremo solo di probabilità discrete.

1.4 Alcuni problemi d’urna


Molti problemi di probabilità discreta possono essere ricondotti al caso dell’estrazione di
palline da un’urna, o da piú urne, o al collocamento di palline in piú urne; in probabilità
si indica con il nome urna una scatola che contenga un certo numero di palline. Questo
genere di problemi va sotto il nome di problemi o schemi d’urna. Questi schematizzano
efficacemente un gran numero di situazioni apparentemente diverse.
Quando si tratta di estrazioni di palline da un’urna, occorrerà, in primo luogo, distinguere
se l’estrazione avvenga con restituzione (o sostituzione o reimbussolamento, o, ancora, rimes-
sa, rimpiazzo) o senza restituzione, vale a dire, se ogni pallina estratta sia, o non sia, posta
nuovamente nell’urna dopo ogni estrazione e prima dell’estrazione successiva. Quando si
estragga una sola pallina, non vi è alcuna differenza tra le due modalità d’estrazione; ma,
già estraendo due palline, si vede che, nell’estrazione con sostituzione, la seconda pallina è
estratta da un’urna di composizione identica a quella dell’urna dalla quale è stata estratta la
prima pallina, mentre, nell’estrazione senza restituzione, l’urna contiene un diverso numero
di palline al momento della seconda estrazione.
Esempio 1.4.1. Un’urna contiene n palline, delle quali b sono bianche e c sono colorate
(b + c = n). Qual è la probabilità che, nell’estrazione di due palline,
(a) la prima pallina estratta sia bianca?
(b) la seconda pallina estratta sia bianca?
(c) entrambe le palline estratte siano bianche?
Si può fare l’ipotesi che le palline contenute nell’urna siano distinguibili; per esempio, e
per semplicità, le si potranno supporre numerate da 1 a n, le palline bianche portando i
numeri da 1 a b. Detti B1 e B2 gli eventi “estrazione di una pallina bianca alla prima
(rispettivamente seconda) estrazione”si chiede di calcolare le probabilità degli eventi B1 , B2
e B1 ∩ B2 . Scrivendo cosı́, si commette in effetti un abuso di notazione perché, a rigore, si
dovrebbero indicare con simboli differenti insiemi con lo stesso significato ma presi in ispazı̂
diversi.
Estrazione con restituzione. Si può costruire un modello prendendo

Ω = {(x1 , x2 ) : xi = 1, 2, . . . , n (i = 1, 2)}.

Con x1 e x2 si indicano i numeri delle palline estratte rispettivamente alla prima e alla
seconda estrazione. Poiché l’urna ha la medesima composizione nelle due estrazioni, risulta
N (Ω) = n2 ; e N (B1 ) = bn, N (B2 ) = nb, N (B1 ∩ B2 ) = b2 , sicché la (1.3.13) dà P(B1 ) =
b/n = P(B2 ) e P(B1 ∩B2 ) = b2 /n2 . Si osservi che, in questo caso, P(B1 ∩B2 ) = P(B1 ) P(B2 ).

Estrazione senza restituzione. In questo caso si può prendere come spazio dei risultati
l’insieme Ω1 = {(x1 , x2 ) : x1 6= x2 }. La condizione x1 6= x2 è imposta dall’ipotesi (“senza
restituzione”) che una pallina già estratta non possa essere estratta nuovamente. Si osservi
che lo spazio dei risultati appena introdotto, Ω1 è un sottoinsieme proprio dello spazio dei
risultati Ω usato per descrivere l’estrazione con restituzione di due palline. Se si indica
con Dn,k il numero delle disposizioni semplici di n oggetti a k a k, o ciò che è lo stesso, il
1.4. ALCUNI PROBLEMI D’URNA 13

numero delle funzioni iniettive da un insieme di cardinalità k ad uno di cardinalità n, si ha,


evidentemente, N (Ω1 ) = Dn,2 = n(n − 1), N (B1 ) = b(n − 1) sicché, se si indica con P1 la
probabilità su Ω1 , P1 (B1 ) = b/n, come nel caso dell’estrazione con restituzione. Per calcolare
P1 (B2 ), si osservi che si ha B2 = (B1 ∩B2 )∪(B1c ∩B2 ), onde P1 (B2 ) = P(B1 ∩B2 )+P(B1c ∩B2 );
ma N (B1 ∩ B2 ) = b(b − 1) e N (B1c ∩ B2 ) = (n − b)b, sicché

b(b − 1) + (n − b)b b
P1 (B2 ) = = .
n(n − 1) n

Non deve sembrare paradossale che sia P1 (B1 ) = P1 (B2 ), cioè che la probabilità di estrarre
una pallina bianca sia la stessa per la seconda estrazione che per la prima. Ciò è dovuto al
fatto che nel calcolare la probabilità di B non si sa, perché non è detto, se la prima pallina
estratta sia bianca (evento B1 ∩ B2 ) oppure colorata (evento B1c ∩ B2 ). La probabilità di
B2 avrebbe un valore diverso da quello trovato se si conoscesse il colore della prima pallina
estratta; si vedrà nel seguito, nello studiare le probabilità condizionate, come calcolare questo
nuovo valore. Si ha qui conferma dell’affermazione che la probabilità non è una proprietà
intrinseca degli eventi ma dipende dall’informazione che si possiede circa l’evento stesso.
Infine P1 (B1 ∩ B2 ) = b(b − 1)/(n(n − 1)). Al contrario dell’estrazione con restituzione,
è ora P1 (B1 ∩ B2 ) 6= P1 (B1 ) P1 (B2 ). 
Esempio 1.4.2. (Ripetizioni in un’estrazione con restituzione). Si estraggono con resti-
tuzione k palline da un’urna che ne contiene n, numerate da 1 a n. Qual è la probabilità
che non si estraggano palline con lo stesso numero?
Evidentemente,

Ωk = {(x1 , x2 , . . . , xk ) : xi = 1, 2, . . . , n, (i = 1, 2, . . . , k)}

rappresenta tutti i possibili risultati nell’estrazione delle r palline. Si chiede di calcolare la


probabilità dell’evento

Ak := {(x1 , x2 , . . . , xn ) : xi 6= xj (i 6= j)} .

Si ha N (Ωk ) = nk (che è il numero delle disposizioni con ripetizione di n oggetti a k a k,


o, ciò che è equivalente, il numero delle funzioni da un insieme di cardinalità k in uno di
cardinalità n); N (Ak ) = Dn,k se k ≤ n, N (Ak ) = 0 se k > n, sicché, se k ≤ n,
    
1 2 k−1
P(Ak ) = 1 − 1− ... 1 − .
n n n

Si può anche calcolare la probabilità di avere almeno una ripetizione, cioè che almeno due
delle palline estratte portino lo stesso numero: è P(Ack ) = 1 − P(Ak ).
Questo esempio è anche la formalizzazione del celebre problema dei compleanni, in-
trodotto da von Mises: Se in una stanza sono presenti k persone, qual è la probabilità che
almeno due tra i presenti abbiano il compleanno nello stesso giorno? Per rispondere a ques-
ta domanda si costruisce un modello nel quale i compleanni possibili sono 365, trascurando
cosı́ la possibilità che un compleanno possa cadere il 29 febbraio; si eliminano cioè gli anni
bisestili. Allora si ha n = 365. Con semplici calcoli si vede anche che il minimo numero k
di presenti per il quale, nella notazione di sopra è P(Ak ) > 1/2 è dato da k = 23:

min {k ∈ N : P(Ack ) > 1/2} = 23 .

Il fatto che tale numero sia molto minore del numero 365 dei possibili compleanni fa spesso
parlare del paradosso dei compleanni. 

Esempio 1.4.3. (Probabilità di una coincidenza). Si abbiano n urne numerate da 1 a n e


n palline pure numerate da 1 a n. Si pone una pallina in ogni urna e si dice che si ha una
14 CAPITOLO 1. PROBABILITÀ DISCRETE

coincidenza nell’i–esima urna se in questa si è posta la pallina che porta lo stesso numero.
In seguito si calcolerà la probabilità di avere k coincidenze (si veda la sezione 1.11); per ora,
si può rispondere alla domanda piú semplice: qual è la probabilità dell’evento A che si abbia
una coincidenza nella i–esima urna?
Se xj designa il numero della pallina che è stata posta nella j–esima urna, si pone
Ω = {(x1 , x2 , . . . , xn ) : xi = 1, 2, . . . , xn (xi 6= xj ) (i 6= j)}.
Allora,
Ai = {(x1 , . . . , xi−1 , i, xi+1 , . . . , xn ) ∈ Ω}
sicché N (Ω) = n! e N (Ai ) = (n − 1)!. Perciò P(Ai ) = 1/n. Si osservi che P(Ai ) non dipende
da i. 
Esempio 1.4.4. Si estraggono, con o senza restituzione, n palline da un’urna che ne contiene
b bianche e c colorate. Se l’estrazione avviene senza restituzione, si dovranno imporre l’ovvia
condizioni n ≤ b + c. Per k = 0, 1, . . . , n, qual è la probabilità di estrarre esattamente k
palline bianche?
Se Ak è l’evento del quale si vuole calcolare la probabilità, risulta
  c n−k
n b c
P(Ak ) = (estrazione con restituzione). (1.4.1)
k (b + c)n
 
n Db,k Dc,n−k
P1 (Ak ) = (estrazione senza restituzione) (1.4.2)
k Db+c,n
Basterà stabilire una sola delle ultime due eguaglianze, per esempio la seconda, perché l’altra
si ottiene da questa con lo stesso procedimento, a meno di ovvie modifiche. Al solito si può
supporre che le palline siano numerate da 1 a b + c e che le prime b siano bianche. Nel caso
dell’estrazione senza restituzione sarà, ovviamente k ≤ b.
Nel caso dell’estrazione con restituzione, lo spazio dei risultati si può rappresentare
mediante Ω = {(x1 , x2 , . . . , xn )}, ove xi è il numero della i–esima pallina estratta. Se
l’estrazione avviene senza restituzione, allora si può prendere come spazio dei risultati
Ω1 = {(x1 , x2 , . . . , xn ) : xi 6= xj (i 6= j)};
N (Ω1 ) = Db+c,n . L’evento Ak è costituito dalle n–ple (x1 , x2 , . . . , xn ) di Ω1 con k compo-
nenti comprese tra 1 e b; per calcolare la probabilità di Ak si può procedere come segue. Sia
J = {j1 , j2 , . . . , jk } ⊂ {1, 2, . . . , n} un sottoinsieme di k numeri estratti da {1, 2, . . . , n} e sia
BJ l’evento “si estrae una pallina bianca in tutte le estrazioni che hanno il numero d’ordine
compreso in J e solo in quelle”. Evidentemente, è BJ ⊂ Ak , quale che sia J e Ak = ∪J BJ ;
quest’ultima è un’unione disgiunta eseguita sopra tutti gli nj sottoinsiemi J di k numeri


estratti da {1, 2, . . . , n}. Ora N (BJ ) = Db,k Dc,n−k , sicché


Db,k Dc,n−k
P1 (BJ ) = ,
Db+c,n
espressione che non dipende da J. Perciò
 
X n Db,k Dc,n−k
P1 (Ak ) = P(BJ ) = ,
k Db+c,n
J

cioè la (1.4.2).
Nell’estrazione con restituzione si ha N (BJ ) = bk cn−k .
La (1.4.2) si può porre, con facili calcoli, nella forma piú intuitiva
  
b c
k n−k
P1 (Ak ) =   , (j = 0, 1, . . . , n)
b+c
n
1.4. ALCUNI PROBLEMI D’URNA 15

che si interpreta dicendo che vi sono b+c



n modi di scegliere n palline tra le b+c a disposizione,
b c
 
k modi di scegliere j palline bianche tra le b a disposizione, e, infine, n−k modi di scegliere
n − 1 palline colorate tra le c a disposizione.
Posto p := b/(b + c), la (1.4.1) si può porre nella forma, che si incontrerà frequentemente
nel seguito,  
n j
P(Aj ) = p (1 − p)n−j (j = 0, 1, . . . , n).
j


Esempio 1.4.5. (Campioni non ordinati o estrazione in blocco). Si può pensare di estrarre
n palline da un’urna che ne contiene N , anziché una alla volta, in modo che si possa parlare
di prima, seconda pallina estratta e cosı́ via, tutte insieme, o, come si suol dire, in blocco.
Il risultato di una tale estrazione, che si può pensare anche ottenuta estraendo le palline ad
una ad una, senza tuttavia registrare in quale ordine le palline siano state estratte, sarà rap-
presentato da n–ple (x1 , . . . , xn ) con xi = 1, . . . , N , n–ple che si possono pensare ordinate in
guisa che risulti x1 ≤ x2 ≤ · · · ≤ xn (tale ordinamento è solo opportuno, ma non necessario;
altri sono possibili); la condizione xi 6= xj se i 6= j sarà, o no, richiesta, secondo che si tratti
di un’estrazione senza o con restituzione.
Nell’estrazione senza restituzione, è N (Ω) = N

n che è, com’è noto, il numero delle
combinazioni semplici di N oggetti a n a n. Se, invece, l’estrazione è con restituzione, è
 
N +n−1
N (Ω) = .
n

È questo il numero delle combinazioni con ripetizione di N oggetti a n a n. La dimostrazione


si svolge per induzione su N . Se n = 1 è, evidentemente, N (Ω) = N = N1 . Si supponga
ora che, per ogni k ≤ N , sia
 
k+n−1
N (Ω) = V (k, n) := ;
n

si vuole dimostrare che il risultato è valido anche per n + 1. Ordinate le (n + 1)–ple nel
modo indicato sopra, si osservi che vi sono V (N, n) (n + 1)–ple con il primo numero eguale
a 1, ve ne sono V (N − 1, n) con il primo numero eguale a 2 e cosı́ via. Vi saranno, infine,
V (1, n) (n + 1)–ple con la prima componente eguale a N . Pertanto

N
X
V (N, n + 1) = V (N, n) + V (N − 1, n) + · · · + V (1, n) = V (i, n) ;
i=1

ma      
k+n−1 k+n k+n−1
V (k, n) = = − ,
n n+1 n+1
sicché
     
N +n N +n−1 N −1+n
V (N, n + 1) = − +
n+1 n+1 n+1
       
N +n−2 n+1 n N +n
− + ··· − + = ,
n+1 n+1 n n+1

ciò che conclude la dimostrazione.


Sia ora, come nell’esempio precedente, Aj l’evento “nell’estrazione di un campione non
ordinato (o a blocchi) di n palline si estraggono esattamente j palline bianche, se sono
bianche b delle N palline”. Nell’estrazione senza restituzione è, ovviamente, N (Aj ) =
16 CAPITOLO 1. PROBABILITÀ DISCRETE

b c
 
j sicché P1 (Aj ) è data ancora dalla (1.4.2), mentre nell’estrazione con restituzione,
n−j
è   
b+j−1 c+n−j−1
j n−j
P2 (Aj ) =   ,
N +n−1
n
che invece non coincide con la (1.4.1). 

Esempio 1.4.6. (Alcune distribuzioni della Meccanica Statistica). Siano date N urne
numerate da 1 a N , nelle quali si collocano n palline (n < N ). Si domanda, nei varı̂ casi
possibili, quale sia la probabilità dell’evento A che ognuna delle urne numerate da 1 a n
contenga esattamente una pallina.
La risposta dipende dalle ipotesi su due aspetti:
(a) l’essere, o no, le palline distinguibili (ricordiamo che in Meccanica classica le particelle
sono distinguibili, mentre non lo sono in Meccanica quantistica);
(b) porre, o no, limitazioni al numero di palline che ciascuna urna può contenere (in
Meccanica quantistica esistono particelle, i cosiddetti fermioni , per i quali non esiste
la possibilità che uno stato ne contenga piú di una, mentre tale limitazione non sussiste
per le particelle che sono chiamate bosoni ).
Se le palline sono distinguibili, si possono, senz’altro, pensare numerate da 1 a n; il risultato
dell’esperimento consistente nel porre le palline nelle urne può essere rappresentato mediante
n–ple (x1 , . . . , xn ), nelle quali xi designa il numero dell’urna nella quale è stata posta l’i–
esima pallina. Se, invece, le palline sono indistinguibili, si può ricorrere agli insiemi di
n elementi {y1 , y2 , . . . , yn }, gli elementi dei quali indicano i numeri delle urne nelle quali
sono state poste le palline. In quest’ultimo caso vi possono essere ripetizioni, se piú di una
pallina è stata posta nella stessa urna. Supponiamo, poi, che si possa imporre una regola di
esclusione che vieti di porre piú di una pallina per urna (il principio di esclusione di Pauli,
valido, appunto, per i fermioni). Imponendo tale regola, in ciascuno dei due casi appena
esaminati, si avrà la condizione xi 6= xj oppure yi 6= yj se i 6= j. Ora, N (Ω) è dato, nei
quattro casi possibili, dai valori che seguono.
Se non vale il principio d’esclusione, si ha

n
N  ,  palline distinguibili,
N (Ω) = N +n−1
 , palline indistinguibili.
n
Si hanno, cosı́, rispettivamente le statistiche di Maxwell–Boltzmann e di Bose–Einstein.
Se vale invece il principio d’esclusione, si ha

D N,n, palline distinguibili,
N (Ω) = N
 , palline indistinguibili.
n
Quest’ulima corisponde alla statistica di Fermi–Dirac. Tanto in presenza quanto in assenza
della regola di esclusione, risulta
N (A) = n!,
se le palline sono distinguibili; si ha, perciò,
 
N
P(A) = n!/DN,n = 1/ e P(A) = n!/N n ,
n
rispettivamente. Se, invece, le palline
 sono indistinguibili, è N (A) = 1 in entrambi i casi,
onde, rispettivamente, P(A) = 1/ N n e P(A) = 1/
N +n−1
n . Si osservi che, imponendo la
regola di esclusione, P(A) ha lo stesso valore sia che le palline siano distinguibili sia che esse
siano indistinguibili. 
1.5. PROBABILITÀ CONDIZIONATA E INDIPENDENZA 17

1.5 Probabilità condizionata e indipendenza


Sia (Ω, F) uno spazio misurabile. Nel caso delle probabilità discrete, si può pensare che sia
F = P(Ω). Un evento B ∈ F si dirà trascurabile se P(B) = 0.
Si supponga che l’evento A sia tale che P(A) > 0 (dunque, A non è trascurabile); se è
noto che si è realizzato l’evento A, questa informazione può essere utilizzata per valutare
diversamente la probabilità di altri eventi.

Esempio 1.5.1. Si torni all’esempio 1.4.1, nel caso dell’estrazione senza restituzione. Se si
sa che la prima pallina estratta è bianca (e quindi in questo caso, A = B1 ), la probabilità
che la seconda pallina estratta sia pure bianca, è (b − 1)/(n − 1) anziché b/n. 

Considerazioni elementari giustificano la seguente

Definizione 1.5.1. Sia P una probabilità definita sugli insiemi di una tribú F di un insieme
Ω e sia A ∈ F un insieme tale che P(A) > 0; si dice probabilità condizionata (o subordinata
o condizionale) da A la funzione

P(· | A) : F → [0, 1]

definita da T
P (A B)
P(B | A) := . (1.5.1)
P(A)


Il risultato seguente è evidente

Proposizione 1.5.1. Una probabilità condizionata P(· | A) è una probabilità tale che

P(A | A) = P(Ω | A) = 1.

Proposizione 1.5.2. Se A1 , . . . , An sono tali che P (∩ni=1 Ai ) > 0, vale la formula delle
probabilità composte:

n
!
\  \ 
Ai = P(A1 ) P(A2 | A1 ) P A3 A1 A2 × . . .

P
i=1
 \ \ 
× P An A1 ··· An−1 . (1.5.2)

Dimostrazione. Poiché P (∩ni=1 Ai ) > 0, e


n
\ n−1
\ \
Ai ⊂ Ai ⊂ · · · ⊂ A1 A2 ⊂ A1 ,
i=1 i=1

tutte le probabilità condizionate che compaiono nella (1.5.2) sono ben definite.

Si dice che una famiglia {An }, finita o numerabile, di eventi è un sistema di costituenti
se sono verificate le due condizioni:
(a) P(An ) > 0 per ogni indice n;
(b) An è una partizione misurabile di Ω, vale a dire che An ∈ F per ogni indice n, che
Ω = ∪n An e che gli insiemi An sono a due a due disgiunti (Ai ∩ Aj = ∅ se i 6= j).
18 CAPITOLO 1. PROBABILITÀ DISCRETE

Proposizione 1.5.3. Se {An } è un sistema di costituenti, vale il teorema delle probabilità


totali: X
P(B) = P(B | An ) P(An ). (1.5.3)
n

Dimostrazione. L’asserto segue dall’osservazione


!
\ \ [ [ \ 
B=B Ω=B An = B An ,
n n

che è un’unione disgiunta.

Teorema 1.5.1. (di Bayes). Nelle ipotesi della proposizione 1.5.3, se P(B) > 0, vale

P(B | Ai ) P(Ai )
P(Ai | B) = P . (1.5.4)
n P(B | An ) P(An )

Dimostrazione. Segue dalla (1.5.1) che


T
P (Ai B) P (B | Ai ) P(Ai )
P (Ai | B) = =
P(B) P(B)

e perciò, mediante la (1.5.3), si ha l’asserto.

Il teorema di Bayes è solitamente usato per calcolare la probabilità delle cause; se è noto
che piú cause, A1 , . . . , An , . . . , possono provocare lo stesso effetto B e se sono note tanto le
probabilità P(An ) delle cause (probabilità che sono dette a priori ) quanto le probabilità con-
dizionate P(B | An ) (che sono dette probative) la (1.5.4) consente di calcolare la probabilità
delle cause avendo osservato l’effetto B.
Il concetto di indipendenza è fondamentale nel Calcolo delle Probabilità. Siano A e
B eventi e sia P(B) ∈ ]0, 1[, sicché restano definite entrambe le probabilità condizionate
α := P(A | B) e β := P(A | B c ). Se α > β l’evento A ha maggior probabilità di manifestarsi
se si realizza B piuttosto che il suo complementare B c ; il realizzarsi di B “favorisce” il
realizzarsi di A. Il contrario accade se α < β. Se si presume che il realizzarsi di A non
dipenda da quello di B, occorre richiedere che sia α = β. In tal caso si ha:

P(A) = P (A | B) P(B) + P (A | B c ) P(B c ) = α P(B) + β P(B c ) = α

cioè P(A) = P (A | B), onde P(A ∩ B) = P(A) P(B). Quanto precede giustifica la seguente

Definizione 1.5.2. Due eventi A e B si dicono (stocasticamente) indipendenti rispetto alla


probabilità P se verificano  \ 
P A B = P(A) P(B). (1.5.5)


La nozione di indipendenza è legata alla particolare misura di probabilità P. Due even-


ti indipendenti rispetto ad una probabilità possono non esserlo piú rispetto ad un’altra
probabilità.
Due eventi disgiunti A ∩ B = ∅ sono indipendenti se, e solo se, almeno uno di essi è
trascurabile.
Vedremo di seguito che il concetto di indipendenza può essere esteso ad ambiti piú
generali.
1.5. PROBABILITÀ CONDIZIONATA E INDIPENDENZA 19

Definizione 1.5.3. Sia P una probabilità definita in F, tribú di sottoinsiemi di Ω, e siano


F1 , . . . , Fn tribú contenute in F; queste si dicono indipendenti se, per ogni scelta di eventi
Ai ∈ Fi (i = 1, . . . , n) è
n
! n
\ Y
P Ai = P(Ai ) . (1.5.6)
i=1 i=1

Le ultime due definizioni sono legate dal seguente teorema

Teorema 1.5.2. Due eventi A e B sono indipendenti se, e solo se, tali sono le tribú F(A)
e F(B) che essi generano.

Dimostrazione. Se F(A) e F(B) sono indipendenti, basta scegliere A ∈ F(A) e B ∈ F(B)


nella (1.5.6) per avere la (1.5.5). Viceversa, se A e B sono indipendenti, occorre stabilire
la (1.5.6) per ogni possibile scelta di due insiemi uno dei quali appartenga a F(A) e l’altro
a F(B). Basta, evidentemente, eseguire le verifiche per le coppie (A, B c ), (Ac , B c ), (A, Ω),
(A, ∅); ora,
 \   \ 
P A B c = P(A) − P A B = P(A) − P(A) P(B)
= P(A) [1 − P(B)] = P(A) P(B c );

 \   [ c   [ 
P Ac Bc = P A B =1−P A B
 \ 
= 1 − P(A) − P(B) + P A B
= 1 − P(A) − P(B) + P(A) P(B)
= (1 − P(A)) (1 − P(B)) = P(Ac )P(B c ) ;
 \ 
P A Ω = P(A) = P(A) · 1 = P(A) P (Ω) ;
 \ 
P A ∅ = 0 = P(A) P(∅) ,

che cosı́ stabiliscono l’asserto.

Definizione 1.5.4. Si dice che n eventi A1 , . . . , An sono indipendenti se sono tali le


tribú F(A1 ), . . . ,F(An ) che essi generano. Gli eventi di una successione (An )n∈N si dicono
indipendenti se, per ogni scelta di n in N, sono indipendenti gli eventi A1 , A2 , . . . , An . 

Secondo la (1.5.6), per verificare


Qn che A1 , A2 , . . . , An siano indipendenti occorre control-
lare che risulti P ∩ni=1 Ai = i=1 P(Ai ), ove, per ogni indice i, Ai può essere uno degli
insiemi Ai , Aci , Ω (non vi è nulla da verificare se Ai = ∅).

Teorema 1.5.3. Dati n eventi A1 , A2 , . . . , An sono equivalenti le condizioni:

(a) essi sono indipendenti;

(b) per ogni numero naturale k ≤ n e per ogni scelta di k numeri i1 , . . . , ik in {1, . . . , n}
si ha  
\k Yk
P Ai j  = P(Aij ).
j=1 j=1
20 CAPITOLO 1. PROBABILITÀ DISCRETE

Dimostrazione. L’implicazione (a) ⇒ (b) è ovvia perché nella (1.5.6) basta prendere As = Ω
se s 6= ij (j = 1, . . . , k).
(b) ⇒ (a) Si ha, ad esempio,
n−1
!
 \ \ \  Y
c
P A1 ··· An−1 An = P(Ai ) P(Acn )
i=1

perché \  \ 
\ \ \ \
n−1
A1 A2 ... An−1 Acn = i=1 Ai \ n
i=1 Ai

sicché
h \ \ i \  \ 
n−1 n−1
P i=1 Ai Acn = P i=1 A i − P n
i=1 Ai
(n−1 )
Y
= P(Ai ) P(Acn ) .
i=1

Le altre relazioni si dimostrano in maniera analoga.

Le verifiche da eseguire per controllare che n eventi A1 , . . . , An siano indipendenti sono


2n − n − 1, si osservi che il numero di verifiche da eseguire cresce esponenzialmente con
n. Si vedrà nella prossima sezione come, di solito, si eviti di eseguire tali verifiche e si
cerchi, invece, di costruire il modello in maniera che opportune classi di eventi risultino
indipendenti.
Se si hanno tre eventi, occorre compiere 4 verifiche; tre eventi possono essere a due a
due indipendenti senza che siano globalmente indipendenti.

Esempio 1.5.2. Sia Ω = {ω1 , ω2 , ω3 , ω4 } con P({ωi }) = 1/4; se A = {ω1 , ω2 }, B = {ω1 , ω3 }


e C = {ω1 , ω4 }, si ha P(A) = P(B) = P(C) = 1/2 e
 \   \   \  1
P A B =P A C =P B C = P ({ω1 }) = ,
4
sicché gli eventi A, B, C a due a due indipendenti, senza però essere indipendenti perché
 \ \  1 1
P A B C = P({ω1 }) = =6 = P(A) P(B) P(C).
4 8


1.6 Variabili aletorie discrete


Lo spazio dei risultati Ω non è, di per sé, sempre lo strumento ideale per trattare tutti i
problemi del Calcolo delle Probabilità; uno strumento assai piú flessibile è costituito dalle
variabili aleatorie. Per esempio, se si lanciano due dadi, è piú semplice considerare la
funzione somma del punteggio dei due dadi, anziché scrivere la tabella dei 36 risultati possibili
nel lancio dei due dadi; ciò sarebbe facile in questo caso, ma sarebbe già assai piú lungo
e complicato se i dadi fossero icosaedri regolari ed avessero perciò 20 facce ognuno. Ciò
giustifica la seguente definizione che, al solito, è data, per il momento, nel caso particolare
degli spazı̂ con un numero finito o numerabile di punti.

Definizione 1.6.1. Dato uno spazio misurabile (Ω, F) si chiama variabile aleatoria discreta
ogni funzione X definita in Ω che assuma un numero finito o un’infinità numerabile di valori
{xn } e tale che, per ogni valore xn , il sottoinsieme di Ω nel quale X assume il valore xn ,
{X = xn } = X −1 ({xn }) sia misurabile, appartenga cioè alla tribú F. 
1.6. VARIABILI ALETORIE DISCRETE 21

Se poi Ω è esso stesso finito o numerabile una variabile aleatoria discreta sarà una
qualsiasi funzione a valori in R definita in Ω. Una variabile aleatoria è dunque, in realtà,
una funzione. Si scriverà spesso v.a.. è tradizionale indicare le v.a. mediante le ultime lettere
maiuscole dell’alfabeto.
Dalle proprietà di una tribú si vede poi che sono misurabili, per ogni indice n, anche gli
insiemi {X ≤ xn }, {X > xn }, {X 6= xn }.
Se è assegnata una probabilità P su Ω, un problema tipico del Calcolo delle Probabilità
(anzi il problema tipico) è di rispondere alla domanda: Qual è la probabilità che una v.a.
X assuma valori nell’insieme A? Si vedrà che, nel caso generale, si richiederà all’insieme
A di essere boreliano. Si tratta quindi di calcolare la probabilità dell’insieme, contenuto
in Ω, X −1 (A). A questo proposito occorre avvertire che si usa in maniera sistematica la
notazione piú espressiva {X ∈ A} invece di X −1 (A); analogamente si scrive, per esempio,
{a < X < b} o {X = x} in luogo di X −1 (]a, b[) o di X −1 ({x}), rispettivamente.
Dato uno spazio di probabilità (Ω, F, P) si parlerà di v.a. discreta, anche quando Ω non
sia finito o numerabile, se la funzione X : Ω → R assume un numero finito o un’infinità
numerabile di valori distinti, purché, per ognuno di tali valori xn appartenga a F l’insieme
{X = xn } = X −1 ({xn }). Si può rappresentare una v.a. discreta X nella forma
X
X= xi 1Ai ,
i

ove gli xi sono i valori che essa assume e Ai è l’insieme di Ω nel quale X assume il valore
xi . Gli insiemi Ai costituiscono una partizione (misurabile) di Ω. Spesso, nell’assegnare
una v.a., si fa riferimento ai valori che essa assume e alle probabilità con le quali li assume,
tacendo lo spazio Ω sul quale è definita.
I tre esempı̂ che seguono sono fondamentali.
Esempio 1.6.1. (v.a. di Bernoulli), Si consideri la v.a. che assume i valori 1 e 0 con
probabilità p e q := 1 − p, rispettivamente; è ovvio che p ∈ [0, 1]. X descrive i risultati del
lancio di una moneta, ponendo X(T ) = 1 e X(C) = 0.
Le v.a. bernoulliane si incontrano tutte le volte che si è interessati al realizzarsi di
un evento E. È in tal caso naturale considerare la partizione di Ω data da E e dal suo
complementare E c ; quindi X = 1E con p = P(E) e q = P(E c ). La coppia (p, 1 − p) = (p, q)
si dice legge o distribuzione di Bernoulli. 
Esempio 1.6.2. (v.a. binomiale). Si considerino n prove indipendenti, ciascuna delle quali
abbia due soli risultati possibili; questi sono denominati, per convenzione, successo s e
fallimento f , oppure 1 e 0 (il successo può essere il risultato testa nel lancio di una moneta,
l’estrazione di una pallina bianca da un’urna che ne contiene di diversi colori, l’uscita di un
certo numero nel gioco della roulette,...). In generale, sia P(s) = p e P(f ) = q(= 1 − p) e
sia Sn la v.a. che conta il numero dei successi in n prove. Nella stessa maniera dell’esempio
1.4.4, si mostra che
 
n j n−j
P(Sn = j) = b(j; n, p) := p q (j = 0, 1, . . . , n).
j
Una v.a. binomiale è legata alle v.a. Xi (i = P 1, 2, . . . , n), ove Xi si riferisce al risultato
n
della i–esima prova, mediante la relazione Sn = i=1 Xi . Si noti che ciascuna delle v.a. Xi
è una v.a. di Bernoulli. Se una v.a. X è binomiale con parametri n ∈ N e p ∈ [0, 1], si scrive
X ∼ Bi(n, p) e si dice che X ha legge o distribuzione binomiale. 
Esempio 1.6.3. (v.a. di Poisson). Una v.a. X di Poisson dipende da un parametro λ > 0
e assume i valori 0, 1, . . . , n, . . . con probabilità
λn
P(X = n) := e−λ (n ∈ Z+ ).
n!
Se X è una v.a. di Poisson di parametro λ, si scrive X ∼ P(λ) e si dice che X ha legge o
distribuzione di Poisson. 
22 CAPITOLO 1. PROBABILITÀ DISCRETE

Definizione 1.6.2. Nello spazio di probabilità (Ω, F, P), sia X una v.a. discreta; se converge
la serie X
|xn | P(X = xn ), (1.6.1)
n

si dice speranza (matematica) o valor medio o media di X, la somma


!
X X X
E(X) = E xi 1Ai = xi P(Ai ) = xj P(X = xj ).
i i j


Qualche volta si attribuisce significato alla speranza di una v.a. discreta, anche quando
la serie (1.6.1) non sia convergente, ma la v.a. sia positiva X ≥ 0 o negativa X ≤ 0; in tal
caso si ha E(X) = +∞ oppure E(X) = −∞.
Se X è la funzione indicatrice di un insieme A, X = 1A , essa è, ovviamente, una v.a.
bernoulliana, poiché assume solo i valori 1 e 0, con probabilità date rispettivamente da P(A)
e P(Ac ); per la sua speranza si ha

E (1A ) = P(A) .

Se invece X è costante, X = c, si ha

E(c) = c .

Se f : R → R è una funzione, si ha
X
f ◦X = f (xi ) 1Ai
i

e X X
E (f ◦ X) = f (xi ) P(Ai ) = f (xi ) P(X = xi ) ,
i i

se è assolutamente convergente la serie in questione, vale a dire se


X
E(|f ◦ X|) = |f (xn )| P(X = xn ) < +∞ .
n

Poiché segue immediatamente dalla definizione che se la v.a. discreta X ha speranza finita
e se α è un numero reale anche la v.a. α X ha speranza finita e vale

E(α X) = α E(X) ,

si può dire che le speranze delle v.a. discrete sono lineari, anche se non abbiamo ancora
specificato l’insieme nel quale le speranze sono definite.
Segue immediatamente dalla definizione di speranza che, se X è una v.a. positiva, vale
a dire, se xn ≥ 0 per ogni indice n, allora anche la speranza di X è positiva, E(X) ≥ 0.
Si osservi che se X e Y sono v.a. discrete con X ≥ Y , ed entrambe con speranza finita,
si ha anche E(X) ≥ E(Y ), proprietà che si dice di isotonı́a delle speranze. Basta infatti
notare che la v.a. discreta X − Y è positiva; dunque

E(X) − E(Y ) = E(X − Y ) ≥ 0 .

Si definiscono altresı́, per una v.a. X:


(a) il momento r–esimo (o di ordine r),
X
E (X r ) := xrj P(X = xj ) ,
j
1.6. VARIABILI ALETORIE DISCRETE 23

(b) il momento centrale r–esimo,


r
X r
E [(X − E(X)) ] := (xj − E(X)) P(X = xj ),
j

(c) il momento assoluto r–esimo,


X
E (|X|r ) := |xj |r P(X = xj );
j

s’intende che, se X assume un’infinità numerabile di valori, occorre verificare che le serie in
esame convergano assolutamente, prima di affermare che esistono i rispettivi momenti.
Siano ora X e Y due v.a. discrete; ponendo Ai := {X = xi } e Bj := {Y = yj }, esse si
possono scrivere nella forma
X X
X= xi 1Ai e Y = yj 1Bj ,
i j

o anche, facendo riferimento alla stessa partizione di Ω,


X X
X= xi 1Ai ∩Bj e Y = yj 1Ai ∩Bj .
i,j i,j

Per il seguito è importante sottolineare che, date due v.a. X e Y sul medesimo spazio di
probabilità (Ω, F, P), le probabilità
pij := P (X = xi , Y = yj )
definiscono al variare degli indici i e j la legge congiunta delle v.a. X e Y . Questa contiene
l’informazione completa sulle due v.a. considerate nelle loro individualità; infatti le leggi di
X e di Y , che si dicono marginali si ricavano facilmente dalla legge congiunta {pij }:
X
pi := P(Ai ) = P(X = xi ) = pij
j
X
qj := P(Bj ) = P(Y = yj ) = pij .
i

Si noti che, in genere, se sono note le leggi marginali {pi } di X e {qj } di Y non è possibile
ricostruire la legge congiunta {pij }.
Vogliamo dimostrare due proprietà importanti dei momenti.

Teorema 1.6.1. (a) Sia s un reale positivo, s > 1. Se la v.a. X ha finito il momento di
ordine s, E(|X|s ) < +∞, allora, per ogni r ∈ [1, s], esiste finito il momento di ordine r,
E(|X|r ) < +∞.
(b) Se due v.a. X e Y hanno entrambe finito il momento di ordine s, con s ≥ 1, allora
è finito anche il momento di ordine s della v.a. X + Y , vale a dire E (|X + Y |s ) < +∞ se
E(|X|s ) < +∞ e E(|Y |s ) < +∞.
Dim. (a) Occorre dimostrare che è convergente la serie
X r
|xn | pn ,
n
r
ove si è posto pn := P(X = xn ). Ora se |xn | ≤ 1 si ha |xn | ≤ 1, mentre, se |xn | > 1, allora
r s
|xn | ≤ |xn | . Pertanto
X r
X s
X X s
|xn | pn ≤ (1 + |xn | ) pn = pn + |xn | pn
n n n n
= 1 + E (|X|s ) < +∞ ,
24 CAPITOLO 1. PROBABILITÀ DISCRETE

sicché X ha finito il momento di ordine r per ogni r ∈ [1, s].


(b) Facendo riferimento alla notazione introdotta sopra, per mostrare che X +Y ha finito
il momento s–esimo, occorre, e basta, mostrare che è convergente la serie
X s
|xi + yj | pij .
ij

Dalla convessità della funzione t 7→ ts , con t ≥ 0 si ricava immediatamente la diseguaglianza


s
|x + y| ≤ 2s−1 (|x|s + |y|s ) ,
sicché
X s
X
|xi + yj | pij ≤ 2s−1 (|xi |s + |yj |s ) pij
ij ij
X X
= 2s−1 |xi |s pij + 2s−1 |yj |s pij
ij ij
X X
= 2s−1 |xi |s pi + 2s−1 |yj |s qj
i j

= 2s−1 {E (|X|s ) + E (|X|s )} < +∞ ,


ciò che conclude la dimostrazione.
In particolare, se X e Y sono v.a. discrete entrambe con speranza finita esiste finita
anche la speranza della v.a. somma X + Y . Si può ora calcolare
X
E(X + Y ) = (xi + yj ) P (Ai ∩ Bj )
i,j
X X X X
= xi P (Ai ∩ Bj ) + yj P (Ai ∩ Bj )
i j j i
X X
= xi P(Ai ) + yj P(Bj ) = E(X) + E(Y ) .
i j

Ha particolare importanza il momento centrale di ordine 2 che si chiama varianza di X


(se esiste) e si denota con V (X). Si ha
h i X
2 2
V (X) := E (X − E(X)) = (xj − E(X)) P(X = xj )
j
X
x2j − 2xj E(X) + E 2 (X) P(X = xj )

=
j

= E(X 2 ) − 2 E2 (X) + E 2 (X) = E(X 2 ) − E 2 (X) .


Quest’ultima relazione avrà validità generale quando esiste la varianza. Il significato della
varianza sarà studiato nella prossima sezione.

Esempio 1.6.4. (Speranza e varianza della v.a. di Bernoulli).


E(X) = 1 · p + 0 · q = p, V (X) = 12 · p − p2 = pq.

Esempio 1.6.5. (Speranza e varianza della v.a. binomiale).
n   n
X n j n−j X (n − 1)!
E(X) = j p q = np pj−1 q n−j
j=0
j j=1
(j − 1)! (n − k)!
n−1
X 
n − 1 j n−j
= np p q = np(p + q)n−1 = np .
j=0
j
1.6. VARIABILI ALETORIE DISCRETE 25

Per calcolare la varianza è opportuno ricorrere all’identità


E(X 2 ) = E [X(X − 1)] + E(X) .

n  
X n j n−j
E [X(X − 1)] = j(j − 1) p q
j=0
j
n
X (n − 2)!
= n(n − 1)p2 pj−2 q n−j
j=2
(j − 2)!(n − j)!
n−2
X 
2 n − 2 k n−2−k
= n(n − 1)p p q = n(n − 1)p2 ,
k
k=0

sicché segue dalla (1.6.1) che


V (X) = n(n − 1)p2 + np − n2 p2 = np − n2 p2 = np(1 − p) = npq .

Esempio 1.6.6. (Speranza e varianza della v.a. di Poisson).
∞ ∞
X λn X λn−1
E(X) = e−λ n = e−λ λ = λ.
n=0
n! n=1
(n − 1)!

Procedendo come nell’esempio precedente, si ha


∞ ∞
X λn X λn−2
E [X(X − 1)] = e−λ n(n − 1) = e−λ λ2 = λ2 ,
n=0
n! n=2
(n − 2)!
2 2
sicché V (X) = λ + λ − λ = λ. Il parametro λ che compare nei termini della distribuzione
di Poisson dà, quindi, sia la speranza sia la varianza. 
Sullo spazio di probabilità (Ω, F, P), si consideri una v.a. discreta X che assume i valori
x1 , . . . , xn ,. . . . Si indichi con S il sottoinsieme di N definito da
S := {n ∈ N : P(X = xn ) > 0} .
Per ogni indice n ∈ S è possibile definire la probabilità condizionata
T
P (A {X = xn })
Qn (A) := (A ∈ F).
P(X = xn )
Sia Y una v.a. discreta, X
Y = yj 1Bj ;
n
è possibile definire la speranza En (Y ) di Y rispetto alla misura di probabilità Qn , ottenendo
X X P (Bj ∩ {X = xn })
En (Y ) = yj Qn (Bj ) = yj .
j j
P(X = xn )

Di qui si ottiene
X X X
E(Y ) = yj P(Bj ) = yj P (Bj ∩ {X = xn })
j j n∈S
XX
= yj P (Bj ∩ {X = xn })
n∈S j
X X X
= P(X = xn ) yj Qn (Bj ) = P(X = xn ) En (Y ) .
n∈S j n∈S

nota come formula di disintegrazione per le speranze.


26 CAPITOLO 1. PROBABILITÀ DISCRETE

Definizione 1.6.3. Sia P una probabilità sull’insieme finito o numerabile Ω e siano X e


Y due v.a. su Ω; si dice che esse sono indipendenti (rispetto a P) se sono indipendenti gli
eventi {X = xk } e {Y = yj } per ogni possibile scelta dei valori xk e yj . 
Teorema 1.6.2. Se le v.a. X e Y sono discrete e ammettono speranza finita e sono
indipendenti, ha speranza finita anche la v.a. prodotto Z = XY e si ha
E(XY ) = E(X) E(Y ) .
Dimostrazione. Se Z assume i valori zn (anche Z è una v.a. discreta), è
[  \ 
{Z = zn } = {X = xr } {Y = ys } ,
r,s:xr ys =zn

onde, poiché l’unione è disgiunta,


X
P(Z = zn ) = P(X = xr ) P(Y = ys ) .
r,s:xr ys =zn

Pertanto, poiché tutte le serie sono assolutamente convergenti, si ha


X
E(|XY |) = E(|Z|) = |zn | P(Z = zn )
n
X X
= |zn | P(X = xr ) P(Y = ys )
n r,s:xr ys =zn
X
= |xr | |ys | P(X = xr ) P(Y = ys )
r,s
! !
X X
= |xr | P(X = xr ) |ys | P(Y = ys ) = E(|X|) E(|Y |) < +∞ ,
r s

ciò che mostra che il prodotto ha, anch’esso, speranza finita; questa è ora data dallo stesso
calcolo nel quale sono state eliminati i segni di valore assoluto:
X
E(XY ) = E(Z) = zn P(Z = zn )
n
X X
= zn P(X = xr ) P(Y = ys )
n r,s:xr ys =zn
X
= xr ys P(X = xr ) P(Y = ys )
r,s
! !
X X
= xr P(X = xr ) |ys | P(Y = ys ) = E(X) E(Y ) ,
r s

ciò che stabilisce l’asserto.

1.7 La diseguaglianza di Čebyšev


La dimostrazione che segue è scritta usando le proprietà formali delle speranze. Poiché
le proprietà alle quali faremo ricorso continueranno a valere anche nel caso generale, la
dimostrazione e, quindi, il risultato varranno immutati anche nel caso generale; basterà solo
tenere conto del diverso significato dei simboli.
Teorema 1.7.1 (Diseguaglianza di Markov). Sia X una v.a. discreta su Ω; se X è positiva
(X ≥ 0) si ha, quale che sia il numero reale b > 0,
1
P(X ≥ b) ≤ E(X) .
b
1.7. LA DISEGUAGLIANZA DI ČEBYŠEV 27

Dimostrazione. Poiché la somma, o serie, che definisce la speranza è a termini positivi, si


ha 0 ≤ E(X) ≤ +∞. Se E(X) = +∞, non vi è nulla da dimostrare. Si supponga, perciò,
che sia E(X) < +∞ e si ponga A(b) := {X > b}. Poiché è evidente che X ≥ X · 1A(b) ,
risulta, dalla definizione di speranza, che

E(X) ≥ E(X · 1A(b) ) ≥ E(b · 1A(b) )


= b E(1A(b) ) = b P(A(b)) = b P(X ≥ b) ,

col che la diseguaglianza di Markov è provata.

Corollario 1.7.1. Siano X una v.a. discreta, c un numero reale, ε > 0 e n ∈ N. Allora

E (|X − c|n )
P (|X − c| ≥ ε) ≤ . (1.7.1)
εn

Se la v.a. X ammette speranza e varianza finite si ha, per ogni numero reale k > 0,
 p  1
P |X − E(X)| ≥ k V (X) ≤ 2 (1.7.2)
k
come subito si vede ponendo c = E(X) e ε = V (X) nella (1.7.1). La (1.7.2) è nota con il
nome di diseguaglianza di Čebyšev e consente di interpretare la varianza come misura della
dispersione dei valori assunti dalla v.a. X attorno alla sua speranza E(X). La diseguaglianza
di Čebyšev si può scrivere in una delle forme equivalenti

V (X)
P (|X − E(X)| ≥ ε) ≤ , (1.7.3)
ε2
oppure
V (X)
P (|X − E(X)| < ε) ≥ 1 − .
ε2
Usando la diseguaglianza di Čebyšev, si può dimostrare il seguente celebre risultato, che è
anche il primo esempio di Legge dei Grandi Numeri (LGN).

Teorema 1.7.2 (LGN di Bernoulli). Sia Sn (n ∈ N) una v.a. binomiale, essendo p la


probabilità di un successo. Posta Tn := Sn /n la frequenza dei successi in n prove, risulta,
per ogni ε > 0,
lim P (|Tn − p| < ε) = 1 .
n→+∞

Dimostrazione. Poiché E(Sn ) = np e V (Sn ) = np(1 − p), è E(Tn ) = p e


 
 E (Sn − np)2 V (Sn ) p(1 − p)
V (Tn ) = E (Tn − p)2 =

= = .
n2 n2 n
Scende ora dalla (1.7.3) che

p(1 − p) 1
P (|Tn − p| ≥ ε) ≤ ≤
nε2 4nε2
per ogni p ∈ [0, 1] e per ogni ε > 0.

Ci si può servire di strumenti e di idee puramente probabilistici per dimostrare risultati


puramente analitici; di seguito è riportata la dimostrazione probabilistica di un teorema
classico, quello di Weierstrass sull’approssimazione uniforme di funzioni continue mediante
polinomı̂. Lo spazio lineare delle funzioni continue a valori reali definite in un intervallo
chiuso [a, b] sarà indicato con C[a, b].
28 CAPITOLO 1. PROBABILITÀ DISCRETE

Teorema 1.7.3. Ogni funzione f continua nell’intervallo chiuso e limitato [a, b], f ∈
C[a, b], è il limite uniforme di una successione di polinomı̂.

Dimostrazione. Ponendo x = a+(b−a)z, ci si può ricondurre al caso di una funzione definita


e continua nell’intervallo chiuso [0, 1]. Si consideri, allora, una serie di prove bernoulliane
indipendenti di parametro x ∈ [0, 1], vale a dire con probabilità x di successo. Per ogni
n ∈ N, si definiscano i polinomı̂ di Bernstein pn : [0, 1] → R mediante
n   
X k n k
pn (x) := f x (1 − x)n−k .
n k
k=0

Poiché f è limitata, esiste una costante C > 0 tale che |f (x)| ≤ C per ogni x ∈ [0, 1]; e
poiché f è uniformemente continua, fissato ε > 0, esiste δ > 0 tale che |x − x0 | < δ implichi
|f (x) − f (x0 )| < ε. Perciò, se Sn ha lo stesso significato che nel teorema precedente, si ha
  
Sn
|f (x) − pn (x)| = E f (x) − f
n
X n
≤ |f (x) − f (k/n)| b(k; n, p)
k=0
X X
≤ |. . . | + |f (x) − f (k/n)| b(k; n, p) .
|k−nx|<nδ |k−nx|≥nδ

Pn
La prima delle due somme è limitata da ε k=0 b(k; n, p) = ε. Per la seconda risulta, in
virtú della diseguaglianza di Čebyšev,
X
|f (x) − f (k/n)| b(k; n, p)
|k−nx|≥nδ
X
≤ 2C b(k; n, p) = 2 C P (|Sn − E(Sn )| ≥ nδ)
|k−nx|≥nδ

V (Sn ) 2 C x(1 − x) C
≤ 2C = ≤ .
n2 δ 2 nδ 2 2nδ 2
Perciò, pur di prendere n > C/(δ 2 ε), si ha

ε C ε ε
|f (x) − pn (x)| ≤ + < + = ε,
2 2nδ 2 2 2
che conclude la dimostrazione.

1.8 Alcune distribuzioni di probabilità discrete


Il significato del termine distribuzione si può dare in un contesto piú generale di quello
delle presenti Lezioni. Lo si può però già usare senza pericolo parlando delle distribuzioni
discrete. Se una v.a. X assume i valori x1 , . . . , xn , . . . , si dirà distribuzione di X l’insieme
delle probabilità {P(X = xn ) = pn }. Spesso si omette di far riferimento ad una v.a. ed
allora per distribuzione (discreta)
P si intende un insieme finito o numerabile {pn } di numeri
positivi (pn ≥ 0) tali che n pn = 1.
Esiste il seguente legame tra la distribuzione binomiale e quella di Poisson.

Teorema 1.8.1. Se, per ogni n ∈ N, si ha pn n = λ, allora è

λk
lim b(k; n, pn ) = e−λ (k ∈ Z+ ) .
n→+∞ k!
1.8. ALCUNE DISTRIBUZIONI DI PROBABILITÀ DISCRETE 29

Dimostrazione.
   k  n−k
n λ λ
b(k; n, pn ) = 1−
k n n
k
 n−k k
λ λ n(n − 1) . . . (n − k + 1) −λ λ
= 1− → e ,
k! n nk k!

che dà l’asserto.

Gli esempı̂ che seguono danno altri importanti distribuzioni di probabilità.

Esempio 1.8.1. (La distribuzione geometrica). Si consideri una sequenza, a priori infinita,
di prove bernoulliane indipendenti, tutte con probabilità di successo eguale a p. Ci si
domanda quanto “tempo” occorra aspettare perché si abbia il primo successo; l’espressione
“tempo” equivale a “numero di prove”, ma è piú intuitiva. Si consideri la v.a. discreta T1 :=
“tempo al quale si ha il primo successo”, definita sull’insieme Ω = {0, 1}N , cioè l’insieme
delle successioni costituite di 0 e di 1. È noto che tale insieme ha la cardinalità del continuo
sicché, a rigore, tale esempio esce dalla schema che abbiamo costruito sin qui. Tuttavia, non
sarà difficile nel seguito rendere preciso quanto abbiamo appena detto. Facendo riferimento
alle v.a. indipendenti {Xn } con P(Xn = 1) = p e P(Xn = 0) = q per ogni naturale n, si
ottiene \ \
n−1
{T1 = n} = j=1 {X j = 0} {Xn = 1},

sicché P(T1 = n) = p q n−1 . Si chiama distribuzione geometrica quella i cui termini sono dati
da pn = p q n−1 (n ∈ N) con p ∈ ]0, 1[. Si controlla subito che

X X 1
pn = p (1 − p)n−1 = p = 1.
n=1
1 − (1 − p)
n∈N

Poiché è facile controllare che E(T1 ) esiste finita, si può calcolare in modo indiretto come
segue,

X ∞
X
E(T1 ) = p n q n−1 = (k + 1)q k
n=1 k=0
X∞ ∞
X
=p kq k + p qk
k=0 k=0

X
= 1 + pq kq k−1 = 1 + q E(T1 ) ,
k=0

sicché E(T1 ) è soluzione dell’equazione E(T1 ) = 1 + q E(T1 ); perciò E(X) = 1/p. È questa
la risposta alla domanda iniziale: in media occorre aspettare un tempo 1/p prima di avere
un successo.
Questo risultato risolve il cosiddetto paradosso di Borel, che consiste in questo. Si osservi
che, in una serie di prove bernoulliane indipendenti con probabilità non nulla p > 0, è
certo che prima, o poi, si realizzerà un successo. Infatti, la probabilità che in n prove
non si realizzi alcun successo è data da q n , che, al tendere di n all’infinito, tende a 0.
Il paradosso di Borel consiste nel fatto che, pur di aspettare abbastanza a lungo, anche
un evento con probabilità piccola si realizzerà; per esempio, una scimmia che estraesse,
con restituzione, lettere da un sacchetto che contiene tutte le lettere dell’alfabeto italiano,
minuscole e maiuscole, la punteggiatura, lo spazio tra una parola e la successiva (dunque in
tutto 50 simboli), prima o poi estrarrà in successione il primo verso della Divina Commedia.
Tuttavia, perché ciò accada, occorre attendere un tempo eguale al reciproco della probabilità
dell’evento in questione. Nell’esempio appena dato, se si suppone che la scimmia estragga
30 CAPITOLO 1. PROBABILITÀ DISCRETE

una lettera al secondo, occorre aspettare in media 5035 secondi prima che la scimmia estragga
in successione le lettere che compongono il primo verso. Ora 5035 > 1035×1.69 > 1059 e,
poiché un anno contiene meno di 109 secondi, occorrerà aspettare, in media, piú di 1050
anni prima di veder comparire

Nel mezzo del cammin di nostra vita;

si tenga presente che la vita dell’Universo è stimata in 1010 anni.


Per la varianza di T1 si ha
X ∞
X
E(T12 ) = p n2 q n−1 = p (k + 1)2 q k
n∈N k=0
X∞ ∞
X ∞
X
2 k k
=p k q +p q + 2p kq k
k=0 k=0 k=0
= q E(T12 ) + 1 + 2q E(T1 ) ,

sicché
 
1 2q 1+q 2−p
E(T12 ) = +1 = 2
=
p p p p2

2−p 1 q
V (T1 ) = − 2 = 2.
p2 p p

Una proprietà importante della legge geometrica è la cosiddetta mancanza di memoria.


Sapendo che non si è realizzato un successo sino al tempo n, cioè sapendo che T1 > n, la
probabilità condizionata che non si realizzi un successo sino al tempo n + j, con n e j numeri
naturali, non dipende da n. Infatti, dovendo calcolare P(T1 > n + j | T1 > n), si ha, per
k ∈ N,
X∞ X∞ ∞
X
P(T1 > k) = pq s−1 = pq k q s−(k+1) = pq k qh = qk
s=k+1 s=k+1 h=0

e dunque
P (T1 > n + j) q n+j
P (T1 > n + j | T1 > n) = = n = qj .
P (T1 > n) q


Esempio 1.8.2. (La distribuzione ipergeometrica). Sia N un numero naturale e sia n un


altro numero naturale tale che n ≤ N . Se p è uno dei numeri

0, 1/N, 2/N, . . . , 1 ,

la distribuzione ipergeometrica di parametri N , n e p è data da


  
Np Nq
k n−k
pk =   (k = 0, 1, ..., n) ;
N
n

pk è, come si è già visto, la probabilità di estrarre k palline bianche in un’estrazione senza
restituzione di n palline da un’urna che ne contiene N p bianche. 
1.8. ALCUNE DISTRIBUZIONI DI PROBABILITÀ DISCRETE 31

Esempio 1.8.3. (La distribuzione binomiale negativa). Se si domanda quanti siano i fal-
limenti Fk che, in una serie di prove bernoulliane indipendenti, si hanno prima di avere k
successi si ottiene per n = 0, 1, . . .
   
k+n−1 k n −k k
pn := P(Fk = n) = p q = p (−q)n , (1.8.1)
n n

ove l’ultima espressione si ottiene ricordando che


 
−k −k(−k − 1) . . . (−k − n + 1)
=
n n!
 
k(k + 1) . . . (k + n − 1) k+n−1
= (−1)n = (−1)n .
n! n

Si dice binomiale negativa la distribuzione i cui termini sono dati dalla (1.8.1).
Alla legge binomiale negativa è legata la legge di Pascal ; questa è la legge della v.a.
Tk (=istante del k–esimo successo in un processo di Bernoulli). La v.a. Tk è discreta a
valori nell’insieme {n ∈ N : n ≥ k} ∪ {+∞} ed è quasi certamente finita, vale a dire
P(T = +∞) = 0. Si osservi che Tk = Fk + k. Perciò, per n ≥ k,
   
n − 1 k n−k n − 1 k n−k
P(Tk = n) = P(Fk = n − k) = p q = p q .
n−k k−1

Nell’esempio seguente si otterrà un (celeberrimo) risultato di teoria dei numeri con


elementari metodi probabilistici.

Esempio 1.8.4. Si consideri una variabile X che assume come valori i numeri naturali e
sia, per n ∈ N,
k
P(X = n) = s (s > 1) . (1.8.2)
n
Com’è noto la serie
X 1
ns
n∈N

converge per s > 1. Si ponga eguale a ζ(s) la sua somma


X 1
ζ(s) := ;
ns
n∈N

È questa la funzione zeta di Riemann ben nota in teoria dei numeri. Si determina cosı́ il
valore della costante k nell’eq. (1.8.2), sicché la legge della v.a. X è

1 1
P(X = n) = .
ζ(s) ns

Consideriamo l’evento Dk “la v.a. X è divisibile per k”, sicché


[
Dk := {X = nk} ,
n∈N

che è un’unione disgiunta. Pertanto


X 1 1 X 1 1
P(Dk ) = P(X = nk) = s s
= s.
ζ(s) k n k
n∈N n∈N
32 CAPITOLO 1. PROBABILITÀ DISCRETE

Siano ora j e k due numeri primi tra loro, (j, k) = 1 (qui (a, b) indica il massimo comun
divisore dei numeri naturali a e b). L’evento Dj ∩ Dk indica l’insieme dei numeri naturali
che sono divisibili al contempo per j e per k:
\ [
Dj Dk = {X = njk} ,
n∈N

che è nuovamente un’unione disgiunta, sicché


1 1 X 1 1
P(Dj ∩ Dk ) = s s s
= s s = P(Dj ) P(Dk ) .
ζ(s) j k n j k
n∈N

I due eventi Dj e Dk sono dunque indipendenti se j e k sono primi tra loro.


Supponiamo ora che j e k non siano primi tra loro, (j, k) = i 6= 1; esistono allora due
naturali h e m tali che j = hi e k = mi. In questo caso è
\ [
Dj Dk = {X = nhmi} ;
n∈N

di qui si ricava
 \  1 is is 1
P Dj Dk = s s s
= s s 2s
= s s
6= s s = P(Dj ) P(Dk ) .
h m i h m i j k j k
Gli eventi Dj e Dk sono quindi indipendenti se, e solo se, j e k sono primi tra loro.
Si consideri infine l’insieme P dei numeri primi. La successione

(Dp )p∈P

è costituita da eventi indipendenti. Infatti, se si indica con pj il j–esimo numero primo, per
ogni n ∈ N, l’insieme
\n
Dpj
j=1

è costituito da tutti i punti nei quali X assume un valore divisibile per il prodotto p1 . . . pn ,
sicché
\n [
Dpj = {X = k p1 . . . pn } .
j=1 k∈N

Di qui  
n n
\ 1 Y 
P D pj  = = P Dpj ,
j=1
ps1 ps2 . . . psn j=1

onde l’asserto.
I punti dell’intersezione \
Dpc
p∈P

sono quelli nei quali la v.a. X non è divisibile per alcun numero primo, vale a dire i punti nei
quali X assume il valore 1, l’unico numero naturale non divisibile per alcun numero primo;
dunque \
{X = 1} = Dpc .
p∈P

In virtú dell’indipendenza degli insiemi della successione (Dp )p∈P , si può calcolare

1 Y 1

= P(X = 1) = 1− s , (1.8.3)
ζ(s) p
p∈P
1.9. PROBABILITÀ DI UN ASSEGNATO NUMERO DI EVENTI 33

o, equivalentemente
Y −1
1
ζ(s) = 1− ,
ps
p∈P

che è la formula di Eulero limitata al caso di valori reali della variabile s. 

1.9 Probabilità di un assegnato numero di eventi


Nel considerare il problema delle coincidenze (esempio 1.4.3), ci si può domandare quale sia la
probabilità che si realizzino esattamente k coincidenze. Il problema può essere schematizzato
in generale come segue. Siano dati n eventi

A1 , . . . , A n ;

qual è la probabilità che se ne realizzino k con k = 0, 1, ..., n?


Il risultato che segue è basato sull’osservazione, già piú volte usata, che, se A è un evento,
allora E(1A ) = P(A).
Teorema 1.9.1. Dati n eventi A1 , . . . , An , la probabilità dell’evento Bk , “si realizzano
esattamente k degli n eventi dati” con k = 0, 1, . . . , n è
n  
j−k j
X
P(Bk ) = (−1) Sj , (1.9.1)
k
j=k

ove si è posto, per j = 0, 1, . . . , n,


X  \ \ \ 
Sj := P Ak(1) Ak(2) ... Ak(j)
k(1),k(2),...,k(n)
n
X n
X n
X 
:= P Ak(1) ∩ Ak(2) ∩ · · · ∩ Ak(j) ,
k(1)=1 k(2)=k(1)+1 k(j)=k(j−1)+1

n

e ove si intende che la somma si esegua sopra tutti gli j sottoinsiemi di j numeri,

{k(1), k(2), ..., k(j)},

scelti in {1, . . . , n}.


La (1.9.1) va sotto il nome di principio di inclusione–esclusione.
Dimostrazione. Si può scrivere
[ \ \ \ \ \ 
Bk = Ai(1) Ai(2) ... Ai(k) Aci(k+1) . . . Ani(n)
J(k)

ove {i(1), i(2), . . . , i(n)} è una permutazione di {1, 2, . . . , n} e J(k) indica il generico sottoin-
sieme {i(1), i(2), . . ., i(k)} di k elementi scelti da {1, 2, . . . , n}. Bk resta, quindi, espresso
come l’unione di nk insiemi. Operando con le funzioni indicatrici, anziché con gli insiemi,
si ha X  
1Bk = 1Ai(1) 1Ai(2) . . . 1Ai(k) 1 − 1Ai(k+1) . . . 1 − 1Ai(n) . (1.9.2)
J(k)

Ogni termine di quest’ultima somma si può scrivere nella forma che segue, ottenuta molti-
plicando i fattori contenuti nelle parentesi,

1Ai(1) . . . 1Ai(k) {1 − H1 (J(k)) + H2 (J(k)) + · · · +


+ (−1)r Hr (J(k)) + · · · + (−1)n−k Hn−k (J(k))} , (1.9.3)
34 CAPITOLO 1. PROBABILITÀ DISCRETE

P
ove Hr (J(k)) := 1Aj(1) 1Aj(2) . . . 1Aj(r) , espressione nella quale la somma deve
J(n−k,r)
essere eseguita sopra tutti i n−k

r sottoinsiemi J(n − k, r) di r elementi scelti nell’insieme
{i(k + 1), i(k + 2), . . . , i(n)}. Sostituendo nella (1.9.2), si ha
n−k
X X
1Bk = (−1)r 1Ai(1) 1Ai(2) . . . 1Ai(k) Hr (J(k)) .
r=0 J(k)

Ora,
X
1Ai(1) 1Ai(2) . . . 1Ai(k) Hr (J(k)
J(k)
X X
= 1Ai(1) 1Ai(2) . . . 1Ai(k) 1Aj(1) 1Aj(2) . . . 1Aj(r) . (1.9.4)
J(k) J(n−k,r)

Si introduca X
Hr+k := 1∩r+k Aj(i) , (1.9.5)
i=1
J(n,k+r)
n

ove la somma è eseguita sopra tutti i k+r sottoinsiemi J(n, k + r) di k + r indici scelti tra
{1, 2, . . . , n}. Alle somme (1.9.4) e (1.9.5) contribuiscono termini che possono assumere solo
n

i valori 0 e 1. Si è già detto che nella somma (1.9.5) compaiono k+r termini; i termini
della somma (1.9.4) sono invece nk n−k
 
r . Poiché
  
n n−k
 
k r (n − k)!n!(k + r)!(n − k − r)! k+r
  = = .
n r!(n − k − r)!k!(n − k)!n! k
k+r
scende dalle (1.9.3), (1.9.4) e (1.9.5) che
n−k   n  
X k+r X j
1 Bk = (−1)r Hk+r = (−1)j−k Hj ,
r=0
k k
j=k

dalla quale segue, considerando la speranza,


n   n  
j−k j j−k j
X X
P(Bk ) = E(1Bk ) = (−1) E(Hj ) = (−1) Sj ,
k k
j=k j=k

che dà l’asserto.


Corollario 1.9.1. Dati gli eventi A1 , . . . , An , la probabilità che non se ne realizzi alcuno

Xn
P(B0 ) = (−1)j Sj .
j=0

Corollario 1.9.2. Dati gli eventi A1 , A2 , . . . , An , la probabilità che se ne realizzino almeno


k è
n  
X j−1
P(Bk ) + P(Bk+1 ) + · · · + P(Bn ) = (−1)j−k Sj .
k−1
j=k

Dimostrazione.
n n X
n   j
n X  
X X j X j
P(Br ) = (−1)j−r Sj = (−1)j−r Sj
r r
r=k r=k j=r j=k r=k
n j  
X X j
= (−1)j Sj (−1)−r .
r
j=k r=k
1.10. ALCUNI PROBLEMI CLASSICI DI PROBABILITÀ 35

Ora, si ha, tenendo presente che (−1)−r = (−1)r ,


j          
X
r j k j j j j−k j
(−1) = (−1) − + + · · · + (−1)
r k k+1 k+2 j
r=k
       
j−1 j−1 j−1 j
= (−1)k + − + · · · + (−1)j−k
k−1 k k j
 
j−1
= (−1)k ,
k−1

che conclude la dimostrazione.

Esempio 1.9.1. Ritornando all’esempio 1.4.3 si ha


j
!
\ (n − j)!
P Ak(r) = ,
r=1
n!

sicché si può calcolare  


n (n − j)! 1
Sj = = .
j n! j!
Pertanto la probabilità cercata, se n − k è grande, è
n   n−k
j−k j 1 1 X 1 1 −1
X
P(Bk ) = (−1) = (−1)r ' e .
k j! k! r=0 r! k!
j=k

La probabilità di avere almeno una coincidenza è, per n grande,


n   n
j−1 j − 1 1 1
X X
(−1) = (−1)j−1
j=1
0 j! j=1
j!

X 1
' (−1)j−1 + 1 = 1 − e−1 ' 0.63212 .
j=0
j!

1.10 Alcuni problemi classici di probabilità


Esempio 1.10.1. Si esamina il sangue di nk donatori per scoprire se sia presente una
malattia che si riscontra con probabilità p nella popolazione. Si suddividono i flaconi in k
sottoinsiemi di n e in ogni sottoinsieme si mescolano piccoli campioni di ogni flacone. Se
l’esito dell’esame su tutto il sottoinsieme è negativo, tutti i flaconi possono essere usati per
le trasfusioni; si procede invece alle analisi individuali quando l’esame di un sottoinsieme ha
dato esito positivo. Quanti esami si eseguono in media?
Sia Ai l’evento “l’analisi dell’i–esimo sottoinsieme ha dato esito positivo”. Il numero X
di analisi che si compiono è dato da
k
X
X =k+n 1Ai ,
i=1

onde
k
X
E(X) = k + n P(Ai ) = k + kn P(A1 ) ,
i=1
36 CAPITOLO 1. PROBABILITÀ DISCRETE

poiché ogni sottoinsieme ha la stessa probabilità di dare esito positivo. Supponiamo che
gli individui che compongono ogni sottoinsieme siano indipendenti; è questa l’ipotesi piú
forte che si faccia, ma non è possibile altrimenti perché è, di solito, impossibile compiere
un’indagine sui legami dei donatori. In condizioni d’indipendenza, risulta, se q = 1 − p,
P(A1 ) = 1 − P(Ac1 ) = 1 − q n , onde

E(X) = k + nk − nkq n = kn + k(1 − n q n ) .

Se q n > 1/n, allora E(X) è minore di nk, che è il numero di esami che si dovrebbero eseguire
se si analizzassero i flaconi di sangue ad uno ad uno. Per esempio, se n = 10, k = 100 e
p = 1/100, si ha E(X) = 195.6 < 1000 e q = 0.99, onde q 10 ' 0.904 > 0.1.
Non è impossibile risolvere numericamente con l’aiuto di un calcolatore il seguente prob-
lema di ottimizzazione: dati il numero N di donatori e la probabilita p, qual è il numero n
di donatori per gruppo che rende minimo il numero di esami da eseguire? 

Esempio 1.10.2. (Il paradosso delle urne). Due urne contengono, entrambe, palline
bianche e palline nere. Si estraggano due palline seguendo una delle due strategie:
(a) si sceglie a caso un’urna, si estrae una pallina che quindi si reintroduce nell’urna dalla
quale è stata estratta, si sceglie di nuovo a caso un’urna dalla quale si estrae un’altra
pallina;
(b) si procede come nella strategia (a), per la scelta della prima pallina, la si reintroduce
nell’urna, ma si estrae la seconda pallina dalla stessa urna.
Con quale delle due strategie è maggiore la probabilità di estrarre due palline bianche?
Siano b0 e n0 il numero delle palline bianche e quello delle palline nere, rispettivamente,
nella prima urna e b00 e n00 i corrispondenti numeri per la seconda urna. Perciò la probabilità
di estrarre una pallina bianca è p0 = b0 /(b0 + n0 ) per la prima urna e p00 = b00 /(b00 + n00 ) per
la seconda. La probabilità che la prima pallina estratta sia bianca è dunque, in entrambe le
strategie p1 = (p0 +p00 )/2. Poiché in entrambe le strategie le due estrazioni sono indipendenti,
la probabilità di estrarre due palline bianche è, con la strategia (a),
 2
1 0 1 00
pa = p + p
2 2

e, con la seconda strategia,


1 0 2 1 00 2
pb = p + p .
2 2
Ora
 2
1 2 1 00 2 1 0 1 00
pb − pa = p0 + p − p + p
2 2 2 2
1 2 1 00 2 1 0 00 1
= p0 + p − p p = (p0 − p00 )2 ,
4 4 2 4
sicché la strategia (b) è preferibile. Si osservi che se p0 6= p00 si ha pb > pa e che la strategia
(b) è preferibile quale che sia la composizione delle urne (che può essere incognita). 

Esempio 1.10.3. (Il raccoglitore di figurine). Un bambino vuole riempire un album con N
figurine. Se le figurine si comprano una alla volta, quante figurine dovrà comprare in media
per completare l’album?
Si supporrà che le figurine siano poste in vendita in maniera casuale. La prima figurina
acquistata troverà senz’altro posto nell’album. La seconda figurina che si compra sarà
collocata nell’album se è differente dalla prima, cioè se è una delle N − 1 figurine non ancora
1.10. ALCUNI PROBLEMI CLASSICI DI PROBABILITÀ 37

collocate nell’album. La probabilità che la seconda figurina acquistata non sia già posseduta
è p2 = (N − 1)/N . Pertanto, ricordando i risultati riguardanti la distribuzione geometrica,
e tenendo presente che, se per contare il tempo, si usano gli acquisti delle figurine, occorre
acquistare in media 1/p2 = N/(N − 1) figurine prima di collocare la seconda figurina; per
sistemare la terza, bisognerà comprarne 1/p3 = N/(N − 2) e cosı́ via. In generale, per
collocare la r–esima figurina sarà necessario acquistare N/(N − r + 1) figurine. Perciò, il
numero medio eN di acquisti necessarı̂ per completare l’album è
 
N N N 1 1 1
eN = 1 + + + ··· + = N 1 + + + ··· + .
N −1 N −2 1 2 3 N

Si riconosce facilmente che l’espressione tra parentesi è la somma parziale N –esima, sN della
serie armonica che, notoriamente, diverge. Si ha, a titolo d’esempio,

e10 = 29.29 , e20 = 71.95 , e40 = 171.14 ,


e100 = 518.74 , e340 = 2178.59 .

Si voglia ora stabilire quante figurine vi saranno in un secondo album, identico al primo,
se nel secondo si raccolgono solo le figurine non utilizzate per il primo: in altre parole, il
bimbo di prima passa i “doppioni” al fratellino minore.
Si possono trascurare le figurine che non servono per alcuno dei due album, perché
già presenti in entrambi. È comodo rispondere alla domanda preliminare: quante figurine
conterrà il secondo album quando il primo ne contiene r? Per la risposta alla domanda
originale basterà porre r = N . Una figurina α sarà collocata nel secondo album solo se è
una delle prime r − 1 figurine; ciò accade con probabilità (r − 1)/N = P(A1 ) = E [1A1 ], ove
A1 è l’evento “si colloca la figurina α”. Nel secondo album si collocherà la seconda figurina
β se essa è stata già collocata nel primo album e se è uno dei primi r − 2 acquisti, ciò che
accade con probabilità P(A2 ) = E [1A2 ] = (r − 2)/(N − 1), perché la figurina α è già stata
sistemata e perciò le figurine candidate ad essere sistemate sono N − 1. Si proceda in questo
modo sino alla (r − 1)–esima figurina, perché ci si ferma quando nel primo album sono
state inserite r figurine; l’r–esima figurina non è quindi disponibile per il secondo album.
Il numero nr di figurine presenti nel secondo album quando il primo ne contiene r si può
scrivere, con ovvio significato dei simboli:

nr = E 1A1 + 1A2 + · · · + 1Ar−1
r−1 r−2 1
= + + ··· +
N N −1 N −r+2
N − (N − r + 1) (N − 1) − (N − r + 1)
= + + ···+
N N −1
(N − r + 2) − (N − r + 1)
+
N −r+2
 
1 1 1
= (r − 1) − (N − r + 1) + + ··· +
N N −1 N −r+2
 
1 1 1
= r − (N − r + 1) + + ··· + .
N N −1 N −r+1

La risposta alla domanda originale si ha ponendo r = N :


 
1 1 1
nN = N − 1 + + + · · · + = N − sN .
2 3 N

Si ha, per esempio, n100 = 94.813. Si osservi che limN →+∞ nN /N = 1, come si vede usando
il teorema di Cesàro. 
38 CAPITOLO 1. PROBABILITÀ DISCRETE

Esempio 1.10.4. (Il problema di Monty Hall). In un gioco, condotto alla televisione
canadese dal presentatore Monty Hall, si presentano al concorrente tre porte, dietro una
delle quali si trova un premio consistente. Il concorrente è invitato a scegliere una porta: se
dietro vi è il premio, questo è suo. Prima che il concorrente apra la porta che ha scelto, Monty
Hall apre una porta, (ve ne è sicuramente una) dietro la quale non vi è il premio. A questo
punto si pone al concorrente l’alternativa: può scegliere di confermare o di cambiare la scelta
iniziale. Quale strategia conviene al concorrente? Si calcolino le probabilità di vincita nelle
due strategie. Si considerino le terne (x, y, z) dove x rappresenta il numero della porta scelta
inizialmente dal concorrente, y il numero della porta, senza premio, aperta dal presentatore
e z quello della porta che il concorrente aprirà alla fine. Se il concorrente decide di non
cambiare la scelta iniziale sarà x = z. Per fissare le idee si supponga che il premio si trovi
dietro la porta con il numero 1 (ma, questo è, ovviamente, ignoto al concorrente).
Supponiamo di voler confermare la scelta iniziale. Le terne che portano alla vincita sono
(1, 2, 1) e (1, 3, 1), mentre le terne (2, 3, 2) e (3, 2, 3) non portano alla vincita. In questa
strategia la probabilità di vincere il premio è perciò quella di scegliere inizialmente la porta
dietro la quale si nasconde il premio, vale a dire 1/3.
Se il concorrente decide invece di cambiare la scelta iniziale, le terne che portano alla
vincita sono (2, 3, 1) e (3, 2, 1), mentre le terne (1, 2, 3) e (1, 3, 2) non portano alcuna vincita.
In questa strategia la probabilità di vincere il premio è perciò quella di scegliere inizialmente
una delle due prote dietro le quali non si nasconde il premio, ciò che accade con probabilità
2/3.
Per il concorrente risulta quindi conveniente cambiare la scelta iniziale. 

Esempio 1.10.5. (Estrazioni senza restituzione). Riprendendo in esame la situazione


dell’esempio 1.4.1, vogliamo dimostrare un risultato dovuto a Poisson.
Se un’urna contiene b palline bianche e c colorate, vogliamo calcolare la probabilità che
l’n–esima pallina estratta sia bianca.
Supponiamo, dapprima, che sia n ≤ b + c. Sia Xn la v.a. che dà il risultato dell’n–esima
estrazione: {Xn = 1} è l’evento “estrazione di una pallina bianca all’n–esima estrazione”.
La domanda che ci siamo posti è allora: qual è la probabilità P(Xn = 1)? Se, al solito,
Pk
Sk = i=1 Xi rappresenta il numero di palline bianche tra le prime k estratte, si può
ricorrere al teorema delle probabilità totali e scrivere
b
X
P(Xn = 1) = P(Xn = 1 | Sn−1 = j) P(Sn−1 = j)
j=0
  
b c
b
X j n−1−j b−j
=  
j=0
b+c b + c −n+1
n−1
     
b+c−n n−1 b+c−n n−1
b
X b−j−1 b−1
X b−j−1
j j
=   =  
b+c b+c
j=0 j=0
b b
b−1    
1 X b+c−n n−1
= 
b+c
j=0
b − j − 1 j
b
 
b+c−1
b−1 (b + c − 1)! b! c! b
=   = = .
b+c (b − 1)! c! (b + c)! b+c
b
1.11. PASSEGGIATA ALEATORIA DI BERNOULLI 39

Figura 1.1: Un esempio di passeggiata aleatoria

Qui abbiamo usato un’identità tra i coefficienti binomiali che è lasciata come esercizio.
Si osservi che P(Xn = 1) = P(X1 = 1), che è la probabilità che la prima pallina estratta
sia bianca.
Se n > b + c, allora P(Xn = 1) = 0, perché dopo le prime b + c estrazioni l’urna è vuota.


1.11 Passeggiata aleatoria di Bernoulli


In una serie di prove Bernoulliane indipendenti, si considerino, accanto alle v.a. Xn (n ∈ N)
che assumono i valori 1 con probabilità p ∈ ]0, 1[ e 0 con probabilità q = 1 − p, anche le
v.a. Yn := P 2Xn − 1 che assumono i valori 1 e −1 rispettivamente con probabilità p e q, e le
n Pn
v.a.Gn := k=1 Yk = 2Sn − n, ove, al solito, Sn := k=1 Xk .
Si può interpretare Gn nella maniera che segue, e che giustifica il nome di passeggiata
aleatoria. Ad ogni istante, si lancia una moneta che ha probabilità p di dare come risultato
testa; si conviene che, a partire da una posizione prefissata assunta come origine, una pallina
si sposti di un passo, nel verso positivo di una retta orientata se il risultato del lancio è
testa, nel verso negativo se il risultato è croce. La v.a. Yn dice se all’n–esimo lancio la
pallina si sposta nel verso positivo (Yn = 1) oppure nel verso negativo (Yn = −1), mentre
la v.a. Gn dà la posizione della pallina al tempo t = n (ovviamente sia i tempi sia le
posizioni possono assumere solo valori interi). è possibile anche un’altra interpretazione di
Gn ; ad ogni istante, si punta una posta unitaria in una gioco d’azzardo nel quale all’n–esima
giocata si vince (Yn = 1) con probabilità p o si perde (Yn = −1) con probabilità q; in questa
interpretazione, Gn rappresenta il “guadagno” complessivo sino al tempo t = n. Rifacendosi
all’interpretazione della passeggiata aleatoria, riportando in ascissa i tempi (o, ciò che è lo
stesso, i numeri d’ordine dei lanci della moneta) e in ordinata le posizioni della pallina e
unendo i punti, si ottiene un grafico come quello della Figura 1.1
Ogni grafico di questo tipo rappresenta una possibile traiettoria della passeggiata aleato-
ria. Le v.a. Xn , Yn , Sn e Gn sono definite sullo spazio Ω = {0, 1}n se n è fissato o in
Ω = {0, 1}N (in quest’ultimo caso si presentano problemi tecnici sui quali torneremo nel
seguito) se non è fissato il numero di prove.
È facile calcolare la legge di Gn . La probabilità P(Gn = k) che la pallina occupi la
posizione di ascissa x = k al tempo t = n è 0, se |k| > n, altrimenti è

P(Gn = k) = P(2Sn − n = k)
   
n+k = n + k (n+k)/2 (n−k)/2
= P Sn = = p q , (1.11.1)
2 n 2
40 CAPITOLO 1. PROBABILITÀ DISCRETE

se n e k hanno la stessa parità, vale a dire se n e k sono entrambi pari o entrambi dispari;
in caso contrario P(Gn = k) = 0. Infatti, ci si convince rapidamente che la pallina non può
occupare una posizione pari in un tempo dispari o viceversa. Per esempio, P(G2n+1 = 0) = 0
perché per trovarsi nell’origine la pallina deve aver compiuto un egual numero di passi nel
verso positivo e nel verso negativo, ciò che è possibile solo in un numero pari di passi. Vale
la relazione ricorsiva

P(Gn = k) = p P(Gn−1 = k − 1) + q P(Gn−1 = k + 1) , (1.11.2)

che si giustifica facilmente attraverso il teorema delle probabilità totali, considerando che
la pallina può essere nella posizione x = k al tempo t = n solo se al tempo t = n − 1 era
in x = k − 1 e all’n–esimo passo si muove nel verso positivo, con probabilità p, oppure se
era in x = k + 1 e all’n–esimo passo si muove nel verso negativo, con probabilità q. La
dimostrazione formale della (1.11.2) è lasciata per esercizio.
La (1.11.1) si può scrivere in forma piú semplice, ponendo

n=α+β e k =α−β; (1.11.3)

qui, α rappresenta il numero di passi nel verso positivo e β quello nel verso negativo. Allora,
 
α+β α β
P(Gn = k) = p q . (1.11.4)
α
Prima di procedere con la passeggiata aleatoria di Bernoulli simmetrica, vale a dire, con
p = q = 1/2, introduciamo, nella sua forma piú semplice, il principio di riflessione.
Siano A e B due punti di una traiettoria che rappresenta la passeggiata aleatoria sim-
metrica, come in Fig. 1.1, e se ne considerino le coordinate, A = (m, j) e B = (n, k), con
n > m ≥ 0 e k > 0, j > 0. Supponiamo qui che i due punti considerati A e B giacciano nello
stesso semipiano (quello delle ascisse positive). Si consideri il punto A0 = (m, −j), simmet-
rico di A rispetto all’asse t dei tempi. Il principio di riflessione consiste nell’affermazione
che le traiettorie che passano per A e per B e che hanno un punto in comune con l’asse dei
tempi sono tante quante sono le traiettorie che passano per A0 e per B.
Infatti, si consideri una traiettoria che unisce A a B e che abbia un punto in comune
con l’asse dei tempi. Sia C il primo (nel senso dei tempi) dei punti che tale traiettoria ha in
comune con l’asse t. Si prenda in esame la traiettoria ottenuta riflettendo, rispetto all’asse
t, la parte della traiettoria che unisce A a C; questa passa necessariamente per A0 e per
C. Alla traiettoria ACB si fa corrispondere la traiettoria A0 CB. Viceversa, ogni traiettoria
che unisce A0 a B ha necessariamente un punto in comune con l’asse dei tempi, poiché A0 e
B giacciono da bande opposte rispetto a tale asse; sia C il primo di tali punti. Riflettendo,
attorno all’asse t, la parte di traiettoria tra A0 e C, si ottiene una traiettoria ACB che unisce
A a B e che un punto in comune con l’asse dei tempi. Esiste, dunque, una corrispondenza
biunivoca tra i due tipi di traiettoria considerati.
Si osservi che, tenendo conto delle (1.11.3) e (1.11.4), si può scrivere il numero N (n, k)
di traiettorie che uniscono l’origine con il punto (n, k) nella forma
 
α+β
N (n, k) = . (1.11.5)
α

Lemma 1.11.1. In una passeggiata aleatoria simmetrica, posto eguale a N (n, k) il numero
di cammini che uniscono l’origine al punto (n, k), ove n > 0 e k > 0, vi sono esattamente
k
N (n, k)
n
traiettorie dall’origine al punto (n, k) che non hanno punti in comune con l’asse dei tem-
pi tranne che nell’origine, vale a dire, le traiettorie per le quali si ha G1 > 0, G2 >
0, . . . , Gn−1 > 0.
1.11. PASSEGGIATA ALEATORIA DI BERNOULLI 41

Figura 1.2: La passeggiata raggiunge il livello j.

Dimostrazione. Le traiettorie che interessano passano tutte per il punto (1, 1); le traiettorie
da (1, 1) a (n, k) sono in numero di N (n − 1, k − 1). A tale numero deve essere sottratto
quello delle traiettorie che passano per (1, 1) e che hanno almeno un punto in comune con
l’asse dei tempi. Per il principio di riflessione, quest’ultime traiettorie sono tante quante
sono le traiettorie da (1, −1) a (n, k), che sono N (n − 1, k + 1). Il numero delle traiettorie
con le proprietà specificate è, perciò, ricorrendo alla (1.11.5),

N (n − 1, k − 1) − N (n − 1, k + 1)
     
α+β−1 α+β−1 α+β α−β k
= − = = N (n, k),
α−1 α α α+β n
che dà il risultato annunciato.
Sia ora j un numero naturale e si consideri la v.a.
n [ o
Tj := inf n ∈ N {+∞} : Gn = j ,

che rappresenta il tempo di primo passaggio per la posizione x = j, cioè il primo istante
nel quale la pallina si trova in x = j. Useremo il principio di riflessione per calcolare la
probabilità P(Tj = n); si considerino gli eventi
n−1
[
En,j (k) := ({Gn = k} ∩ {Gs = j})
s=1

(=“la pallina è in x = k al tempo t = n ed è già passata per la posizione x = j in un istante


precedente t = n”). Ogni traiettoria nell’insieme En,j (k) tocca il livello x = j per una prima
volta.
Per ogni traiettoria in En,j (k), con k < j, si consideri quella che si ottiene riflettendo,
attorno alla retta x = j, il tratto sino al primo istante nel quale essa tocca la retta x = j.
Si ottiene cosı́ una traiettoria da (0, 2j) a (n, k), si veda la Fig. 1.3
Viceversa, poiché ogni traiettoria che unisca questi due punti attraversa la retta x = j,
si stabilisce una corrispondenza biunivoca tra En,j (k) e le traiettorie da (0, 2j) a (n, k).
Si porti, mediante una traslazione, l’origine degli assi in (0, 2j) e si consideri una nuova
passeggiata aleatoria di Bernoulli con p = q = 1/2 (passeggiata simmetrica). La v.a. che
dà la posizione in questa seconda passeggiata aleatoria sarà indicata con G0n . Nel nuovo
riferimento, il punto (n, k) ha coordinate (n, k − 2j); perciò
n
 
P [En,j (k)] = P (G0n = k − 2j) = n + k 2−n . (1.11.6)
−j
2
42 CAPITOLO 1. PROBABILITÀ DISCRETE

Figura 1.3: Riflessione della traiettoria.

Per calcolare P(Tj = n), si osservi che vale la relazione tra insiemi

{Tj = n} = ({Gn−1 = j − 1} \ En−1,j (j − 1)) ∩ {Yn = 1}

che si interpreta facilmente: la pallina si trova nella posizione x = j − 1 al tempo t = n − 1,


non è mai passata per x = j negli istanti precedenti e, inoltre, al tempo t = n compie un
passo nel verso positivo andando in x = j. Risulta, perciò,

P(Tj = n) = P ({Gn−1 = j − 1} \ En−1,j (j − 1)) P(Yn = 1)


1
= P ({Gn−1 = j − 1} \ En−1,j (j − 1)) .
2

Dimostreremo che la distribuzione dei tempi di primo passaggio è data da

n
 
j
P(Tj = n) = n n+j .
n2
2
1.11. PASSEGGIATA ALEATORIA DI BERNOULLI 43

Infatti, poiché En−1,j (j − 1) è contenuto in {Gn−1 = j − 1} la (1.11.6) dà:


P ({Gn−1 = j − 1} \ En−1,j (j − 1))
= P ({Gn−1 = j − 1}) − P (En−1,j (j − 1))
n−1 n−1
   
= n+j 2−(n−1) − n + j 2−(n−1)
−1 −1−j
2  2 
n − 1 n − 1
   
= 2−(n−1)  n + j − n−j 
−1 +1
2 2

 
n − 1 n − 1
   
= 2−(n−1)  n + j − n+j 
−1
2 2

 
(n − 1)! 1 1  −(n−1)
=    n−j − n+j  2
n+j n−j
−1 ! −1 !
2 2 2 2

n
 
(n − 1)!j j
=    2−(n−1) = n+j 2
−(n−1)
,
n+j n−j n
! ! 2
2 2
Affrontiamo ora il problema del tempo del primo ritorno nell’origine.
Si ponga
2n−1

A2n := {G2n = 0} e F2n := A2n ∩ ∩j=1 {Gj 6= 0} .
Gli insiemi A2n e F2n rappresentano rispettivamente gli eventi “la particella al tempo
t = 2n si trova nell’origine” e “la particella ritorna nell’origine per la prima volta al tempo
t = 2n”. Poniamo ora
u2n := P(A2n ), f0 := 0, f2n := P(F2n ).
Si noti che, usando la formula di Stirling, che dimostreremo nel seguito, ma che supporremo
già nota, si ha
 
2n 1 (2n)! 1
u2n = 2n
=
n 2 n! n! 22n
1 (1.11.7)
1 (2n)2n+ 2 e−2n 1 1
'√ 1 1 = √ .
2 π nn+ 2 nn+ 2 e−n e−n 22n nπ
Il seguente lemma fornisce il legame tra queste probabilità.
Lemma 1.11.2. Con le notazioni appena introdotte è
u2n = u0 f2n + u2 f2n−2 + · · · + u2n−2 f2 + u2n f0 . (1.11.8)
Dimostrazione. La (1.11.8) è una semplice conseguenza del teorema delle probabilità totali
e dell’indipendenza delle v.a. di {Xn }, o, che è lo stesso, di {Yn }.
n
X
P(A2n ) = P (A2n ∩ F2j )
j=0
Xn n
X
= P(F2j ) P(A2n−2j ) = f2j u2n−2j ,
j=0 j=0
44 CAPITOLO 1. PROBABILITÀ DISCRETE

cioè la (1.11.8).
Può giungere come una sorpresa che valga il seguente
Lemma 1.11.3. In una passeggiata aleatoria simmetrica è

P ∩nj=1 {G2j 6= 0} = P(G2n = 0) = u2n .



(1.11.9)

Dimostrazione. Si osservi che, poiché Gk = 0 implica che sia k = 2j per un opportuno


j ∈ N, la (1.11.9) si potrebbe scrivere anche nella forma

P ∩2n

j=1 {Gj 6= 0} = P(G2n = 0) = u2n . (1.11.10)

Si osservi anche che, necessariamente, si ha


[
∩2n 2n
∩2n

j=1 {Gj 6= 0} = ∩j=1 {Gj > 0} j=1 {Gj < 0} ,

e che, essendo la passeggiata simmetrica, basta mostrare che


 1
P ∩2n
j=1 {Gj > 0} = u2n .
2
Ora, considerando tutti i possibili valori assunti da G2n , si ha
n
 X  2n−1
P ∩2n
 
j=1 {Gj > 0} = P ∩j=1 {Gj > 0} ∩ {G2n = 2k} .
k=1

Per il Lemma 1.11.1, il numero di traiettorie che terminano nel punto (2n, 2k) e che non
hanno punti in comune con l’asse dei tempi, salvo che nell’origine, è

N (2n − 1, 2k − 1) − N (2n − 1, 2k + 1),

sicché, tenendo conto della (1.11.4) e della (1.11.5), si ha


 1
∩2n−1
 
P j=1 {Gj > 0} ∩ {G2n = 2k} = {P(G2n−1 = 2k − 1) − P(G2n = 2k)} .
2
Perciò
2n
 1 X
P ∩2n
j=1 {Gj > 0} = {P(G2n−1 = 2k − 1) − P(G2n = 2k)}
2
k=1
 
1 1 2n − 1 1
= P(G2n−1 = 1) =
2 2 n 22n
(2n − 1)! 1
=
n!(n − 1)! 22n
1 (2n)! n 1 1 1
= = P(G2n = 0) = u2n ,
2 n!n! 2n 22n−1 2 2
che conclude la dimostrazione.
Corollario 1.11.1. Valgono le relazioni

f2n = u2n−2 − u2n , (1.11.11)


1
f2n = u2n , (1.11.12)
2n − 1
X
f2n = 1. (1.11.13)
n∈N
1.11. PASSEGGIATA ALEATORIA DI BERNOULLI 45

Dimostrazione. L’insieme che esprime che il primo ritorno nell’origine avviene al tempo
t = 2n è
∩2n−1 2n−1 c
 
j=1 {Gj 6= 0} ∩ {G2n = 0} = ∩j=1 {Gj 6= 0} \ {G2n 6= 0}
onde
∩2n−2
  
f2n = P j=1 {Gj 6= 0} ∩ {G2n = 0}

= P ∩2n−2 2n
 
j=1 {Gj 6= 0} − P (∩j=1 {Gj 6= 0} = u2n−2 − u2n .

La (1.11.12) si ottiene dopo qualche conto che non presenta alcuna difficoltà:
   
2n − 2 1 2n 1
f2n = u2n−2 − u2n = −
n − 1 22n−2 n 22n
(2n − 2)! 1 (2n)! 1
= −
(n − 1)! (n − 1)! 22n−2 n! n! 22n
 
(2n − 2)! 1 1 2n (2n − 1)
= 1 −
(n − 1)! (n − 1)! 22n−2 4 n2
 
2n − 2 1 2n − (2n − 1)
=
n − 1 22n−2 2n
 
(2n − 2)! 1 1 2n 1
= = .
n! (n − 1)! 22n−1 2n − 1 n 22n
Infine, per la (1.11.13),
X X
f2n = (u2n−2 − u2n ) = u0 = 1 .
n∈N n∈N

Corollario 1.11.2. Il tempo medio d’attesa per il primo ritorno nell’origine è infinito,
X
2 n f2n = +∞. (1.11.14)
n∈N

Dimostrazione. Segue dalla (1.11.12) e dalla (1.11.7) che, per n abbastanza grande, il
termine generale della serie in (1.11.14) si può scrivere
2n 2n 1
2n f2n = u2n ' √ ,
2n − 1 2n − 1 n π
onde l’asserto.
Consideriamo ora l’evento L2k,2n “sino al tempo t = 2n, la particella è passata per
l’origine l’ultima volta al tempo t = 2k”;
L2k,2n := {G2k = 0} ∩ ∩nj=k+1 {G2j 6= 0} .


Teorema 1.11.1. La probabilità di L2k,2n è


α2k,2n := P (L2k,2n ) = u2k u2n−2k . (1.11.15)
Dimostrazione. Si può scrivere
2j
( )!
X
L2k,2n = {G2k = 0} ∩ ∩nj=k Yi 6= 0 .
i=2k+1

Poiché le Yn sono indipendenti e isonome, la (1.11.10) implica


P (L2k,2n ) = P(G2k = 0) P ∩nj=k+1 {G2j 6= 0} = u2k u2n−2k ,


che dà l’asserto.


46 CAPITOLO 1. PROBABILITÀ DISCRETE

La distribuzione di probabilità discreta sui punti {0, 2, 4, . . . , 2n} data da


p2k := α2k,2n
si dice legge discreta dell’arcoseno di ordine n perché la funzione arcoseno costituisce un’ot-
tima approssimazione. Si tratta di una distribuzione simmetrica attorno a n,
α2k,2n = α2n−2k,2n .
Sia Te2n il tempo dell’ultimo passaggio per l’origine sino al tempo t = 2n. Allora
P(Te2n = 2k) = α2k,2n .
La simmetria dà, allora, P(Te2n ≤ n) = P(Te2n ≥ n). Dalle (1.11.7) e (1.11.15) segue che
1 1
α2k,2n ' p
π k (n − k)
e, di qui,
j j
X 1 X 1
P(Te2n ≤ 2j) = α2k,2n ' p .
π k (n − k)
k=0 k=0
Se n è sufficientemente grande,
j Z j
1 X 1 1 dx
P(Te2n ≤ 2j) ' p ' p
π k (n − k) π 0 x (n − x)
k=0

(ricorrendo al cambio di variabile x = ns2 )

Z √x/n Z √x/n
1 2ns 1 ds
= p ds = √
π 0
2 2 2
n s (1 − s ) π 0 1 − s2
r
j
= arcsin .
n
Infine, vogliamo studiare il massimo raggiunto dalla passeggiata aleatoria: introdotta la
v.a. Mn := max{j : Gk = j (k ≤ n)}, si domanda quale sia la probabilità P(Mn = j). Si
osservi che l’evento En,j (k) − En,j+1 (k) corrisponde all’essere la pallina al tempo t = n in
x = k senza essere mai passata per x = j + 1, ma essendo passata per x = j. Poichè k può
essere un qualsiasi intero compreso tra −n e j, si ha
j
[
{Mn = j} = (En,j (k) \ En,j+1 (k)) .
k=−n

Si è, cosı́, espresso l’evento {Mn = j} come unione disgiunta; poiché, inoltre, En,j+1 (k) è
contenuto in En,j (k), si ottiene, ricorrendo alla (1.11.2),
j
X
P(Mn = j) = (P(En,j (k)) − P(En,j+1 (k)))
k=−n
j
X
= (P(G0n = k − 2j) − P(G0n = k − 2j − 2))
k=−n

= P(G0n = −j) − P(G0n = −j − 2) + P(G0n = −j − 1)


− P(G0n = −j − 3) + P(G0n = −j − 2) − P(G0n = −j − 4)
+ P(G0n = −j − 3) − P(G0n = −j − 5) + . . .
= P(G0n = −j) + P(G0n = −j − 1).
1.11. PASSEGGIATA ALEATORIA DI BERNOULLI 47

Per quanto osservato precedentemente solo uno di questi due ultimi termini differisce da
zero.
In definitiva nella passeggiata aleatoria simmetrica risulta
 
 n   n

P(Mn = j) = 2−n n+j + n+j+1 .
 
2 2
Il metodo di riflessione può essere usato per rispondere ad altre questioni, come nell’e-
sempio che segue.
Esempio 1.11.1. In un ballottaggio tra due candidati, c0 e c00 , che riportano rispettivamente
n0 e n00 voti, vince il candidato c0 (n0 > n00 ); se lo spoglio dei voti avviene aprendo le schede
ad una ad una, qual è la probabilità che il candidato vincente sia sempre in vantaggio nel
corso dello scrutinio?
Si può rappresentare lo scrutinio mediante un grafico, riportando in ascissa il numero
dei voti scrutinati; in ordinata, i voti del candidato c0 sono considerati positivi mentre quelli
del candidato c00 sono considerati negativi. Le posizioni di ordinata positiva corrispondono
dunque ad una situazione di vantaggio del candidato c0 . Tutti i possibili scrutinı̂ sono
rappresentati da spezzate che sono comprese tra le rette x = −n00 e x = n0 e che congiungono
l’origine O con il punto B di coordinate (n0 + n00 , n0 − n00 ). Si conviene di non contare i
0 00  0 00 
voti nulli o le schede bianche. Il numero di “storie” differenti è dunque n +n n0 = n n+n
00 .
Gli scrutinı̂ nei quali il candidato vincente c0 è sempre in vantaggio sono quelli che uniscono
O ad B senza toccare l’asse dei “tempi” in punti diversi dall’origine. Si pone il problema
di contare quanti siano tali scrutinı̂ o, equivalentemente, quante siano le spezzate che li
rappresentano. Ognuna di tali spezzate passa necessariamente per il punto A di coordinate
0 00
−1
(1, 1). Le spezzate che congiungono A ad B sono complessivamente n +n

n0 −1 . Tra queste
non sono da considerare quelle che toccano l’asse delle ascisse. Il numero di queste ultime
si determina ricorrendo al metodo di riflessione. Sia A0 il punto simmetrico di A rispetto
all’asse dei tempi. Esiste una corrispondenza biunivoca tra i cammini che uniscono A0 ad
B (con n0 e n00 fissati); si veda la Fig. 13.4

Fig. 13.4
0 00
−1
I cammini da A0 a B sono in numero di n +n

n0 . La probabilità cercata è, perciò,
 0
n + n00 − 1 n0 + n00 − 1
  
0

n −1 n0
p=  0
n + n00


n0
n0 !n00 !
 
1 1
= (n0 + n00 − 1)! −
(n − 1)!n ! n !(n − 1)! (n0 + n00 )!
0 00 0 00
0 00
n −n
= 0 .
n + n00
48 CAPITOLO 1. PROBABILITÀ DISCRETE

Scrivendo tale probabilità nella forma


n0 n00
p= − ,
n0 + n00 n0 + n00
ci si accorge subito che essa è la differenza tra le percentuali dei voti validi riportati dai
candidati. 
Esempio 1.11.2. (La rovina del giocatore). Si torni alla passeggiata aleatoria con l’inter-
pretazione del giocatore che ad ogni istante gioca una partita nella quale vince o perde un
euro con probabilità p o q. Si ha quindi una successione (Yn )n∈Z+ con P (Yn = +1) = p e
P (Yn = −1) = q. Se il giocatore dispone inizialmente di a euro e se 0 < a < c, si vuole
sapere quale sia la probabiltà che il giocatore arrivi ad avere c euro prima di perdere tutto
il suo capitale iniziale di a euro.
Formalizziamo come segue la questione. Si introducano le dua v.a.
n [ o
T0 := inf n ∈ Z+ {+∞} : Gn = 0
n [ o
Tc := inf n ∈ Z+ {+∞} : Gn = c .

Il problema della “rovina del giocatore” consiste nel calcolare la probabilità P (Tc < T0 ). Si
ponga tale probabilità eguale a p(a) indicando esplicitamente la dipendenza da a, p(a) :=
P (Tc < T0 ), in modo da avere la possibilità di variare a. Ricorrendo al teorema delle
probabiltà totali, si ha

p(a) = P (Tc < T0 )


= P (Tc < T0 | Y1 = −1) P (Y1 = −1)
+ P (Tc < T0 | Y1 = +1) P (Y1 = +1)
= q p(a − 1) + p p(a + 1).

Si è cosı́ottenuta l’equazione alle differenze

p(a) = q p(a − 1) + p p(a + 1), (1.11.16)

che deve essere risolta tenendo conto delle condizioni al contorno, p(0) = 0 e p(c) = 1. Si
può risolvere la (1.11.16), ricorrendo all’equazione caratteristica

1 = q t−1 + p t ,

vale a dire
1 q
t2 − t + = 0. (1.11.17)
p p
Se p 6= q, la (1.11.17) ha due radici distinte, t = 1 e t = q/p. La soluzione generale della
(1.11.16) è  a
q
p(a) = A + B ,
p
ove le costanti A e B si determinano mediante le condizioni al contorno. Tenendo conto di
queste ultime, si ottiene  a
q
1−
p 1
p(a) =  c , p 6= . (1.11.18)
q 2
1−
p
Se, invece, è p = 1/2, la (1.11.17) ha una soluzione doppia t = 1, sicché la (1.11.16) ha come
soluzione generale
p(a) = A + B a .
1.12. LA FUNZIONE GENERATRICE DELLE PROBABILITÀ 49

Di nuovo, si calcolano le costanti A e B con l’ausilio delle condizioni al contorno, ottenendo


la soluzione
a 1
p(a) = , p= .
c 2
In un gioco equo, p = 1/2, è eguale a a/c la probabilità che il giocatore riesca ad avere c
euro, partendo da un capitale iniziale di a euro.
è interessante fare un esempio concreto. Si supponga che il giocatore abbia un capitale
iniziale di 9700 euro e che il suo scopo sia di vincere 10,000 euro, prima di perdere tutto. Se
p = 1/2, ciò accade con probabilità 0.97, che è molto grande; se, invece, p = 0.49, sostituendo
nella (1.11.18) si ottiene approssimativamente 6.1 × 10−6 . Si osservi come un piccolo cambio
della probabilità p di vittoria provochi, a lungo andare, un grande cambiamento. 

1.12 La funzione generatrice delle probabilità


Interrompiamo lo studio della passeggiata aleatoria per introdurre un concetto che riveste
importanza per suo conto.
Sia P una probabilità definita sulla famiglia delle parti di Z+ e si ponga pn := P({n})
con n ∈ Z+ . Si dice funzione generatrice della probabilità P la funzione ψ definita in [0, 1]
mediante X
ψ(t) := p n tn . (1.12.1)
n∈Z+

In tal caso si parla anche di funzione generatrice della legge di probabilità {pn }. La serie
(1.12.1) è convergente in [0, 1]; la sua somma ψ(t) è continua, crescente e verifica le relazioni

ψ(0) = p0 e ψ(1) = 1,

ed ammette in [0, 1] derivate di ogni ordine. è noto dai corsi di analisi matematica che
due serie di potenze che abbiano la stessa somma in tutti i punti di un insieme infinito
avente l’origine come punto di accumulazione sono identiche, nel senso che hanno gli stessi
coefficienti. Da ciò si deduce che due distribuzioni di probabilità con la stessa funzione
generatrice sono eguali.
Per estensione si parla di funzione generatrice di una v.a. X se questa assume valori
interi positivi; in questo caso si ha pn := P(X = n) con n ∈ Z+ e
X
P(X = n) tn = E tX .

ψX (t) :=
n∈Z+

Siano X1 e X2 due v.a. indipendenti a valori in Z+ ; allora, per ogni t ∈ [0, 1], il valore della
funzione generatrice della loro somma X1 + X2 è, per quanto appena visto,

ψX1 +X2 (t) = E tX1 +X2 = E tX1 tX2


 
(1.12.2)
= E tX1 E tX2 = ψX1 (t) ψX2 (t);
 

essa è, dunque, il prodotto delle funzioni generatrici di X1 e di X2 .


Esempio 1.12.1. Se la v.a. X ha legge di Bernoulli di parametro p, si ha

ψX (t) = q + pt = 1 − p + pt = 1 + p (t − 1).


Esempio 1.12.2. Sia Sn una v.a. con legge binomiale Bi(n, p); segue facilmente dall’esem-
pio precedente e dalla (1.12.2)
n
ψSn (t) = {1 + p (t − 1)} .


50 CAPITOLO 1. PROBABILITÀ DISCRETE

Esempio 1.12.3. Se la v.a. X ha legge geometrica di parametro p, è


∞ ∞
X X pt
ψX (t) = pq n−1 tn = pt (qt)n−1 = .
n=1 n=1
1 − qt


Esempio 1.12.4. Sia X una v.a. con legge di Poisson, X ∼ P(λ); allora,

X λn tn
ψX (t) = e−λ = e−λ eλ t = exp{λ (t − 1)} .
n=0
n!

Si osservi che, se X1 e X2 sono due v.a. indipendenti con leggi di Poisson di parametri λ1 e
λ2 rispettivamente, X1 ∼ P(λ1 ) e X2 ∼ P(λ2 ), allora la (1.12.2) dà

ψX1 +X2 (t) = exp{(λ1 + λ2 ) (t − 1)} ,

sicché X1 + X2 è una v.a. con legge di Poisson di parametro λ1 + λ2 . 


La (1.12.1) è una serie di potenze con raggio di convergenza che è almeno eguale a 1.
Perciò essa ammette derivate di tutti gli ordine nell’intervallo [0, 1[; queste si ottengono,
com’è noto, derivando a termine a termine la serie di potenze (1.12.1). Si osservi che, per
ogni k ∈ N, la derivata k–esima della funzione generatrice ψ è, a sua volta, una serie di
potenze con i coefficienti positivi, sicché la somma di tale serie è una funzione crescente in
[0, 1[ ed ammette, quindi, limite a sinistra nel punto t = 1 (tale limite può essere finito o
eguale a +∞). Useremo la notazione

ψ (k) (1) := lim ψ (k) (t).


t→1
t<1

Ovviamente, se ψ è la funzione generatrice della v.a. X, si ha

ψ (k) (1) = [X (X − 1) . . . (X − k + 1)] .

In particolare, risulta

ψ 0 (1) = E(X) e ψ 00 (1) = E [X (X − 1)] , (1.12.3)

e, quindi,
E X 2 = ψ 0 (1) + ψ 00 (1).
 

Vediamo come usare la funzione generatrice per completare lo studio della passeggiata
aleatoria che abbiamo intrapreso nella sezione precedente, elimando, ora, l’ipotesi che sia
p = q = 1/2. Ritenendo la notazione già introdotta, la probabilità di ritorno all’origine al
tempo t = 2n è data da  
2n n n
u2n = p q (n ∈ Z+ );
n
naturalmente, è u0 = 1 perché la particella si trova nell’origine all’istante iniziale. Non è
difficile calcolare la funzione generatrice della legge {u2n : n ∈ Z+ }; ricordando lo sviluppo
della serie binomiale, si trova
∞   ∞
X 2n n n 2n X (2n)!
ψu (t) = p q t = (pqt2 )n
n=0
n n=0
n! n!

X (2n)!
= (−1)n (−4pqt2 )n
n=0
(2n)!! (2n)!!

X (2n − 1)!!
= (−1)n (−4pqt2 )n = (1 − 4pqt2 )−1/2 .
n=0
(2n)!!
1.13. PASSEGGIATA ALEATORIA IN ZD 51

Pertanto
1
ψu (t) = p .
1 − 4pqt2
Si consideri ora la probabilità f2n che il primo ritorno nell’origine avvenga al tempo t = 2n.
Già si sa che f0 = 0 e che vale la relazione
n
X
u2n = u2n−2j f2j .
j=1

Di qui

X ∞
X n
X
ψu (t) = 1 + u2n t2n = 1 + t2n u2n−2j f2j
n=1 n=1 j=1
X∞ ∞
X
=1+ f2j t2j u2n−2j t2n−2j = 1 + ψu (t) ψf (t) .
j=1 n=j

è ora facile calcolare


1 p
ψf (t) = 1 − = 1 − 1 − 4pqt2 . (1.12.4)
ψu (t)
La probabilità p̃ che la passeggiata aleatoria torni nell’origine è, dunque,
X p
pe = f2n = ψf (1) = 1 − 1 − 4pq ;
n∈Z+

ma
1 − 4pq = 1 − 4p (1 − p) = 1 − 4p + 4p2 = (1 − 2p)2 = (q − p)2 ,
sicché la probabilità di ritorno nell’origine è

pe = 1 − |q − p| .

Tale probabilità è eguale a 1, p̃ = 1, se, e solo se, p = q, vale a dire se, e solo se, la passeggiata
aleatoria è simmetrica. In caso contrario è p̃ < 1.
Vogliamo, infine, calcolare il tempo medio di ritorno nell’origine nel caso simmetrico
q = p. Detta T0 la v.a. che dà il tempo del primo ritorno nell’origine, si ha, evidentemente,
P(T0 = 2n) = f2n , (n ∈ Z+ ). Perciò, tenendo conto delle (1.12.3) e della (1.12.4), si trova

X t
E (T0 ) = 2n f2n = ψf0 (1) = lim √ = +∞ ,
n=0
t→1
t<1
1 − t2

sicché il tempo medio di ritorno nell’origine è infinito.

1.13 Passeggiata aleatoria in Zd


Si consideri, nello spazio euclideo Rd , un sistema di assi cartesiani ortogonali, e, su ciascuno
di essi, si segnino le posizioni intere. Si ottiene, cosı́, un reticolo di punti, a coordinate intere,
che rappresenta Zd . Consideriamo il caso di una passeggiata aleatoria su Zd ; esamineremo
il solo caso simmetrico.
Si scelga a caso, quindi con probabilità 1/d, uno degli assi, per esempio il j–esimo; sia
assegnata la successione (Xnj )n∈N di v.a. bernoulliane indipendenti,

P(Xnj = 0) = P(Xnj = 1) = 1/2,

e la successione associata (Ynj )n∈N , ove Ynj := 2 Xnj − 1. Supponiamo che le successioni
(Yn1 ), (Yn2 ), . . . , (Ynd ) siano complessivamente formate da v.a. indipendenti, sicché, per esem-
pio Ynj e Ymk sono indipendenti quali che siano m e n in N con m 6= n e j e k in {1, 2, . . . , d}
52 CAPITOLO 1. PROBABILITÀ DISCRETE

con j 6= k. La posizione della particella che si muove in Zd è individuata dal vettore aleatorio
d–dimensionale
Gn := G1n , G2n , . . . , Gdn .


Calcoliamo la probabilità P(G2n = 0) che il processo ritorni nell’origine

0 = (0, 0, . . . , 0)

al tempo t = 2n.
Perché il processo ritorni nell’origine, supponiamo che compia 2 kj passi lungo il j–esimo
asse; come nel caso unidimensionale, abbiamo già usato il fatto che, lungo ogni asse, il
processo dovrà compiere un egual numero di passi nel verso positivo che nel verso negativo.
Si avrà, necesseriamente, k1 + k2 + · · · + kd = n. Noti i numeri k1 , k2 , . . . , kd , si ha
  2 k  1
j
P Gj2kj = 0 = ;
kj 22kj

inoltre, poiché la probabilità di scegliere 2 kj volte il j–esimo asse è 1/d2kj , si ha, ricorrendo
ai coefficienti multinomiali,

1 X (2 n)!
P (G2n = 0) =
(2 d)2n k1 !k1 !k2 !k2 ! . . . kd !kd !
k1 ,k2 ,...,kd
k1 +k2 +···+kd =n

(n!)2
 
2n 1 X
=
n (2 d)2n (k1 !)2 (k2 !)2 . . . (kd !)2
k1 ,k2 ,...,kd
k1 +k2 +···+kd =n
   2
2n 1 X n
= .
n (2 d)2n k1 , k2 , . . . , kd
k1 ,k2 ,...,kd
k1 +k2 +···+kd =n

Per d = 1, si ottiene nuovamente la (1.11.7), mentre, per d = 2, si trova


  n  
2n 1 X n
P (G2n = 0) =
n 42n k2
k=0
  n      2
2n 1 X n n 2n 1
= = = u22n ,
n 42n k n−k n 22n
k=0

ove u2n è dato ancora dalla (1.11.7). Ricorrendo alla formula di Stirling, si ha

1

√ ,
 se d = 1,
P (G2n = 0) = nπ (1.13.1)
 1 ,

se d = 2.

Consideriamo, infine, il caso d ≥ 3. Poiché,
  
X 1 n
= 1,
dn k1 , k2 , . . . , kd
k1 ,k2 ,...,kd
k1 +k2 +···+kd =n

e, poiché tutti i termini sono positivi, si ha


   
2n 1 n
P (G2n = 0) ≤ max .
n (2 d)2n k1 ,k2 ,...,kd k1 , k2 , . . . , kd
k1 +k2 +···+kd =n
1.14. LA DEFINIZIONE SOGGETTIVA DELLA PROBABILITÀ 53

Un facile calcolo mostra che il minimo del denominatore k1 !k2 ! . . . kd ! è raggiunto quando
kj = costante, vale a dire, approssimativamente, per kj ' n/d (j = 1, 2, . . . , d). Ricorrendo
ancora alla formula di Stirling, si ottiene
 
n n! n!
= ≤ n  od
k1 , k2 , . . . , kd k1 ! k2 ! . . . kd ! n
!
√ d
nn e−n 2π n dn dd/2
'   r 2 = d−1 ,
n n/d −n/d √ n (2 π n) 2
e 2π
d d

onde, ricordando la (1.11.7), ed essendo Cd un’opportuna costante, che si potrebbe calcolare


esplicitamente,
1 dn dd/2 Cd
P (G2n = 0) ≤ √ d−1 d−1 ≤ . (1.13.2)
n π (2 π) 2 n 2 n3/2
In virtú della (1.13.1) e della (1.13.2) la serie
X
P (G2n = 0)
n∈N

è, dunque, divergente se d = 1, 2, convergente se d ≥ 3.


Siamo ora in grado di enunciare il seguente teorema, la cui dimostrazione richiede
strumenti pi’u sofisticati.

Teorema 1.13.1. (Pólya). In una passeggiata aleatoria simmetrica su Zd con d ≥ 3 è nulla


la probabilità che il processo ritorni infinite volte nell’origine.

1.14 La definizione soggettiva della probabilità


In queste lezioni abbiamo sistematicamente adottato il punto di vista assiomatico, che
però prescinde dal significato da attribuirsi alle probabilità. Ritornando alla domanda del-
la sezione iniziale — Che cos’è la probabilità? — esporrò brevemente il punto di vista
soggettivo.
La definizione di probabilità, secondo de Finetti, si basa sul concetto di scommessa
coerente.
Per ogni p ∈ R, si parla di scommessa di quota p e di importo S su un evento E, se
versata una somma pS con S 6= 0 arbitrario, si riceve una la somma S se, e solo se, si verifica
E. Se E non si verifica, si perde la somma pS. Il guadagno della scommessa su E è dunque

G(E) = (1E − p)S.

Esplicitamente, si guadagnerà (1 − p)S se E si realizza, −pS se E non si realizza. Nulla si


può dire a questo punto del segno del guadagno. Si intende che se S è negativo in effetti si
pagherà la somma |S|.
Una scommessa su E si dice coerente se non esiste alcun valore di S 6= 0 tale che i
due guadagni possibili legati all’alternativa sul realizzarsi di E siano entrambi positivi o
entrambi negativi; in altra parole, una scommessa è coerente se non vi è la certezza che una
delle due parti contraenti vinca quale che sia il risultato. La coerenza richiede dunque che,
per ogni S 6= 0, sia
−p(1 − p)S 2 ≤ 0,
vale a dire p2 − p ≤ 0, o, ancora, p ∈ [0, 1].
Vi sono due casi nei quali l’esito della scommessa è scontato, se E = ∅, oppure se E = Ω,
vale a dire quando E è l’evento impossibile ∅ oppure l’evento certo Ω; nel primo caso si
54 CAPITOLO 1. PROBABILITÀ DISCRETE

perde certamente, nel secondo si vince certamente. In ciascuna di queste due situazioni la
condizione di coerenza richiede che i guadagni siano nulli; infatti per E = ∅, il guadagno è
G(∅) = −pS, onde p = 0, mentre se E = Ω, il guadagno è G(Ω) = (1 − p)S onde p = 1.
Secondo la definizione di de Finetti, si dice probabilità di un evento E un numero p =
P(E) tale che sia coerente la scommessa di quota p su E.
Questa definizione può apparire deludente, perché tutto quello che dice è che la proba-
bilità di un evento E è un numero di [0, 1]. Occorre, però, fissare l’attenzione non solo su
E, ma anche su altri eventi che possono contribuire a determinare e a modificare le infor-
mazioni che su E si hanno. A tal fine, giova supporre che la famiglia degli eventi abbia una
struttura algebrica; la piú naturale è quella di algebra. Si vedrà nel seguito che supporre
che la probabilità sia definita in un’algebra A di sottoinsiemi di Ω non è restrittivo.
Invece di una sola scommessa sull’evento E, si consideri una qualunque sottoclasse finita
di A, {E1 , E2 , . . . , En }; si considerino n scommesse coerenti e simultanee sugli eventi Ej di
importi arbitrarı̂, e differenti da zero, S1 , S2 , . . . , Sn e di quote p1 , p2 , . . . , pn . Il guadagno
sarà dato dalla v.a.
X n
G := (1Ej − pj )Sj .
j=1

In particolare, se gli eventi E1 , E2 , . . . , En costituiscono una partizione, di Ω, la combi-


nazione di scommesse considerate equivale ad un’unica scommessa sull’evento certo Ω. Al-
lora, scegliendo gli importi S1 = S2 = · · · = Sn = 1, si ha G = 1 − (p1 + p2 + · · · + pn ),
sicché la scommessa è coerente se, e solo se,

P(E1 ) + P(E2 ) + · · · + P(En ) = 1.

A questo punto, potremmo definire come probabilità qualsiasi funzione P da A in [0, 1] che
soddisfaccia alle proprietà P(∅) = 0, P(Ω) = 1 e all’ultima scritta.
Possiamo ora dare il seguente teorema.
Teorema 1.14.1. Se A e B sono due eventi incompatibili (A ∩ B = ∅), allora
[
P(A B) = P(A) + P(B).

Dimostrazione. Si consideri l’evento E = A ∪ B e l’evento E c . Allora, la famiglia {E, E c }


costituisce una partizione, onde P(E) + P(E c ) = 1, cioè

P(E) = 1 − P(E c ).

Ma anche {A, B, E c } è una partizione, onde 1 = P(A) + P(B) + P(E c ) e di qui

P(A) + P(B) = 1 − P(E c ).

Dall’eguaglianza dei secondi membri scende quella dei primi.


Alla luce dell’ultimo teorema dimostrato, la probabilità è una funzione P positiva, defini-
ta su un’algebra A di sottoinsiemi di Ω e finitamente additiva anziché numerabilmente ad-
ditiva, com’è invece nella definizione di Kolmogorov. Si vedrà nel seguito che è sempre
possibile estendere una probabilità finitamente additiva a P(Ω), la famiglia dei sottoinsiemi
di Ω.
Vogliamo mostrare che una valutazione coerente di probabilità è unica. Si supponga che
una stessa persona effettui due diverse scommesse sullo stesso evento E, rispettivamente
di quote p e p0 e di importi S e S 0 , arbitrarı̂ e non nulli. I guadagni che corrispondono al
realizzarsi di E e di E c sono rispettivamente

G = (1 − p)S + (1 − p0 )S 0 se si realizza E,

e
G0 = −pS − p0 S 0 se non si realizza E.
1.15. NOTE AL CAPITOLO 1 55

Ora, si considerino le ultime due come due equazioni nelle incognite S e S 0 , vale a dire
(
(1 − p)S + (1 − p0 )S 0 = G
−pS − p0 S = G0

Se fosse diverso da zero il determinante dei coefficienti, tale sistema avrebbe soluzione per
ogni coppia di valori di G e di G0 , anche entrambi positivi o entrambi negativi. Perciò la richi-
esta che la scommessa sia coerente comporta che si annulli il determinante dei coefficienti,
cioè
1 − p 1 − p0

det = −p0 + pp0 + p − pp0 = p − p0 .
−p0

−p
La coerenza impone dunque che sia p0 = p.
È particolarmente interessante l’approccio soggettivo alle probabilità condizionate. Sia
data un’algebra A di sottoinsiemi di un insieme non vuoto Ω, e si ponga A0 := A \ {∅}. Si
dice evento condizionato E/H con E ∈ A e H ∈ A0 un evento che è vero se sono veri sia H
sia E, è falso se H è vero, mentre E è falso e che, infine, è indeterminato se H è falso. Per
H = Ω si ha E/Ω = E.
In una scommessa condizionata su E/H, di quota p e di importo S 6= 0, si versa la
somma pS per ricevere S se si verificano sia E sia H, si perde pS se si verifica H ma non
E; se non si verifica H la scommessa è annullata e si riprende quindi la somma versata pS.
Una scommessa condizionata su E/H si dice coerente se la funzione su A × A0 definita da
(E, H) 7→ P(E/H) è una probabilità su A, tutte le volte che sia fissato H ∈ A0 .
Teorema 1.14.2. Se E ∈ A e H 6= ∅, allora

P(E ∩ H) = P(E/H) P(H).

Dimostrazione. Si ponga p := P(H ∩ E), p0 := P(H) e p00 := P(E/H) e si considerino due


scommesse simultanee: una di quota p0 e importo S 0 su H e l’altra di quota p00 e di importo
S 00 su E/H. Vale la partizione di Ω, Ω = H c ∪ (H ∩ E) ∪ (H ∩ E c ); in corrispondenza del
realizzarsi dei tre insiemi della partizione si hanno rispettivamente i guadagni

G1 = −p0 S 0 , G2 = −p0 S 0 − p00 S 00 + S 0 + S 00 , G3 = −p0 S 0 − p00 S 00 + S 0 .

Si scelgano gli importi S 0 = p00 e S 00 = 1; allora

G1 = −p0 p00 , G2 = 1 − p0 p00 , G3 = −p0 p00 ;

si ha, cosı́, un guadagno 1 − p0 p00 , se si realizza H ∩ E, ed un guadagno −p0 p00 , se si realizza


[
H c (H ∩ E c ) = (H c ∪ H) ∩ (H c ∪ E c ) = (H c ∪ E c ) = (H ∩ E)c .

Le due scommesse equivalgono ad un’unica scommessa di quota p0 p00 sull’evento H ∩ E. La


coerenza impone cosı̀ p = p0 p00 , vale a dire l’asserto.

1.15 Note al Capitolo 1


La bibliografia sulle probabilità è molto vasta; di seguito diamo una selezione dei libri sulla
Probabilità che abbiamo tenuto presenti nello scrivere questo lezioni. Si tratta di un elenco
parziale limitato alla letteratura in italiano, inglese e francese.
Per i libri di carattere introduttivo si possono consultare:
(Feller, 1950), (Parzen, 1960), (Gnedenko, 1968), (Billingsley, 1968), (Pintacuda, 1983),
(Baclawski et al., 1984), (Dall’Aglio, 1987), (Baldi, 1992), (Letta, 1993), (Cufaro Petroni,
1996), (Koch, 1997), (Buonocore et al., 2011).
Non si può tacere che alcune monografie di carattere piú elevato hanno avuto una grande
importanza dal punto di vista storico: (Kolmogorov, 1933), monografia densissima nella
56 CAPITOLO 1. PROBABILITÀ DISCRETE

quale la probabilità ha trovato il suo assetto moderno e che riporta i risultati fondamentali,
(Cramér, 1946) che insieme al già citato libro di (Feller, 1950) che sono stati, per lungo
tempo, i soli testi di riferimento per gli studiosi.
Un approccio differente da quello tradizionale, basato sull’assiomatizzazione delle sper-
anze anziché delle probabilità si puó trovare in (Whittle, 1992).
Sarà bene tenere presenti le voci dell’enciclopedia (S. Kotz, N.L. Johnson, 1982).
Utili libri di esercizı̂ sono, accanto a quelli di Feller, Letta e Parzen, citati sopra, quelli
di (Cacoullos, 1989), (Cerasoli, 1991), (Baldi et al., 1995), (Piccinato, 1969), (Grimmet &
Stirzaker, 2001).
Si consultino anche i libri di esempiı̂ e controesempı̂, che sono sempre utili per mettere a
cimento le proprie conoscenze, (Romano & Siegel, 1986), (Stoyanov, 1987) e (Székely, 1986).

Section 1.1 Per un primo orientamento sulla storia del calcolo delle probabilità, si vedano
le storie generali della matematica, per esempio, (Loria, 1982), (Boyer, 1980), (Kline,
1972), (Struik, 1947).
Esistono, poi, libri dedicati interamente alla storia del calcolo delle probabilità, come
(Maistrov, 1974). Istruttive sono anche le raccolte (Pearson & Kendall, 1970, 1977).
Per studı̂ piú approfonditi si troveranno numerose indicazioni, aggiornate al 1981,
nell’opera di (Dauben, 1985). Numerose sintetiche biografie di molti probabilisti i cui
nomi ricorrono in queste lezioni si possono trovare in (Heyde & Seneta, 2001).
È istruttiva la lettura del bell’articolo (Cramér, 1976) che dà una visione ragionevol-
mente completa, e non troppo personale, del calcolo delle probabilità nel periodo
1920–1970. Sono tratte da quest’articolo le citazioni di (von Mises, 1919) e (Cramér,
1926). Si veda, infine, la rapida ma magistrale sintesi di (Loève, 978).
Per il richiamo al Talmud si veda (Rabinovitch, 1969).
Tranne i brevissimi cenni di questa sezione e l’ultima sezione, abbiamo evitato qualsiasi
discussione approfondita sul significato di probabilità. Per questo si può consultare
come primo orientamento (Fine, 1973).

Sezione 1.2 Il risultato citato nel corso della dimostrazione di 1.2.3, e cioè che in R ogni
insieme aperto può essere espresso come l’unione disgiunta, al più numerabile, di
intervalli aperti, si può trovare nel delizioso volumetto di (Boas, 1960).

Sezione 1.4 Il problema dei compleanni fu introdotto da von Mises nel 1932. Esso è stato
oggetto di una vasta letteratura e di numerissime generalizzazioni.

Sezione 1.6 Non ci è bastato il cuore per rompere con la tradizione, e sostituire la denom-
inazione “variabile aleatoria” con quella di “funzione (misurabile)”.
Per l’opera probabilistica di Poisson si veda (Sheynin, 1978).

Sezione 1.7 La diseguaglianza (1.7.2) appare per la prima volta in (Bienaymé, 1853), ar-
ticolo che fu ristampato come (Bienaymé, 1867) probabilmente per coincidere con
l’articolo di (Čebyšev, 1867) che lo segue immediatamente nello stesso fascicolo del
Giornale di Liouville. Čebyšev dette la priorità a Bienaymé; alla stessa conclusione
giunse Markov. Tuttavia l’articolo di Čebyšev ebbe maggiore risonanza, soprattut-
to attraverso gli scritti della forte scuola russa di probabilità. Si veda per tutta la
questione (Heyde & Seneta, 1987). A rigore, quindi, la (1.7.2) dovrebbe chiamarsi
diseguaglianza di Bienaymé–Čebyšev, cosı́ come, del resto, fanno alcuni autori.
La diseguaglianza di Markov fu presentata in (Markov, 1913).
Il Teorema di Weierstraßfu introdotto in (Weierstraß, 1885). La dimostrazione data
qui segue (Bernstein, 1912); poiché questo articolo non è reperibile con facilità, essa
si può trovare negli esercizı̂ di (Loève, 1963) o in (Chow & Teicher, 1978).
1.16. ESERCIZÎ SUL CAPITOLO 1 57

Sezione 1.8 Sono, naturalmente, molte altre le distribuzioni di probabilità discrete che
trovano uso nelle applicazioni. Si veda la monografia (Johnson et al., 1993) che è ad
esse dedicata.
Borel (1913) suppose che fossero delle scimmie a scrivere su una macchina per scrivere
e a “creare” testi letterarı̂.

Sezione 1.9 Del principio di inclusione–esclusione sono note numerose dimostrazioni la cui
maggiore o minore semplicità dipende dalla cultura matematica dello studioso che le
legge. Quella presentata in queste lezioni è tratta da (Loève, 1963). Un approccio
differente si può trovare in (Ryser, 1963) o (Brualdi, 1977).

Sezione 1.10 Il problema del raccoglitore di figurine può essere affrontato con metodi piú
raffinati; si veda, a questo proposito, (Pintacuda, 1980). La letteratura in proposito è
però veramente sterminata.

Sezioni 1.11–1.13 Queste sezioni sono modellate in larga parte sulla trattazione dei libri
di (Feller, 1950) e di (Baclawski et al., 1984).
L’esempio 1.11.1 è dovuto ad (André, 1887). Il Teorema (1.13.2) fu presentato in
(Pólya, 1921).

Sezione 1.14 La presentazione delle probabilità soggettive data in queste lezioni è strin-
gatissima. Lo studioso può, anzi, dovrebbe, consultare l’opera di uno dei padri di tale
approccio, Bruno de Finetti; qui basti segnalare (de Finetti, 1970) e la voce Probabilità
nell’Enciclopedia Einaudi, vol. 10, Torino: Einaudi, 1980 scritta dallo stesso de Finetti.
L’esposizione segue (Scozzafava, 1989).

1.16 Esercizı̂ sul Capitolo 1


1. Si dimostrino le seguenti relazioni:

(a) A \ B = A \ (A ∩ B) = (A ∪ B) \ B;

(b) A ∩ (B \ C) = (A ∩ B) \ (A ∩ C) = (A ∩ B) \ C;

(c) (A \ B) \ C = A \ (B ∪ C);

(d) A \ (B \ C) = (A \ B) ∪ (A ∩ C);

(e) (A \ B) ∩ (C \ D) = (A ∩ C) \ (B ∪ D);

(f) (A ∪ B) \ C = (A \ C) ∪ (B \ C).

2. La differenza tra insiemi non è associativa,

(A \ B) \ C 6= A \ (B \ C) .

3. Si dimostrino le seguenti relazioni:

(a) A∆∅ = A;

(b) A∆Ω = Ac ;

(c) A∆Ac = Ω;

(d) A∆A = ∅;

(e) A∆B = (A ∪ B) \ (A ∩ B);

(f) A∆B = Ac ∆B c ;
58 CAPITOLO 1. PROBABILITÀ DISCRETE

(g) A ∩ (B∆C) = (A ∩ B)∆(A ∩ C);

(h) A∆B = B∆A;

(i) (A∆B)∆C = A∆(B∆C).

4. Se A ⊂ B, si calcoli A∆B; è invertibile questo risultato?

5. Si dimostrino le seguenti relazioni:

(a) 1Ac = 1 − 1A ;

(b) A = {ω ∈ ω : 1A (ω) = 1};

(c) A ⊂ B ⇐⇒ 1A ≤ 1B ;

(d) 1A∩B = 1A · 1B ;

(e) 1A∪B = 1A + 1B − 1A∩B ;

(f) 1A\B = 1A (1 − 1B );

(g) 1A∆B = 1A + 1B − 21A · 1B = |1A − 1B | = (1A + 1B )(mod 2);

(h) 1∩n∈N An = minn∈N 1An ;

(i) 1∪n∈N An = maxn∈N 1An .

6. (a) In P(Ω) la relazione A = B equivale a A∆B = ∅.


(b) L’equazione nell’incognita X (un insieme), A∆X = B, ove A e B sono assegnati
sottoinsiemi di Ω, ammette sempre soluzione in P(Ω) e la soluzione è unica.

7. Rispetto a quale delle tre operazioni ∪, ∩, ∆ la famiglia P(Ω) è un gruppo?

8. (P(Ω), ∆, ∩) ove ∆ svolge il ruolo di addizione e ∩ quello di moltiplicazione è un anello


commutativo con unità. Si caratterizzino gli insiemi Ω per i quali tale anello è un dominio
d’integrità.

9. Sia F una tribú di sottoinsiemi di Ω e sia Ω1 ⊂ Ω. è allora una tribú di sottoinsiemi


di Ω1 , detta traccia di F in Ω1 , la famiglia F1 := {A ∩ Ω1 : A ∈ F}. Inoltre se Ω ∈ F, è
F = {A ∈ F : A ⊂ Ω1 }.

10. Sia A una famiglia di sottoinsiemi di Ω che goda delle seguenti proprietà:

(a) Ω ∈ A;

(b) A ∈ A =⇒ Ac ∈ A;

(c.1) A1 , A2 ∈ A =⇒ A1 ∪ A2 ∈ A;

(c.2) se An ∈ A per ogni n ∈ N e se gli insiemi della successione (An ) sono disgiunti, allora
∪n∈N An ∈ A.

Allora A è una tribú.

11. Sia Ω un insieme infinito non numerabile, cioè cardΩ) > ℵ0 . Sia F la famiglia dei
sottoinsiemi di Ω che sono numerabili o tali che sia numerabile il loro complementare

F := {A ⊂ Ω : card(A) ≤ ℵ0 oppure card(Ac ) ≤ ℵ0 } .

Allora F è una tribú.


1.16. ESERCIZÎ SUL CAPITOLO 1 59

12. Vale la diseguaglianza

max{P(A) + P(B) − 1, 0} ≤ P(A ∩ B) ≤ min{P(A), P(B)} .

13. Vale la diseguglianza


|P(A) − P(B)| ≤ P(A∆B) .
14. Se gli eventi A1 , A2 ,. . . , An sono indipendenti si ha
n
! n
[ Y
P Ai = 1 − P(Aci ) .
i=1 i=1

15. Se gli eventi A1 , . . . , An sono indipendenti con P(Ai ) = pi , qual è la probabilità


 P che

n
non se ne verifichi alcuno? Si mostri che tale probabilità è maggiorata da exp − j=1 pj .

16. Si dia l’esempio di una probabilità e di tre eventi A, B e C tali che

P(A ∩ B ∩ C) = P(A) P(B) P(C) ,

senza che essi siano indipendenti.


17. Siano A e B due eventi con probabilità P(A) e P(B) entrambe in ]0, 1[. Si mostri che
sono, in generale, false le relazioni
(a) P(A | B) + P(A | B c ) = 1;
(b) P(A | B) + P(Ac | B c ) = 1.
18. Se B è un evento tale che sia 0 < P(B) < 1, si dia una condizione necessaria e sufficiente
affinché valga la (b) dell’esercizio precedente.
19. (a) Siano A e B eventi tali P(A) > 0; allora
 \ [   \ 
P A B|A B ≤P A B|A .

(b) Siano A, B e C tre insiemi con P(C) > 0; allora


 \ 
P A B | C = P (A | B, C) P (B | C) .

20. Si mostrino le diseguaglianze


(a) P(A∆C) ≤ P(A∆B) + P(B∆C);
(b) P [(A ∪ B)∆(C ∪ D)] ≤ P(A∆C) + P(B∆D).
21. In uno spazio di probabilità (Ω, F, P), se le probabilità P(A) e P(B) sono entrambe in
]0, 1[ sono equivalenti le affermazioni:
(a) A, B e A∆B sono a due a due indipendenti;
(b) P(A) = P(B) = 2 P(A ∩ B) = 21 .
22. Siano A e B eventi. Si esprima in funzione di P(A), di P(B) e di P(A ∩ B) la probabilità
che, per k = 0, 1, 2, si verifichino
(a) esattamente k dei due eventi A e B,
(b) almeno k,
(c) al piú k.
60 CAPITOLO 1. PROBABILITÀ DISCRETE

23. Siano A, B e C eventi. Si esprima in funzione di P(A), P(B), P(C), P(A ∩ B), P(A ∩ C),
P(B ∩ C) e P(A ∩ B ∩ C) la probabilità che, per k = 0, 1, 2, 3, dei tre eventi A, B e C se ne
verifichino
(a) esattamente k dei due eventi A e B,
(b) almeno k,
(c) al piú k.
24. (Teorema multinomiale)
r
!n  
X X n
αk = αk1 αk2 . . . αrkr ,
k1 , k2 , . . . , kr 1 2
k=1 k1 ,k2 ,...,kr
k1 +k2 +···+kr =n

ove la somma è estesa a tutte le r–ple (k1 , k2 , . . . , kr ) di interi positivi (kj ∈ Z+ ) tali che
r
X
kj = n
j=1

e  
n n!
:= .
k1 , k2 , . . . , kr k1 !k2 ! . . . kr !
25. Per n ∈ N, quante soluzioni con xk numeri naturali (xk ∈ N) ha l’equazione
n
X
xk = n ?
k=1

quante soluzioni con xk interi positivi (xk ∈ Z+ )? quante con xk ≥ s (con s ∈ N)?
26. Un’urna contiene 6 palline numerate da 1 a 6. Qual è la probabilità che la somma dei
numeri di due palline, estratte con o senza restituzione, sia eguale a k, per (k = 1, 2, . . . , 12)?
27. Un’urna contiene 10 palline numerate da 0 a 9. Si estraggano, con o senza restituzione,
tre palline. Mettendo i numeri l’uno accanto all’altro nell’ordine nel quale sono stati estratti,
si forma un numero compreso tra 0(= 000) e 999. Qual è la probabilità che il numero cosı́
formato sia divisibile per 39? (Lo zero è considerato divisibile per 39).
28. In un gruppo di quattro persone, qual è la probabilità che almeno due di esse abbiano
il compleanno nello stesso giorno? (Nel rispondere si mettano bene in evidenza le ipotesi
che si fanno).
29. (Probabilità che un dato giorno sia il 29 febbraio). Si sa che degli anni dei secoli solo
quelli divisibili per 400 sono bisestili; quindi il 2000 è stato bisestile, mentre non lo sono
stati né il 1700, né il 1800, né il 1900. In un periodo di 400 anni vi sono, allora, 97 anni
bisestili, e, quindi, complessivamente 400 × 365 + 97 = 146097 giorni che corrispondono ad
esattamente 20871 settimane. I giorni della settimana si ripetono, dunque, ogni 400 anni;
basterà, perciò, fare riferimento ad un ciclo di 400. La probabilità pb di un giorno bisestile,
vale a dire la probabilità di un 29 febbraio, è dunque
97
pb = ' 0.000664 = 0.0664 % .
146097
La probabilità di un giorno normale è
400
pn = ' 0.002738 = 0.2378 % ,
146097
che è da confrontarsi con 1/365 ' 0.002740 = 0.2740 %, che è la probabilità che verrebbe
spontaneo usare nel modello piú ingenuo possibile.
1.16. ESERCIZÎ SUL CAPITOLO 1 61

30. Si mescolano separatamente due mazzi di carte da gioco formati da 52 carte ciascuno.
Se si gira una carta alla volta da ciascun mazzo, qual è la probabilità che coincidano le carte
girate
(a) per prime,
(b) per 52–esime,
(c) sia per prime sia per 52–esime?
31. Un’urna contiene palline di r colori, precisamente m1 del primo colore, m2 del secondo
colore e cosı́ via. Si calcoli la probabilità che, estraendo, con o senza restituzione, n palline
ve ne siano k1 del primo colore, k2 del secondo colore,. . . , kr dell’r–esimo colore.
32. Due urne U1 e U2 hanno la medesima composizione; entrambe contengono n palline
delle quali b sono bianche. Si estragga una pallina da U2 (senza guardarne il colore) e la si
ponga in U1 . Qual è ora la probabilità di estrarre una pallina bianca da U1 ?
33. Si lancia una moneta per 10 volte. Se P(T ) = P(C) = 1/2, qual è la probabilità
(a) di avere testa nei primi 5 lanci e croce nei successivi 5?
(b) di avere 5 teste e 5 croci?
(c) di avere almeno 5 teste?
(d) di ottenere non piú di 5 teste?
34. Un’urna contiene b palline bianche e c colorate. Ad ogni istante si estrae una pallina,
se ne nota il colore e la si rimette nell’urna insieme a d palline dello stesso colore di quella
estratta. Si calcolino le probabilità
(a) che la seconda pallina estratta sia bianca;
(b) che la prima pallina sia bianca sapendo che la seconda pallina estratta è bianca.
35. In un teatro si vendono a caso k biglietti per le n poltrone di una fila (n > k)). Qual è
la probabilità che, in quella fila, non vi siano persone sedute l’una accanto all’altra?
36. Da un’urna che contiene 4 palline bianche e 2 nere si estraggono, con o senza resti-
tuzione, 4 palline. Si considerino gli eventi Ai :=“l’i–esima pallina estratta è bianca”, B:=“si
estrae esattamente una pallina bianca nelle prime due estrazioni” e C:=“nelle 4 estrazioni
si estraggono 2 palline bianche”. Allora
(a) sono indipendenti A1 e A4 ?
(b) sono indipendenti B e A4 ?
(c) sono indipendenti C e A4 ?
37. Si lancino contemporaneamente n monete eguali (n ≥ 3) per ognuna delle quali è p
la probabilità di testa. Qual è la probabilità che una moneta mostri una faccia diversa da
quella di tutte le altre? Se p = 1/2, qual è la distribuzione della v.a. T1 :=numero del primo
lancio nel quale si verifica la situazione della domanda precedente?
38. Un’urna contiene N palline delle quali b sono bianche; se ne estraggono in successione
n, con o senza restituzione. Si calcoli, nei due casi, la probabilità condizionata P(Bj | Ak ),
se B è l’evento “la j–esima pallina estratta è bianca”, mentre Ak è l’evento “si estraggono
k palline bianche”.
39. Un’urna contiene un egual numero di palline bianche e colorate. Si estraggono con
restituzione due palline. Si calcolino le probabilità condizionate che entrambe le palline
siano bianche sapendo:
62 CAPITOLO 1. PROBABILITÀ DISCRETE

(a) che la prima pallina estratta è bianca;


(a) che almeno una delle due palline estratte è bianca.
Si risponda ai medesimi quesiti se l’estrazione è senza restituzione.
40. Nell’estrazione senza restituzione di tre palline da un’urna che inizialmente ne contiene
b bianche e c colorate, si calcoli la probabilità che la terza pallina estratta sia bianca.
41. Al momento della nascita vi è probabilità 0.51 che il neonato sia maschio. Qual è la
probabilità che una famiglia con 4 figli abbia
(a) esattamente un maschio?
(b) esattamente una femmina?
(c) almeno un maschio?
(d) almeno una femmina?
42. Nelle condizioni dell’esercizio precedente qual è il numero minimo di figli che una coppia
deve avere perché sia maggiore di 0.75 la probabilità di avere almeno due maschi?
43. In una famiglia con 4 figli, qual è la probabilità condizionata che tutti i figli siano maschi
se
(a) il primo figlio è maschio?
(b) se almeno uno dei figli è maschio?
44. Due squadre giocano una serie di partite; vince il torneo la squadra che per prima vince
quattro partite. Nessuna partita può terminare in pareggio. Se la squadra S1 ha probabilità
p (con p ∈ ]0, 1[) di vincere, si calcoli la probabilità che il torneo termini in 4, 5, 6 o 7 partite
per (a) p = 2/3, (b) p = 1/2. Nei due casi si calcoli anche la lunghezza media del torneo.
45. Quante volte si deve lanciare una moneta con P(T ) = P(C) = 1/2, perché sia almeno
0.9 la probabilità che il rapporto tra il numero delle teste e quello dei lanci sia compreso tra
0.4 e 0.6?
46. Si controlli che effettivamente la distribuzione geometrica ha speranza finita.
47. Si dimostri la seguente identità
  X k   
n i n−i
= (n ∈ N; i, k = 0, 1, . . . , n) .
k r=0
r k−r

48. Per la distribuzione ipergeometrica si ha effettivamente


n
X
pk = 1 .
k=0

Si calcolino speranza e varianza di tale distribuzione.


49. Per la distribuzione binomiale negativa si mostri che
X
pk = 1 ,
k∈Z+

e se ne calcolino speranza e varianza.


50. La distribuzione di Pascal è effettivamente una distribuzione di probabilità. Se ne calcoli
la speranza.
1.16. ESERCIZÎ SUL CAPITOLO 1 63

51. In un processo di Bernoulli (Xn ) su (Ω, F, P), con P(X1 = 1) = p, siano T1 e T2 gli
istanti del primo e del secondo successo, rispettivamente. Si calcoli la probabilità di {T1 = k}
sapendo che {T2 = n}.
52. Si calcoli la costante λ in modo che
qn
pn = λ (q ∈ ]0, 1[)
n
(n ∈ N) sia una distribuzione di probabilità (distribuzione logaritmica). Si calcolino sper-
anza e varianza della distribuzione logaritmica.
53. La legge di Poisson troncata è una legge di probabilità su N, anziché su Z+ come la
legge di Poisson, data da
λn
P(X = n) := k (λ > 0, n ∈ N) .
n!
Si calcoli la costante k in modo che risulti cosı́ definita una legge di probabilità e se ne
calcolino media e varianza.
54. In un processo di Bernoulli (Xn ) su (Ω, F, P), con P(X1 = 1) = p, si calcoli la probabilità
condizionata di avere un successo all’i–esima prova (i = 1, 2, . . . , n) sapendo che in n prove
si hanno k successi, cioè P(Xi = 1 | Sn = k).
55. In un processo di Bernoulli (Xn ) su (Ω, F, P), con P(X1 = 1) = p, si calcoli
(a) per k = 0, 1, . . . , n, la probabilità (condizionata) di avere esattamente m+k successi se
si è avuto un successo in ognuna delle prime m prove, cioè P(Sm+n = m+k | Sm = m);
(b) la probabilità (condizionata) di avere m + k successi se nella serie di m + n prove si
sono ottenuti almeno m successi cioè

P(Sm+n = m + k | Sm+n ≥ m) .

56. (a) Per assegnati valori di n ∈ N e di p ∈ ]0, 1[, si studii il comportamento dei termini
della legge binomiale b(k; n, p) al variare di k in {k = 0, 1, . . . , n};
(b) perché risulti b(k; n, p) = b(k + 1; n, p), occorre e basta che (n + 1)p sia un numero
naturale, cioè (n + 1)p ∈ N;
(c) per assegnati valori di k in N e di p in ]0, 1[, si cerchi il massimo di b(k; n, p) al variare
di n (con n ≥ k).
57. Siano date nel medesimo spazio di probabilità (Ω, F, P) due v.a. X e Y , indipendenti ed
entrambe di legge geometrica, rispettivamente di parametro p1 e p2 . Si determini la legge
della v.a. Z := X ∨ Y = max{X, Y }.
58. Sia Sn una v.a. binomiale di parametro p. Quale che sia b > 0, è

lim P (Sn ≤ b) = 0 .
n→+∞

59. Si calcoli la probabilità che una v.a. binomiale Sn di parametro p assuma valore pari.
Si mostri che, quale che sia p ∈ ]0, 1[, tale probabilità tende a 1/2 al tendere di n a +∞.
60. Se X è una v.a. geometrica di parametro p si calcoli E(1/X).
61. Si calcoli la speranza
E [X (X − 1) . . . (X − k + 1)]
nei due casi:
(a) X è una v.a. con legge di Poisson di parametro λ, X ∼ P(λ);
64 CAPITOLO 1. PROBABILITÀ DISCRETE

(b) X è una v.a. geometrica di parametro p.

62. Qual è l’andamento delle probabilità pn nella distribuzione di Poisson al variare di n in


Z+ ? (λ > 0 è fissato).

63. Se X è una v.a. con legge di Poisson di parametro λ, con λ numero naturale, λ ∈ N, si
calcoli E (|X − λ|).

64. Sullo spazio di probabilità (Ω, F, P), si consideri un processo di Bernoulli (Xn ) e si
calcoli la probabilità che il primo successo avvenga ad un istante dispari.
Si mostri, inoltre, se p = 1/2, che per ogni x ∈ ]0, 1] si può trovare un sottoinsieme
Jx ⊂ N tale che sia eguale a x la probabilità che il primo successo avvenga in un tempo che
appartiene a Jx ; in simboli

∀ x ∈ [0, 1] ∃Jx ⊂ N P (T1 ∈ Jx ) = x .

65. Sullo stesso spazio di probabilità (Ω, F, P) si considerino due processi di Bernoulli in-
dipendenti (Xn0 ) e (Xn00 ) di parametri p1 e p2 rispettivamente. Siano T10 e T100 i del primo
successo nei due processi. Si calcoli la probabilità dell’evento {T10 < T100 } e si determini la
legge di T10 condizionata da questo, vale a dire si calcolino, per k ∈ N, le probabilità

P (T10 = k | T10 < T100 ) .

66. Sullo spazio di probabilità (Ω, F, P) si consideri un processo di Bernoulli (Xn ) si calcoli
la probabilità condizionata di avere k fallimenti prima di avere n successi, subordinatamente
al sapere che vi sono k 0 successi prima di avere n + 1 successi.

67. Un giocatore lancia n volte una moneta con probabilità p di ottenere testa. Tutte le
volte che ottiene testa, un secondo giocatore lancia una moneta identica alla prima.

(a) Si costruiscano due v.a. U e V che diano rispettivamente il numero di teste ed il


numero di croci ottenute dal secondo giocatore;

(b) si determinino le leggi di U e di V ;

(c) sono indipendenti U e V ?

68. (a) Si consideri un processo di Bernoulli (Xn ) di parametro p e, sullo stesso spazio di
probabilità (Ω, F, P) la v.a. N indipendente da quelle della
Pnsuccessione (Xn ). N ha legge
di Poisson di parametro λ, N ∼ P(λ). Si ponga Sn := i=1 Xi per n ∈ N e S0 = 0, si
determinino le leggi delle v.a.
X
SN := Sn 1{N =n} ,
n∈Z+

che dà il numero di successi nelle N prove e della v.a. RN := N − SN che conta il numero
dei fallimenti nelle stesse N prove.
(b) Le v.a. SN e RN sono indipendenti.

69. (Il paradosso delle due buste). Ci è chiesto di scegliere una busta tra due, sapendo che
una delle due buste contiene il doppio del denaro dell’altra. Nella busta scelta vi sono 100
euro. Avendone la possibilià, conviene lasciare quella busta e scegliere invece l’altra?
La risposta è apparentemente affermativa: infatti il guadagno medio provocato dal
cambio è, poiché l’altra busta può contenere 50 o 200 euro,

− 12 50 + 1
2 100 = 50 − 25 = 25 > 0

dunque positivo.
1.16. ESERCIZÎ SUL CAPITOLO 1 65

Una risposta piú precisa è la seguente. Vi sono due buste A e B; la prima contiene x
euro, la seconda 2x. A noi è incognito il valore di x. Si indichi con px la probabilità che
in A vi siano x euro. Si scelga ora una busta, che sarà A con probabilità 1/2 e si guardi
il suo contenuto. Sia X la v.a. che indica questo numero e si denoti con qx la probabilità
condizionata P(A | X = x) che si sia scelta la busta A avendo osservato che X = x. Allora

P (A ∩ {X = x}) px
P(A | X = x) = = .
P(X = x) P(X = x)

Ora  \   \ 
P(X = x) = P A {X = x} + P B {X = x} = px + px/2 .

Perciò
px
qx = .
px + px/2
Allora il valore medio del denaro contenuto nell’altra busta è
1
e = 2xqx + 2 x(1 − qx ) .

Si studii la diseguaglianza e > x, vale a dire 2xqx + 12 x(1 − qx ) > x, che dà come soluzione
px > 21 px/2 .
La risposta in effetti dipende dai parametri px e px/2 : poiché questi non sono dati, non
esiste una risposta “corretta”. Si veda a questo proposito Linzer (1994).
70. Una particella può muoversi lungo una retta occupando le posizioni con coordinate
intere. Ad ogni istante la particella si muove a destra o a sinistra secondo che il lancio di
una moneta dia testa (T ) o croce (C). Se P(T ) = P(C) = 1/2, qual è la probabilità che al
tempo t = 10 la particella sia
(a) al punto di partenza (l’origine delle coordinate)?
(b) al piú a distanza 1 dall’origine?
(c) a distanza 2 dall’origine?
Si risponda alle stesse domande se P(T ) = 0.51.
71. Con riferimento all’esercizio precedente, si supponga che in corrispondenza del risultato
C la particella non si muova.
(a) Qual è la probabilità Pn (k) che al tempo t = n la particella si trovi in x = k?
(b) Si mostri che Pn (k) = p Pn−1 (k − 1) + q Pn−1 (k), ove P(T ) = p e P(C) = q := 1 − p.
(c) Qual è la probabilità che la particella si trovi alla destra del punto x = 2 al tempo
t = 3 o al tempo t = 4?
(d) Qual è la speranza della posizione della particella al tempo t = 3?
(e) Se p = q = 1/2, qual è la posizione nella quale la particella ha maggior probabilità di
trovarsi al tempo t = 4?
72. Siano assegnate due urne U1 e U2 esteriormente indistinguibili. U1 contiene b1 palline
bianche e c1 palline colorate, mentre U2 ne contiene rispettivamente b2 e c2 . Si scelga a
caso un’urna e da questa si estragga con restituzione una successione di palline. Sia (Xn )
la successione di v.a. che dà il risultato dell’n–esima estrazione, in altre parole Xn = 1 se
all’n–esima estrazione si è estratta una pallina bianca, Xn = 0 se si è estratta una pallina
colorata.
(a) sono indipendenti le v.a. Xn ?
66 CAPITOLO 1. PROBABILITÀ DISCRETE

(b) si supponga b1 = 2, c1 = 4, b2 = 5 e c2 = 1; se la prima pallina estratta è bianca


mentre la seconda è colorata, qual è la probabilità che le palline sia state estratte
dall’urna U1 ? e dall’urna U2 ?
73. La Legge dei grandi numeri di Bernoulli può essere estesa al caso di una successione
(Xn ) di v.a. indipendenti e isonome a valori nell’insieme finito S := {s1 , s2 , . . . , sr }; nel caso
delle v.a. di Bernoulli è r = 2 e S = {s, f } oppure S = {0, 1}. Si ponga pj := P(Xn = sj ),
probabilità che non dipende da n perché le v.a. della successione hanno tutte la stessa
distribuzione, e si considerino le v.a.
n
(n)
X
Nj := 1{Xk =sj } ,
k=1

ciascuna delle quali conta quante volte le prime n v.a. della successione abbiano assunto
(n)
il valore sj , sicché Nj /n rappresenta la frequenza del risultato sj nelle prime n prove.
Allora, per ogni ε > 0, vale
 ( (n) )
r N
[ j
lim P  − pj ≥ ε  = 0 .

n

n→+∞
j=1

74. (Le scatole di fiammiferi di Banach) Un matematico distratto, Banach, teneva una
scatola di fiammiferi in ciascuna delle due tasche della giacca e quando aveva bisogno di
accendere la pipa sceglieva a caso la scatola da una delle due tasche. Se ciascunelle due
scatole inizialmente contiene N fiammiferi, si calcoli la probabilità
(a) pj che, quando Banach si accorge che una scatola è vuota, l’altra contenga j fiammiferi;
(b) qj che, quando una scatola è vuota, l’altra contenga j fiammiferi;
(c) che la scatola che per prima è stata trovata vuota non sia stata la prima a svuotarsi.
75. Si consideri un poligono convesso con N lati, ove N è una v.a. con legge
1
P(N = n) = (n ≥ 3) .
2n−2
Si calcolino E(N ) e la speranza E(D) del numero delle diagonali del poligono considerato.
76. Siano X e Y due v.a. isonome ed indipendenti tali che
1
P(X = n) = P(Y = n) = (n ∈ N) .
2n
Si calcolino:
(a) P (X ∧ Y ≤ n);
(b) P(X = Y );
(c) P(Y > X);
(d) P(X divide Y );
(e) P(X ≥ k Y ) con k ∈ N.
77. Un’urna contiene inizialmente b palline bianche e c palline colorate (b, c 6= 0). Si estrae
a caso una pallina: se questa è colorata, non si effettuano piú estrazioni, se invece è bianca la
si rimette nell’urna insieme ad un’altra pallina bianca e si procede ad una nuova estrazione
con le medesime regole. Si indichi con N la v.a. che conta il numero di estrazioni fino
all’estrazione della prima pallina colorata.
1.16. ESERCIZÎ SUL CAPITOLO 1 67

(a) Se c > 1, si mostri che E(N ) è finito e se ne calcoli il valore;


(b) se c = 1, si mostri che E(N ) = +∞.
(Esercizio adattato dal Problema 10504 in Amer. Math. Monthly 105, 181–182
78. Siano X e Y due v.a. discrete e sia p(x, y) := P(X = x, Y = y) la loro densità congiunta,
dove X e Y assumono valori in due insiemi finiti o numerabili.
(a) Si mostri che la somma X + Y ha densità data da
X
q(z) = p(x, z − x) .
x

(b) Se le v.a. X e Y sono, inoltre, indipendenti ed hanno entrambe legge di Poisson di


parametri µ > 0 e ν > 0 rispettivamente, anche la somma X + Y ha legge di Poisson.
79. Un’urna contiene inizialmente b palle bianche e c palle colorate. Ad ogni istante si
estrae a caso dall’urna una pallina, se ne nota il colore e la si rimette nell’urna insieme ad
altre d palline dello stesso colore di quella estratta. Si calcolino le probabilità:
(a) che la seconda pallina estratta sia bianca;
(b) che la prima pallina estratta sia bianca, sapendo che la seconda pallina estratta è
bianca.
80. Ad ogni istante si lanciano indipendentemente due monete; in una di esse la probabilità
di ottenere “testa” è 1/2, nell’altra è 1/3. Qual è la probabilità di ottenere “testa” con
entrambe le monete per la prima volta al quinto lancio?.
81. Siano date due urne. La prima, U1 , contiene 15 palline, delle quali 5 portano il numero
1 mentre 2 palline portano il numero k (k = 2, 3, . . . , 6). La seconda urna U2 contiene in
egual proporzione palline con i numeri da 1 a 6.
(a) Si scelga a caso un’urna e da questa si estragga a caso una pallina. Sia N il numero
della pallina estratta; si calcolino P(N = k) per k = 1, 2, . . . , 6 e E(N ).
(b) Si sceglie a caso un’urna, e, da questa, si estraggono con restituzione due palline; siano
N1 e N2 , rispettivamente i numeri delle due palline estratte. Qual è la probabilità
P(N1 = 3, N2 = 4)? Sapendo che N1 = 3 e N2 = 4, qual è la probabilità che le palline
siano state estratte dall’urna U1 ?
(c) Sono indipendenti le v.a. del punto precedente?
82. Sia (Xn ) una successione di v.a. indipendenti e tutte con legge di Bernoulli di parametro
p e sia N una v.a. indipendente da quelle, con legge di Poisson di parametro λ > 0. Siano
S1 e S2 le v.a. che contano rispettivamente il numero di successi, {Xn = 1}, e quello dei
fallimenti, {Xn = 0}, in N prove. Allora
(a) si scrivano S1 e S2 in funzione delle Xn e di N ;
(b) si trovino le leggi di S1 e di S2 ;
(c) si dica se S1 e S2 siano o no indipendenti.
83. (a) Sia Xn una v.a. binomiale di parametri n e pn ; per j = 0, 1, . . . , n, si calcoli la
probabilità condizionata P(Xn = j | Xn ≥ 1);
(b) se Y è una v.a. con legge di Poisson di parametro λ > 0, Y ∼ P(λ), per j ≥ 0, si calcoli
la probabilità condizionata P(Y = j | Y ≥ 1);
(c) se, per ogni n ∈ N, è λ = n pn , si mostri che, per j ≥ 0, si ha

lim P(Xn = j | Xn ≥ 1) = P(Y = j | Y ≥ 1) .


n→+∞
68 CAPITOLO 1. PROBABILITÀ DISCRETE

84. Siano X1 , X2 , X3 tre v.a. indipendenti, tutte di legge geometrica con parametri
rispettivamente eguali a p1 , p2 , e p3 .
(a) Si calcoli la probabilità P (X1 < X2 < X3 );

(b) tre giocatori A, B e C lanciano a turno un dado nell’ordine

AB C AB C ...;

si calcoli la probabilità che A sia il primo a lanciare un 6, B il secondo e C il terzo.

85. Siano X1 , . . . , Xn variabili aleatorie indipendenti; Xj ha legge di Poisson di parametro


λj (j = 1, . . . , n). Se α1 , . . . , αn ∈ Z+ sono tali che α1 + · · · + αn = s, si calcoli la probabilità
condizionata
P (X1 = α1 , . . . , Xn = αn | Sn = s) ,
Pn
ove Sn := j=1 Xj . Si consideri in particolare il caso n = 2.
86. Se C designa una curva regolare del piano complesso che contenga al suo interno
l’origine, si mostri l’eguaglianza

(1 + z 2 )n (1 + u)n
Z Z
1 1
dz = du ,
2πi C z 2k+1 2πi C uk+1

e la si usi per stabilire la relazione

(1 + z 2 )n
Z  
1 n
dz = .
2πi C z 2k+1 k

Quest’ultima relazione si trova usata, senza commento né derivazione, in un famoso articolo
di Kac del 1956.
Capitolo 2

Variabili Aleatorie

2.1 Variabili aleatorie assolutamente continue


In numerosissimi problemi applicativi il quadro nel quale ci siamo posti sinora, quello degli
spazı̂ di probabilità e delle v.a. discreti, non è piú adeguato a costruire un modello dei
fenomeni che si vogliono studiare. Prenderemo dapprima in esame il caso dello spazio
costituito dall’insieme R dei numeri reali. In questo caso lo spazio misurabile sul quale
si costruiranno le probabilità sarà costituito dalla coppia (R, B), ove con B si indica la
tribú degli insiemi boreliani. Si pone naturalmente il problema di descrivere il “generico”
boreliano; poiché ciò non è possibile, di fatto ci si limita a considerare quei sottoinsiemi di
R che si possono costruire con un numero finito o numerabile di operazioni sugli insiemi del
tipo [−∞, x] con x ∈ R. Si osservi che, se a < b, si ha successivamente

]a, b] = ]−∞, b] \ ]−∞, a] ,

e, quindi,
\  1
 [  1

[a, b] = a − ,b e [a, b[ = a, b −
n n
n∈N n∈N

Definizione 2.1.1. Dato lo spazio di probabilità (Ω, F, P) si dirà variabile aleatoria definita
in questo spazio ogni funzione X : Ω → R misurabile, vale a dire tale che, per ogni boreliano
B di R, risulti
X −1 (B) ∈ F .

Se X è misurabile, e, dunque una variable aleatoria, in particolare si ha che, per ogni


t ∈ R, appartiene alla tribú F l’insieme X −1 (]−∞, t]),

{X ≤ t} = X −1 (]−∞, t]) ∈ F .

Si noti che in questo caso viene a cadere la restrizione card Ω ≤ ℵ0 che l’insieme Ω
sia finito o numerabile. Non ci porremo, nel seguito, in condizioni di massima generalità
perché ciò obbligherebbe ad impadronirsi di strumenti tecnici che è opportuno rimandare
ad un secondo momento. Introdurremo quindi le probabilità nello spazio misurabile (R, B)
mediante la nozione di densità di probabilità. Diremo che una funzione f : R → R+ è una
densità di probabilità se

(a) la funzione f è a valori positivi, ciò che è già stato messo in evidenza, scrivendo che f
assume valori in R+ ;

(b) f è integrabile in R;

69
70 CAPITOLO 2. VARIABILI ALEATORIE

(c) l’integrale di f esteso a tutto R è eguale a 1:


Z Z +∞
f (x) dx = f (x) dx = 1 .
−∞
R

Data una densità di probabilità f , a questa è associata un’unica probabilità Pf definita


nello spazio di probabilità (R, B), per la quale si ha, se a < b,
Z b
Pf ((a, b)) = f (x) dx ,
a

o, se f è la densità della variabile aleatoria X,


Z b
P(X ∈ (a, b)) = f (x) dx .
a

Qui abbiamo scritto (a, b) per indicare uno qualsiasi dei quattro insiemi ]a, b], ]a, b[, [a, b],
[a, b[, vale a dire che non si specifica se ciascuno degli estremi a e b dell’intervallo in questione
appartenga oppure no all’intervallo stesso; per una probabilità definita da una densità questi
quattro insiemi hanno la stessa probabilità.

2.2 Le funzioni di ripartizione


Si dice funzione di ripartizione (o di distribuzione), di solito abbreviato in f.r., della v.a. X
la funzione FX da R in [0, 1] definita da

FX (t) := PX (] − ∞, t]) = P(X ≤ t) (t ∈ R). (2.2.1)

Si scriverà F , invece di FX , per la f.r. di una v.a. X tutte le volte che ciò non generi
confusione.
Due v.a. X e X 0 , non necessariamente definite sopra il medesimo spazio di probabilità, si
dicono isonome o identicamente distribuite, o, ancora somiglianti, se hanno la stessa legge,
cioè se PX = PX 0 . Si vedrà tra breve che due v.a. sono identicamente distribuite se, e solo
se, esse hanno la stessa f.r..
Piú esplicitamente, se X è una v.a. discrete che assume i valori xn con probabilità
pn := P(X = xn ), la sua f.r. si scrive
X
FX (t) = pn .
n:xn ≤t

Se, invece X è assolutamente continua con densità f , la sua f.r. è data da


Z t
FX (t) = f (x) dx .
−∞

La definizione (2.2.1) si applica anche a v.a. non del tipo considerato in queste lezioni.

Teorema 2.2.1. Se F : R → [0, 1] è la f.r. di una v.a. X, allora essa è isotona (t0 < t00 =⇒
F (t0 ) ≤ F (t00 )), è continua a destra (F (t+0) = F (t) per ogni t ∈ R), e soddisfà alle seguenti
condizioni
lim F (t) = 0 e lim F (t) = 1.
t→−∞ t→+∞

Dimostrazione. Se t0 < t00 , vale l’inclusione {X ≤ t0 } ⊂ {X ≤ t00 }, sicché

F (t0 ) ≤ P(X ≤ t0 ) ≤ P(X ≤ t00 ) = F (t00 ) ,


2.3. ESEMPÎ 71

che stabilisce l’isotonia di F .


Sia t un qualsiasi numero reale e sia (tn ) un’arbitraria successione di reali che tende
decrescendo a t. Si consideri la successione di insiemi definita da
({X ≤ tn })n∈N .
Questa è una successione decrescente
{X ≤ t1 } ⊃ {X ≤ t2 } ⊃ · · · ⊂ {X ≤ tn } ⊃ . . .
ed inoltre si ha \
{X ≤ t} = {X ≤ tn } .
n∈N
In virtú del Teorema 1.3.1 del primo capitolo si ha
F (t) = P(X ≤ t) = lim P(X ≤ tn ) = lim F (tn ) .
n→+∞ n→+∞

Sia ora (tn ) un’arbitraria successione crescente di numeri reali che tenda a +∞. La succes-
sione di insiemi ({X ≤ tn }) è crescente e si ha
[
{X ≤ tn } = Ω ,
n∈N

sicché
lim F (tn ) = lim P(X ≤ tn ) = P(X ≤ +∞) = 1 .
n→+∞ n→+∞

Se, invece, (sn ) è un’arbitraria successione decrescente tendente a −∞, allora la successione
di insiemi ({X ≤ sn }) è decrescente e si ha
\
{X ≤ sn } = ∅
n∈N

e
F (sn ) = P(X ≤ sn ) −−−−−→ P(∅) = 0 .
n→+∞

Ciò conclude la dimostrazione.


È ben noto dall’analisi che una funzione crescente e, dunque, in particolare, anche una
f.r. ha al piú un’infinità numerabile di punti di discontinuità.

2.3 Esempı̂
Già sono incontrate alcune leggi di probabilità discrete che ricorrono nelle applicazioni; di
seguito si studiano, sia pur sommariamente, alcune notevoli leggi di probabilità definite da
una densità e che abbiamo chiamato assolutamente continue. Di alcune di esse si troverà
spiegata la “genesi” nel corso di queste lezioni. Molte sono importanti nella Statistica.
Esempio 2.3.1. (Distribuzione normale o gaussiana). Si dice che una v.a. X ha legge
normale o gaussiana di parametri 0 e 1 (normale standard o ridotta nel linguaggio della
Statistica) o, piú brevemente, che X è N (0, 1), ciò che spesso si indica mediante X ∼ N (0, 1),
se X è assolutamente continua con densità data da
1
ϕ(x) = √ exp(−x2 /2) (x ∈ R) . (2.3.1)

Per riconoscere che la (2.3.1) definisce effettivamente una densità di probabilità, si osservi
intanto che ϕ(x) > 0 per ogni x ∈ R. Inoltre, si ricordi che è

Z
exp(−x2 ) dx = π. (2.3.2)
R
72 CAPITOLO 2. VARIABILI ALEATORIE

ciò che assicura che la normalizzazione della densità (2.3.1)


Z
ϕ(x) dx = 1.
R

Si ha inoltre Z
E(X) = x f (x) dx = 0
R

(basta osservare che l’integrando è una funzione dispari),


Z
2 1
V (X) = E(X ) = √ x2 exp(−x2 /2) dx

R
" 2
#x=+∞
xe(−x /2)
Z
1 2
= − √ +√ e(−x /2) dx = 1 ;
2π 2π
x=−∞ R

resta cosı́chiarito che il significato dei due parametri in N (0, 1) è rispettivamente di speranza
e di varianza.
Si dice che una v.a. Y ha legge normale di parametri m e σ con m ∈ R e σ > 0, o che
Y è N (m, σ 2 ) (e si scriverà Y ∼ N (m, σ 2 )) se Y è assolutamente continua ed ha densità

(x − m)2
 
1
ϕN (m,σ2 ) (x) = √ exp − (x ∈ R) .
2π σ 2σ 2

Mediante un semplice cambio di variabile (y = (x − m)/σ) e l’uso della (2.3.2), si mostra


che ϕN (m,σ2 ) è una densità di probabilità; nella stessa maniera si prova che E(Y ) = m e che
V (X) = σ 2 .
La f.r. Φ della legge N (0, 1) non può essere scritta esplicitamente; essa si trova tabulata
in apposite tavole per valori positivi dell’argomento (si vedano gli esercizı̂). A tali tavole si
può ricorrere anche per la legge N (m, σ 2 ) perché
Z x
(t − m)2
 
1
FN (m,σ2 ) (x) = √ exp − dt
σ 2π −∞ 2σ 2
Z x−m  
1 σ
−s2 /2 x−m
=√ e ds = Φ .
2π −∞ σ

L’importanza della legge normale deriva soprattutto dal teorema del limite centrale, il primo
esempio del quale, anche storicamente, è dato dal teorema di de Moivre–Laplace che si
incontrerà nella sezione 7. La legge normale trova innumerevoli applicazioni nella statistica
e in molte scienze sperimentali. 
Esempio 2.3.2. (Legge uniforme). Una v.a. X ha legge uniforme su un boreliano A,
necessariamente limitato, della retta reale R se ha densità data da

1A (x)
f (x) = . (2.3.3)
λ(A)

Solitamente il boreliano A è un intevallo A = (a, b) per il quale non occorre specificare se


gli estremi appartengano o no all’intervallo stesso, poiché la misura di Lebesgue attribuisce
misura nulla ad ogni punto di R. Naturalmente, la (2.3.3) ha significato anche in altri
contesti ove A è un insieme misurabile di uno spazio (Ω, F, λ), ove λ non è necessariamente
la misura di Lebesgue.
La legge uniforme nel caso continuo corrisponde alla distribuzione uniforme ( n1 , . . . , n1 )
nel caso discreto. 
2.3. ESEMPÎ 73

Esempio 2.3.3. (Legge di Cauchy). Una v.a. X ha legge di Cauchy con parametri α e β
ove α ∈ R e β > 0, e si scrive X ∼ C(α, β), se ha densità
1
f (x) = "  2 # (x ∈ R) . (2.3.4)
x−α
πβ 1 +
β

Si controlla subito che la (2.3.4) è una densità di probabilità; infatti, è f (x) > 0 per ogni
x ∈ R, e
Z Z
1 dx
f dx = 2
πβ

x−α
R R 1+
β
Z
1 1 +∞
= (1 + t2 )−1 dt = [arctan t]−∞ = 1.
π π
R

La legge di Cauchy è spesso usata per fornire controesempı̂; il piú semplice è di fornire
l’esempio di una legge che non ammette speranza finita. Infatti, se α = 0 e β = 1, si ha

|x|
Z Z
1 1 x
E(|X|) = 2
dx = 2 dx
π 1+x π 1 + x2
R R
1 +∞
= ln(1 + x2 ) 0 = +∞ ,
π
sicché la speranza non esiste finita. 
Esempio 2.3.4. (Leggi gamma). La funzione gamma di Eulero Γ : ]0, +∞[ → R è definita
da Z +∞
Γ(t) := xt−1 e−x dx (t > 0) .
0
Prima di introdurre le leggi gamma, è opportuno dare alcune delle proprieà della funzione
gamma che servono per la probabilità.
Z +∞
x=+∞
e−x dx = −e−x x=0 = 1 .

Γ(1) = (2.3.5)
0

Mediante il cambio di variabile t = x si calcola l’integrale
  Z +∞ x Z +∞ Z +∞
1 e −t2 2 √
Γ = √ dx = 2 e dt = e−t dt = π . (2.3.6)
2 0 x 0 −∞

La piú importante , e piú famosa, proprietà della funzione gamma è data dalla seguente
relazione che si ottiene mediante integrazione per parti. Si supponga t > 1; allora
Z +∞ Z +∞
t−1 −x
 t−1 −x x=+∞
Γ(t) = x e dx = −x e x=0
+ (t − 1) xt−2 e−x dx ,
0 0

e poiché il contributo del primo termine è nullo, si ha

Γ(t) = (t − 1) Γ(t − 1) (t > 1) . (2.3.7)

Come conseguenza delle (2.3.7) e (2.3.5) si ha per un naturale n

Γ(n) = (n − 1) Γ(n − 1) = (n − 1)(n − 2) Γ(n − 2) = . . .


= (n − 1)(n − 2) . . . 2 Γ(1) = (n − 1)! ,
74 CAPITOLO 2. VARIABILI ALEATORIE

sicché la funzione gamma costituisce una generalizzazione del fattoriale.


Una v.a. X ha legge gamma di parametri α > 0 e θ > 0 se ha densità su R+ data da
θα α−1 −θ x
f (x) = x e 1R+ (x) .
Γ(α)
Si scrive allora che X ∼ Γ(θ, α). La speranza di una v.a. di legge Γ(θ, α) è, ricorrendo al
cambio di variabile u = θ x,
Z +∞ Z +∞
θα θα 1
E(X) = xα e−θ x dx = uα e−u dx
Γ(α) 0 Γ(α) θα+1 0
Γα + 1 α Γ(α) α
= = = .
θ Γ(α) θ Γ(α) θ
Per il calcolo della varianza si calcoli il momento del secondo ordine e si proceda come
appena fatto
Z +∞ Z +∞
θα θα 1
E X2 = xα+1 e−θ x dx = uα+1 e−u dx

Γ(α) 0 Γ(α) θα+2 0
Γ(α + 2) (α + 1) Γ(α + 1) (α + 1) α Γ(α) (α + 1) α
= 2 = = = ;
θ Γ(α) θ2 Γ(α) θ2 Γ(α) θ2
pertanto la varianza è
(α + 1) α α2 α
V (X) = 2
− 2 = 2.
θ θ θ
Si dice che una v.a. X positiva ha legge esponenziale di parametro θ > 0, e si scrive
(anche) X ∼ Exp(θ) se la sua densità di probabilità è

f (x) = θ e−θ x 1R+ (x). (2.3.8)

Si controlla subito che la (2.3.8) definisce una densità di probabilità. La distribuzione


esponenziale (2.3.8) è una particolare legge gamma, la Γ(θ, 1). Segue da quanto detto sopra
che la media e la varianza di X sono date rispettivemente dd
1 1
E(X) = e da V (X) = .
θ θ2
Una v.a. X che abbia legge esponenziale condivide con la legge geometrica (quest’ultima
nel caso discreto, come si è visto) la proprietà dell’assenza di memoria. Sia X ∼ Γ(θ, 1) con
θ > 0 e si consideri, per s, t > 0, la probabilità condizionata
P(X > s + t, X > s) P(X > s + t)
P(X > s + t | X > s) = = . (2.3.9)
P(X > s) P(X > s)
Ora Z +∞ x+∞
e−θ x dx = −e−θ x x=u = e−θ u ,

P(X > u) = θ
u
sicché, sostituendo nella (2.3.9), si ha

e−θ (s+t)
P(X > s + t | X > s) = = e−θ t = P(X > t) ,
e−θ s
ciò che prova l’asserto. 
Esempio 2.3.5. (Leggi beta). Se α e β sono numeri strettamente positivi e se la funzione
beta B è definita da
Z 1
B(α, β) := xα−1 (1 − x)β−1 dx (α, β > 0) .
0
2.3. ESEMPÎ 75

Come nell’esempio precedente è necessario disporre di alcune proprietà della funzione beta.
Mediante la sostituzione y = 1 − x si ha
Z 1 Z 1
B(α, β) := xα−1 (1 − x)β−1 dx = y β−1 (1 − y)α−1 dx = B(β, α) ,
0 0

sicché una funzione beta è simmetrica nei sui argomenti, B(α, β) = B(β, α).
La legge beta di parametri α e β è individuata dalla densità
xα−1 (1 − x)β−1
f (x) = 1(0,1) (x) .
B(a, b)
Se una v.a. X ha legge beta di parametri α e β si scrive X ∼ B(α, β).
Si ricorra alla sostituzione x = sin2 θ per ottenere la relazione
Z 1 Z π/2
B(α, β) := x α−1
(1 − x) β−1
dx = 2 sin2α−1 θ cos2β−1 θ dθ . (2.3.10)
0 0

Per il calcolo dei momenti della legge beta è ancora necessario disporre del legame tra la
funzione beta e le funzioni gamma. Per α > 0 e β > 0 si calcoli, mediante le sostituzioni
x = u2 e y = v 2 ,
Z +∞ Z +∞
α−1 −x
Γ(α) Γ(β) = x e dx y β−1 e−y dy
0 0
Z +∞ Z +∞
2α−1 −u2 2
=4 u u du v 2β−1 e−v dv
Z 0 0
2α−1 2β−1 −(u2 +v 2 )
= u v e du dv .
R2+

In quest’ultimo integrale si passi a coordinate polari, u = ρ cos θ e v = ρ sin θ, per ottenere


Z π/2 Z +∞
2
Γ(α) Γ(β) = 4 sin2α−1 θ cos2β−1 θ dθ ρ2α+2β−1 e−ρ dρ
0 0
!
 Z +∞  Z π/2
2
= 2 ρ2α+2β−1 e−ρ dρ 2 sin2α−1 θ cos2β−1 θ dθ
0 0
Z +∞
= B(α, β) ξ α+β−1 e−ξ dξ = B(α, β) Γ(α + β) .
0

Negli ultimi passaggi si è usata la (2.3.10) e la sostituzione ξ = ρ2 .


Possiamo ra clacolare i momenti di una legge beta. Per la v.a. X ∼ B(α, β) la speranza

Z 1
1 B(α + 1, β)
E(X) = xα (1 − x)β−1 dx =
B(α, β) 0 B(α, β)
Γ(α + 1) Γ(β) Γ(α + β) α Γ(α) Γ(α + β) α
= = = .
Γ(α + β + 1) Γ(α) Γ(β) (α + β) Γ(α + β) Γ(α) α+β
Nello stesso modo si può calcolare il momento del second ordine.
Z 1
1 B(α + 2, β)
E(X 2 ) = xα+1 (1 − x)β−1 dx =
B(α, β) 0 B(α, β)
Γ(α + 2) Γ(β) Γ(α + β) (α + 1) Γ(α + 1) Γ(α + β)
= =
Γ(α + β + 2) Γ(α) Γ(β) (α + β + 1) Γ(α + β + 1) Γ(α)
(α + 1) α Γ(α) Γ(α + β) (α + 1) α
= = .
(α + β + 1)(α + β) Γ(α + β) Γ(α) (α + β + 1)(α + β)
76 CAPITOLO 2. VARIABILI ALEATORIE

La varianza di X è, perciò,

(α + 1) α α2
V (X) = E(X 2 ) − E2 (X) = −
(α + β + 1)(α + β) (α + β)2
αβ
= .
(α + β + 1)(α + β)2

Si noti che tutte le altre leggi di probabilità introdotte in questa sezione, e si tratta di
quelle piú frequenti nelle applicazioni, sono diverse da zero su un insieme illimitato, le
leggi beta e uniforme sono eguali a zero fuori di un insieme compatto. Che, poi, questo
insieme compatto sia l’intervallo unitario [0, 1] nel caso delle leggi beta è questione alla
quale si rimedia facilmente mediante un cambio di variabile. Per esempio, si controlla
immediatamente che la funzione f : (a, b) → R+ definita da
 α−1  β−1
1 x−a b−x
f (x) = 1(a,b) (x)
B(α, β) (b − a) b−a b−a

è una densità di probabilità che è nulla fuori dell’intervallo [a, b]. 

Esempio 2.3.6. (Legge di Student). Una v.a. X ha legge t di Student di parametro n > 0
(e si dice allora che X ha n gradi di libertà) se ha densità
 
n+1
Γ − n+1
x2

1 2 2

f (x) = √ n 1+ . (2.3.11)


nπ Γ n
2

Si noti che per n = 1 la legge di Student (2.3.11) coincide con la distribuzione di Cauchy di
parametri α = 0 e β = 1. 

Esempio 2.3.7. (La legge del χ2 =chi quadro). Tale legge su R+ è individuata dalla densità
 x 
x(n/2)−1 exp − 2
f (x) = 2σ (x > 0) .
2n/2 σ n Γ(n/2)

Se una v.a. X ha legge del chi quadro si scrive che X ∼ χ2 (n, σ); si osservi che, allora, è
X ∼ Γ( 2σ1 2 , n2 ). 

Esempio 2.3.8. (La legge χ). La legge χ(n, σ) di parametri n e σ > 0 ha densità

2(n/2)n/2 n−1 −(nx2 /2σ2 )


f (x) = x e (x > 0) . (2.3.12)
σ n Γ(n/2)

Se nella (2.3.12)
p si pone n = 2 e σ = α 2 si ottiene la legge di Rayleigh; ponendo invece
n = 3 e σ = α 3/2, si ha la legge di Maxwell. Entrambe trovano uso in fisica. 

Esempio 2.3.9. (Legge F ). La legge F di parametri n e s con n ∈ N e s ∈ N ha densità


n
Γ[(n + s)/2]  n n/2 x 2 −1
f (x) = n+s (x > 0) . (2.3.13)
Γ(n/2) Γ(s/2) s  n  2
1+ x
s

Questa legge è usata in Statistica. 


2.4. PROBABILITÀ GEOMETRICHE 77

Figura 2.1: Il lancio dell’ago.

2.4 Probabilità geometriche


Si parla di probabilità geometriche quando si abbia una legge uniforme sopra un insieme
misurabile, di misura di Lebesgue finita in Rn ; in tal caso, la probabilità dell’insieme in
esame viene ad essere eguale al rapporto tra la sua misura e la misura del supporto della
densità di probabilità uniforme. Poiché il campo delle probabilità geometriche è diventato
un capitolo a sé del Calcolo delle Probabilità (e della Geometria) ci limitiamo ad alcuni
esempı̂ classici e semplici.

Esempio 2.4.1. (Il problema dell’ago di Buffon). Sopra un piano è tracciato un fascio di
rette parallele che distano 2a l’una dall’altra. Sul piano si lascia cadere “a caso” un ago,
che si suppone omogeneo, di lunghezza 2l. Si chiede di calcolare la probabilità p che l’ago
intersechi una delle rette tracciate sul piano. Per evitare la possibilità di piú intersezioni,
si suppone che sia l < a. L’espressione “a caso” ha sempre il significato di distribuzione
uniforme; mentre ciò è chiaro quando l’insieme Ω è finito, come nei giochi di carte o in una
serie finita di lanci di una moneta, nel caso in esame la dizione “a caso” ha bisogno di essere
precisata. Si può fissare la posizione dell’ago rispetto all’insieme delle rette anziché rispetto
ad una retta particolare, mediante due coordinate, la distanza x del punto medio dell’ago
dalla retta piú vicina e l’angolo acuto θ che la direzione dell’ago forma con quella della retta.
Lasciar cadere “a caso” l’ago significa supporre distribuzioni uniformi per x nell’intervallo
(0, a) e per θ nell’intervallo (0, π/2). L’ago interseca una retta quando, e solo allora che,
è verificata la diseguaglianza x ≤ l sin θ. Nel piano dei parametri (θ, x) che si suppongono
indipendenti, l’insieme dei punti ai quali corrisponde un’intersezione è quello situato sotto
la sinusoide di equazione x = l sin θ.
La probabilità p d’avere un’intersezione è dunque
Z π/2
2 2l π/2 2l
p= l sin θ dθ = [− cos θ]0 = .
πa 0 πa πa

Tale formula si presta alla determinazione “sperimentale” di π: supposto, infatti, di aver


ottenuto m intersezioni in n lanci, si ha π ' 2ln
am . La tabella che segue riporta i risultati di
alcuni esperimenti effettivamente compiuti.

Nome n valore “sperimentale” di p


Wolff (1850) 5000 3.1596
Smith (1855) 3204 3.1553
Fox (1894) 1120 3.1419
Lazzarini (1901) 3408 3.1415329.
78 CAPITOLO 2. VARIABILI ALEATORIE

Figura 2.2: È fissato un vertice.

I risultati di Fox e di Lazzarini sono poco affidabili. Infatti si consideri la differenza tra i
valori corrispondenti a m e m + 1 del numero di intersezioni

a(m + 1) am a l 1
− = > = > 0.0001
2ln 2ln 2ln 2ln 2n
se n < 5000. 

Esempio 2.4.2. (Il paradosso di Bertrand). Nella seconda metà dell’Ottocento, quando il
Calcolo delle Probabilità non aveva ancora avuto una sistemazione soddisfacente, Bertrand
pose la seguente domanda: Qual è la probabilità che tracciando a caso una corda in una
circonferenza di raggio r, questa abbia lunghezza maggiore di quella del lato l del triangolo
equilatero inscritto nella circonferenza?
A questa domanda Bertrand dette risposte differenti.
Prima risposta: Per evidenti ragioni di simmetria si può fissare un estremo della corda
in un punto qualsiasi della circonferenza; la corda avrà lunghezza maggiore di l se cadrà
nell’angolo del triangolo equilatero che ha un vertice nell’estremo fissato. Poiché si traccia
una corda a caso, si supporrà una distribuzione uniforme degli angoli; la probabilità cercata
è dunque p1 = 1/3 (si veda la Fig. 2.2).
Seconda risposta: Poiché tutte le direzioni sono equivalenti si può immaginare che la
corda sia parallela ad uno dei lati del triangolo. La distanza di ogni lato di un triangolo
equilatero dal centro della circonferenza nella quale è inscritto è di r/2. Ora la lunghezza
della corda sarà maggiore di l se, e solo se, essa dista dal centro della circonferenza meno di
r/2
r/2. La probabilità cercata è dunque p2 = = 1/2 (si veda la Fig. 2.3).
r
Terza risposta: La lunghezza della corda sarà maggiore di l se il suo punto medio dista
dal centro meno di r/2, vale a dire, se il suo punto medio cade all’interno del cerchio di
raggio r/2 e centro coincidente con quello della cinconferenza data. La probabilità cercata
πr2 /4
è data allora dal rapporto tra le aree dei due cerchi ed è perciò p3 = = 1/4.
πr2

Qual è allora la risposta corretta alla domanda posta da Bertrand?


L’origine del paradosso sta nel fatto che l’espressione “a caso” non è precisata, tanto che
sopra si sono viste tre diverse interpretazioni di tale espressione giungendo a tre risposte
differenti; precisando cosa si intenda si individua anche la risposta corretta, poiché sopra
si hanno tre maniere diverse di tracciare “a caso” una corda: tenendo fisso un estremo,
tenendo fissa la sua direzione, guardando alla posizione del suo punto medio. 
2.4. PROBABILITÀ GEOMETRICHE 79

Figura 2.3: È fissata una direzione.

Figura 2.4: Si guarda al punto medio della corda.


80 CAPITOLO 2. VARIABILI ALEATORIE

2.5 Vettori aleatorı̂


Dato lo spazio di probabilità (Ω, F, P), si dice vettore aleatorio un vettore X = (X1 , . . . , Xn )
dove Xj : Ω → R è una variabile aletoria. Nel seguito ci limiteremo al caso n = 2, vale a
dire al vettore aleatorio (X1 , X2 ). La funzione di ripartizione (X1 , X2 ) è definita da
 \ 
F(X1 ,X2 ) (s, t) := P(X1 ≤ s, X2 ≤ t) = P {X1 ≤ s} {X2 ≤ t} .

Prime di stabilire le proprietà della funzione di ripartizione di un vettore aleatorio


(X1 , X2 ) che sono raccolte nel successivo Teorema 2.5.1, conviene dimostrare il seguente
Lemma 2.5.1. La probabilità P ((X1 , X2 ) ∈ R) che il vettore aleatorio (X1 , X2 ) assuma
valori nel rettangolo R = ]a, b] × ]c, d] è data da

P ((X1 , X2 ) ∈ ]a, b] × ]c, d]) = F (b, d) − F (b, c) − F (a, d) + F (a, c) .

Dimostrazione. Il risultato discende dalla considerazione del significato di F (s, t).


Teorema 2.5.1. La f.r. F di un vettore aleatorio (X1 , X2 ) gode delle seguenti proprietà:
(a) Per ogni t ∈ R lims→∞ F (s, t) = 0 e per ogni s ∈ R, limt→∞ F (s, t) = 0;
(b) lim F (s, t) = 1;
min{s,t}→+∞

(c) F è continua a destra in ogni variabile: per ogni t ∈ R la funzione s 7→ F (s, t) è


crescente e, per ogni s ∈ R, la funzione t 7→ F (s, t) è crescente;
(d) per ogni rettangolo R = ]a, b] × ]c, d], vale la diseguaglianza

F (b, d) − F (b, c) − F (a, d) + F (a, c) ≥ 0. (2.5.1)

Dimostrazione. (a) Basta osservare che, fissato s ∈ R e posto F2 := FX2 , si ha

F (s, t) = P(X1 ≤ s, X2 ≤ t) ≤ P(X2 ≤ t) = F2 (t),

e com’è per le funzioni di ripartizione di una variabile aleatoria si ha

0 = lim F2 (t) ≥ lim F (s, t) ≥ 0 .


t→−∞ t→−∞

Analogamente si mostra che


lim F (s, t) = 0.
s→−∞

La dimostrazione dei punti (b) e (c) è del tutto analoga a quella del Teorema 2.2.1.
(d) Dal Lemma 2.5.1 si ha

P ((X1 , X2 ) ∈ ]a, b] × ]c, d]) = F (b, d) − F (b, c) − F (a, d) + F (a, c) ,

quest’ultima combinazione è necessariamente positiva.


Con un abuso di notazione si possono semplificare alcune delle formule che si sono
incontrate; si scriverà

F (−∞, t) := lim F (s, t) e F (s, −∞) := lim F (s, t) ,


s→−∞ t→−∞

e, analogamente

F (+∞, t) := lim F (s, t) F (s, +∞) := lim F (s, t) ,


s→+∞ t→+∞

F (+∞, +∞) := lim F (s, t) .


min{s,t}→+∞
2.5. VETTORI ALEATORÎ 81

Si osservi che la condizione (d) del precedente Teorema è piú forte della condizione che
potrebbe sembrare la naturale generalizzazione della condizione di isotonia delle funzioni di
ripartizione semplici (cioè di una sola variabile aleatoria). Si supponga che sia a < a0 e sia
t ∈ R. La (d) del Teorema 2.5.1 assicura che, per ogni s < t, valga la diseguaglianza

F (a0 , t) − F (a, t) − F (a0 , s) + F (a, s) ≥ 0 ;

si faccia tendere s a −∞, per ottenere

∀t ∈ R F (a0 , t) ≥ F (a, t).

Analogamente si dimostra che t 7→ F (s, t) è isotona per ogni s ∈ R.


Esempio 2.5.1. Si consideri la funzione ϕ : R2 → [0, 1] definita da
(
1, x + y ≥ 1,
ϕ(x, y) =
0, x + y < 0 .

È immediato controllare che ϕ soddisfà alle proprietà, (a), (b) e (c). Per mostrare che ϕ
non soddisfà alla (d), basta considerare un rettangolo con tre vertici posti nel semipiano
x + y ≥ 0 e uno nel semipiano x + y < 0 per trovare che la “probabilità” di tale rettangolo
è −1! Pertanto ϕ non può essere una funzione di ripartizione.
Le funzioni s 7→ F1 (s) := F (s, +∞) e t 7→ F2 (t) := F (+∞, t) sono le funzioni di
ripartizione delle v.a. X1 e X2 , rispettivamente, e si dicono funzioni di ripartizione marginali
di F .
Definizione 2.5.1. Due variabili aleatorie X1 e X2 definite sullo stesso spazio di probabilità
(Ω, F, P) si dicono (stocasticamente) indipendenti (rispetto alla probabilità P), se, comunque
si scelgano t1 e t2 in R, si ha

P(X1 ≤ t1 , X2 ≤ t2 ) = P(X1 ≤ t1 ) P(X2 ≤ t2 ) . (2.5.2)


La (2.5.4) si può scrivere nella forma equivalente, valida per ogni s ∈ R e per ogni t ∈ R

F (s, t) = F1 (s) F2 (t) , (2.5.3)

o, anche nella forma F = F1 ⊗ F2 senza indicare gli argomenti. La fattorizzazione della


funzione di ripartizione congiunta F = F1 ⊗ F2 equivale all’indipendenza delle v.a. X1 e X2 .

Vale la pena osservare che le funzioni misurabili di variabili aleatorie indipendenti sono
ancora indipendenti. È questo il contenuto del prossimo teorema.
Teorema 2.5.2. Nello spazio di probabilità (Ω, F, P) siano X1 e X2 indipendenti e siano
misurabili le funzioni ϕ1 , ϕ2 : R → R. Sono allora indipendenti le variabili aleatorie ϕ1 ◦ X1
e ϕ2 ◦ X2 .
Dimostrazione. Siano A e B due boreliani; allora

P (ϕ1 ◦ X1 ∈ A, ϕ2 ◦ X2 ∈ B) = P (ϕ1 ◦ X1 )−1 (A), (ϕ2 ◦ X2 )−1 (B)




= P X1−1 ϕ−1 −1
ϕ−1
  
1 (A) , X2 2 (B)
= P X1−1 ϕ−1
   −1 −1 
1 (A) P X2 ϕ2 (B)
= P (ϕ1 ◦ X1 )−1 (A) P (ϕ2 ◦ X2 )−1 (B) ;
   

si è qui fatto uso della misurabilità di ϕ1 e ϕ2 , poiché gli insiemi ϕ−1 −1


1 (A) e ϕ2 (B) sono
entrambi boreliani.
82 CAPITOLO 2. VARIABILI ALEATORIE

In queste lezioni considereremo, oltre i vettori aleatorı̂ discreti, che sono stati studiati nel
precedente capitolo, i vettori assolutamente continui. Ci limiteremo, di solito, a considerare
il caso bidimensionale, anche se alcuni risultati si lasciano estendere facilmente.
Definizione 2.5.2. Si dice densità di probabilità congiunta ogni funzione f : R2 → R tale
che
(a) f sia positiva, ∀ x ∈ R2 f (x) ≥ 0;
(b) f sia integrabile;
(c) l’integrale di f esteso a tutto R2 sia eguale a 1:
Z
f (x) dx = 1 .
R

Il vettore aleatorio (X1 , X2 ) definito sullo spazio di probabilità (Ω, F, P) si dice assoluta-
mente continuo se esiste una densità di probabilità f tale che la funzione di ripartizione
congiunta F di (X1 , X2 ) possa essere espressa nella forma
Z s Z t Z t Z s
F (s, t) = dx f (x, y) dy = dy f (x, y) dx . (2.5.4)
−∞ −∞ −∞ −∞

L’ordine d’integrazione nella (2.5.4) è irrilevante in virtú di teoremi che si vedranno in


altri corsi; pertanto si può, di volta in volta, adottare l’ordine che risulti piú comodo per
eseguire i calcoli.
Se un vettore aleatorio (X1 , X2 ) è assolutamente continuo anche le sue funzioni di
ripartizione marginali sono assolutamente continue. Infatti, scende dalla (2.5.4)
Z s Z +∞ Z s
F1 (s) = F (s, +∞) = dx f (x, y) dy = f1 (x) dx ,
−∞ −∞ −∞

ove si è posto Z +∞
f1 (x) := f (x, y) dy , (2.5.5)
−∞
che si dice densità marginale di X1 . Analogamente si ha
Z t Z +∞ Z t
F2 (t) = F (+∞, t) = dy f (x, y) dx = f2 (y) dy ,
−∞ −∞ −∞

con Z +∞
f2 (y) := f (x, y) dx , (2.5.6)
−∞
che è la densità marginale di X2 .
Data una funzione di ripartizione F della quale si sappia che è assolutamente continua, la
sua densità di probabilità f si può determinare mediante derivazione: si ha, con l’eccezione
di alcuni punti che hanno complessivamente misura nulla 1
∂ 2 F (s, t) ∂ 2 F (s, t)
f (s, t) = = . (2.5.7)
∂s∂t ∂t∂s
La natura delle funzioni che compaiono assicura che l’ordine nel quale si effettuano le
derivazioni è irrilevante.
Si supponga ora che di avere un vettore aleatorio X = (X1 , X2 ) assolutamente continuo
di densità f . Vale il seguente risultato.
1 Si vedrà in altri corsi il significato preciso di questa frase. Diremo nel seguito che la proprietà espressa

dalla (2.5.7) vale quasi ovunque o per quasi tutti i punti di R2 .


2.5. VETTORI ALEATORÎ 83

Corollario 2.5.1. Se il vettore aleatorio X = (X1 , X2 ) è assolutamente continuo, sono


equivalenti le seguenti proprietà:
(a) X1 e X2 sono indipendenti;
(b) tra la densità f di X e le densità fi di Xi (i = 1, 2) intercorre la relazione, valida per
quasi tutti i punti R2 ,
f (x1 , x2 ) = f1 (xi ) f2 (x2 ) . (2.5.8)

Dimostrazione. (a) =⇒ (b) Basta applicare la (2.5.7) alla (2.5.3).


(b) =⇒ (a) Basta integrare la (2.5.8) su R2 sull’insieme

]−∞, x1 ] × ]−∞, x2 ]

per ottenere la (2.5.3).


In analogia con la notazione introdotta sopra la (2.5.8) si può scrivere, senza indicare gli
argomenti, nella forma
f = f1 ⊗ f2 .
Esempio 2.5.2. Sia X = (X1 , X2 ) un vettore aleatorio con legge uniforme sul cerchio
unitario C = {(x, y) : x2 + y 2 ≤ 1}. Vogliamo trovare le leggi marginali di X1 e X2 . La
densità di X è
1
f (x, y) = 1C (x, y) .
π
Se x non appartiene all’intervallo [−1, 1], allora f1 (x) = 0. invece per x ∈ ]−1, 1[ la densità
congiunta f è diversa da zero se, e solo se, y cade nell’intervallo
p p
(− 1 − x2 , 1 − x2 ) ;

perciò, la densità f1 è data, per tali valori di x, da



Z 1−x2
1 2p
f1 (x) = √ dy = 1 − x2 ,
π − 1−x2 π

sicché si può scrivere


2p
1 − x2 1(−1,1) (x) .
f1 (x) =
π
Per ovvie ragioni di simmetria, l’altra densità marginale è
2p
f2 (y) = 1 − y 2 1(−1,1) (y) .
π
Poiché la (2.5.8) non è verificata X1 e X2 non sono indipendenti. A tale risultato si sarebbe
potuti giungere direttamente senza calcolare le marginali; sarebbe bastato osservare che
l’insieme, il cerchio C, fuori del quale la densità assegnata è diversa da zero non è un
prodotto cartesiano, come serebbe dovuto essere se la (2.5.8) fosse stata soddisfatta. 
Esempio 2.5.3. Si consideri la funzione f : R2 → R+ definita da
1
f (x1 , x2 ) = p exp(−Q(x1 , x2 )) , (2.5.9)
2πσ1 σ2 1 − ρ2
ove
(x1 − m1 )2 (x1 − m1 ) (x2 − m2 ) (x2 − m2 )2
 
1
Q(x1 , x2 ) := − ρ + .
1 − ρ2 2σ12 σ1 σ2 2σ22
In questa espressione m1 e m2 sono parametri reali, σ1 e σ2 sono strettamente positivi e ρ
appartiene all’intervallo ]−1, 1[. Vogliamo
84 CAPITOLO 2. VARIABILI ALEATORIE

• mostrare che la (2.5.9) definisce effettivamente una densità di probabilità;


• calcolarne le densità marginali;
• determinare il significato probabilistico dei cinque parametri che vi compaiono.
Per dimostrare che la (2.5.9) definisce una densità di probabilità basta far vedere che le sue
marginali sono a loro volta densità di probabilità. Per semplificare la notazione si ponga
x1 − m1 x2 − m2
x= e y= ,
σ1 σ2
e si sostituisca y = (x2 − m2 )/σ2 . Si ha, allora, completando il quadrato che compare nel
primo integrale,
x2
 Z  
1 1 2

f1 (x1 ) = exp − exp − y − ρ xy dy
2 (1 − ρ2 ) 2(1 − ρ2 )
p
2πσ1 1 − ρ2 R

x2 ρ2 x2
 
1
= exp − +
2 (1 − ρ2 ) 2 (1 − ρ2 )
p
2πσ1 1 − ρ2
Z  
1 2
× exp − (y − ρ x) dy
R 2(1 − ρ2 )
 2  !
(y − ρ x)2
Z 
1 x 1
=√ exp − √ p exp − dy
2πσ1 2 2π 1 − ρ2 R 2(1 − ρ2 )
(x1 − m1 )2
 
1
=√ exp − ,
2πσ1 2σ12
ove abbiamo usato l’eguaglianza
(y − ρ x)2
Z  
1
√ p exp − dy = 1 ,
2π 1 − ρ2 R 2(1 − ρ2 )
che scende dalla constatazione che si integra su tutto R la densità della legge N (ρ x, 1 − ρ2 ).
Abbiamo cosı́ trovato che la marginale di f è la densità della legge N (m1 , σ12 ). Per
la simmetria dell’espressione di f è ovvio che l’altra marginale è la densità della legge
N (m2 , σ22 ); sappiamo ora che la funzione data è una densità di probabilità, che si dice
normale doppia. Si noti anche che abbiamo trovato il significato dei parametri m1 , m2 , σ1
e σ2 . Rimane da stabilire il significato del parametro ρ, ciò che sarà fatto nella prossima
sezione. 
Siano X1 e X2 v.a. indipendenti. Vale il seguente risultato, analogo del Teorema 1.6.3.
Teorema 2.5.3. Se le variabili aleatorie X1 e X2 sono assoultamente continue, indipendenti
e hanno entrambe speranza finita, anche la v.a. prodotto Z := X1 X2 ha speranza finta e
vale la relazione
E(Z) = E(X1 ) E(X2 ) .
Dimostrazione. La densità del vettore aleatorio (X1 , X2 ) è f = f1 ⊗ f2 . Perciò
Z Z
E(|Z|) = |x1 x2 | f (x1 , x2 ) dx1 dx2 = |x1 x2 | f1 (x1 ) f2 (x2 ) dx1 dx2
R2 R2
Z Z
= |x1 | f1 (x1 ) dx1 |x2 | f2 (x2 ) dx2 = E(|X1 |) E(|X2 |) < +∞ ;
R R
ciò dimostra che Z ha speranza finita. Basta ora ripetere il calcolo elimando i segni di valore
assoluto per ottenere
Z Z
E(Z) = x1 x2 f (x1 , x2 ) dx1 dx2 = x1 x2 f1 (x1 ) f2 (x2 ) dx1 dx2
2 R2
ZR Z
= x1 f1 (x1 ) dx1 x2 f2 (x2 ) dx2 = E(X1 ) E(X2 ) ,
R R
2.6. LA COVARIANZA 85

che è l’asserto.

2.6 La covarianza
La covarianza, e piú ancora il coefficiente di correlazione, misura la dipendenza lineare di
due v.a..
Definizione 2.6.1. Date due v.a. X e Y di con varianza finita, si dice covarianza di X e
Y la speranza
Cov(X, Y ) := E [{X − E(X)}{Y − E(Y )}] . (2.6.1)
Le v.a. X e Y si dicono incorrelate se Cov(X, Y ) = 0.
La diseguaglianza di Schwarz assicura che la covarianza di X e di Y è finita; infatti,
poiché X e Y hanno varianza finita,
2
(Cov(X, Y )) ≤ E {X − E(X)}2 E {Y − E(Y )}2
   

= V (X) V (Y ) < +∞ .

Dalla (2.6.1) scende la seguente espressione, utile per il calcolo effettivo della covarianza,

Cov(X, Y ) = E(XY ) − E(X) E(Y ) .

Date le v.a. X1 , . . . , Xn , tutte con la varianza finita, si chiama matrice di varianza–cova-


rianza la matrice, n × n, V i cui elementi sono definiti da

vii := V (Xi ), vij := Cov(Xi , Xj ) (i 6= j) .

Teorema 2.6.1. Nelle condizioni


Pn di questa sezione, se c1 , c2 , . . . , cn sono numeri reali e
la v.a. Z è definita da Z := i=1 ci Xi , si ha
n
X
V (Z) = ci cj vij .
i,j=1

Dimostrazione. Non è restrittivo supporre che le v.a. Xi siano centrate, cioè che sia E(Xi ) =
0 per ogni indice i in {1, . . . , n}; se non lo fossero, basterebbe considerare le v.a. Xi0 :=
Xi − E(Xi ). Allora, E(Z) = 0 e
 !2   ! n 
X n Xn X
V (Z) = E  ci Xi  = E  ci Xi  cj Xj 
i=1 i=1 j=1
n
X n
X
= ci cj E(Xi Xj ) = ci cj vij ,
i,j=1 i,j=1

cioè l’asserto.
Sono immediati i corolları̂
Corollario 2.6.1. La matrice di covarianza è semidefinita positiva.
Corollario 2.6.2. Si ha V (X + Y ) = V (X) + V (Y ) + 2 Cov(X, Y ).
Corollario 2.6.3. Per due v.a. X e Y che abbiano varianza finita sono equivalenti le
asserzioni:
(a) X e Y sono incorrelate;
(b) E(XY ) = E(X) E(Y );
86 CAPITOLO 2. VARIABILI ALEATORIE

(c) V (X + Y ) = V (X) + V (Y ).
È conseguenza immediata del Teorema 2.5.3 che v.a. indipendenti siano incorrelate. Non
è vero, in generale, che v.a. incorrelate siano indipendenti; si consideri l’esempio seguente.
Esempio 2.6.1. Sia X una v.a. con legge N (0, 1) e sia consideri la v.a. Y := X 2 . Queste
non sono indipendenti, poiché, se, ad esempio, X prende valori in (−1, 1) necessariamente
Y assume i valori dell’intervallo (0, 1); pertanto

P(X ∈ (−1, 1), Y ∈ (2, 4)) = 0 6= P(X ∈ (−1, 1)) P(Y ∈ (2, 4))
Z 1 Z 4
1 −x2 /2 2
= e dx y 2 e−y /2 dy > 0 .
2π −1 2

D’altro canto si ha
E(X) = 0 E(Y ) = E(X 2 ) = 1 ,
e Z
1 2
E(XY ) = E(X 3 ) = √ t3 et /2
dt = 0 ,
2π R

sicché E(XY ) = E(X) E(Y ) e le due v.a. X e Y sono incorrelate. 


Se le v.a. X e Y hanno varianza finita e non sono quasi certamente costanti, ciò che
equivale a dire V (X) 6= 0 e V (Y ) 6= 0, si definisce il coefficiente di correlazione ρ(X, Y )
mediante
Cov(X, Y )
ρ(X, Y ) := ,
σ(X)σ(Y )
essendo σ(X) lo scarto quadratico medio della v.a. X (detto anche, soprattutto nelle disci-
pline sperimentali, deviazione standard ), definito come la radice quadrata, col segno positivo,
della varianza di X, p
σ(X) := V (X) .
Evidentemente
|ρ(X, Y )| ≤ 1.
Si vedrà negli esercizı̂ che il coefficiente di correlazione misura la dipendenza lineare delle
due v.a., nel senso che |ρ(X, Y )| = 1 se, e solo se, esistono due costanti reali a e b tali che
Y = aX + b.
Esempio 2.6.2. Si consideri un vettore aleatorio (X1 , X2 ) che abbia la densità normale
doppia dell’Esempio 2.5.3. Ricorrendo agli stessi metodi di quell’esempio, se può calcolare
la covarianza.
 2
(y − ρ x)2
Z Z  
σ σ x
Cov(X1 , X2 ) = p1 2 x exp − dx y exp − dy
2π 1 − ρ2 R 2 R 2(1 − ρ2 )
(y − ρ x)2
Z Z  
σ1 σ2 x2 /2 1
= √ xe dx √ p y exp − dy
2π R R 2π 1 − ρ2 2(1 − ρ2 )
Z
σ1 σ2 2
=ρ √ x2 ex /2 dx = ρ σ1 σ2 .
2π R
Qui abbiamo usato le note relazioni

(y − ρ x)2
Z   Z
1 1 2
√ p y exp − dy = ρ x e √ x2 ex /2
dx = 1 .
R 2π 1 − ρ2 2(1 − ρ2 ) 2π R

Di qui segue immediatamente il valore del coefficiente di correlazione di X1 e X2 :

ρ(X1 , X2 ) = ρ .
2.7. TRASFORMAZIONI DI VARIABILI ALEATORIE 87

Resta cosı́ acquisito il significato del parametro ρ che compare nell’espressione della densità
della legge normale doppia: è il coefficiente di correlazione. Si osservi che, se X1 e X2 sono
incorrelate, vale a dire se ρ = 0, la densità della normale doppia si scrive

(x1 − m1 )2 (x2 − m2 )2
 
1
f (x1 , x2 ) = exp + ,
2πσ1 σ2 2σ12 2σ22

sicché f (x1 , x2 ) = f1 (x1 ) f2 (x2 ).


Nel caso di variabili aleatorie normali si può perciò concludere che esse sono indipen-
denti se, e solo se, esse sono incorrelate. Per queste variabili aleatorie i due concetti di
indipendenza e incorrelazione coincidono. 

2.7 Trasformazioni di variabili aleatorie


Se X è una v.a., che si può anche supporre vettoriale, cioè X : Ω → Rn , e se g : Rn → Rm
è sufficientemente buona 2 allora g ◦ X definisce un nuovo vettore aleatorio. Nota la legge di
X, si vuole determinare quella di Y := g ◦ X. Tale problema non ha soluzioni nella forma
generale nella quale è appena stato enunciato; ha tuttavia soluzioni parziali che dipendono
dalle ipotesi nelle quali ci si pone.

Esempio 2.7.1. Si consideri il caso scalare X : Ω → R e g : R → R, con g affine, cioè


g(x) = ax + b (a, b ∈ R). Se a = 0, FY = εb , essendo, ora e nel seguito, εb := 1[b,+∞[ la f.r.
di una v.a. quasi certamente costante a b, Y = b. Se a > 0,
   
y−b y−b
FY (y) = P (aX + b ≤ y) = P X ≤ = FX ;
a a

se, invece, a < 0, è


   
y−b y−b
FY (y) = P (aX + b ≤ y) = P X ≥ =1−P X <
a a
   
y−b y−b
= 1 − FX +P X = .
a a

Se X è assolutamente continua con densità f , e se a 6= 0, anche Y è assolutamente continua


e ha densità fY data da  
1 y−b
fY (y) = f .
|a| a
In generale, non è vero che, se X è assolutamente continua, tale sia anche Y = g ◦ X; perché
ciò accada occorre imporre qualche restrizione alla funzione g. 

Per una funzione monotona g : R → R si ponga

α0 := lim g(x), β 0 := lim g(x) ,


x→−∞ x→+∞

α := α ∧ β 0 ,
0
β := α0 ∨ β 0 .

Teorema 2.7.1. Sia g : R → R differenziabile e tale che g 0 > 0 (oppure g 0 < 0) in R. Se


X è assolutamente continua, tale è anche Y := g ◦ X; quest’ultima ha densità fY data da

 −1  d −1
fY (y) = 1(α,β) (y) fX g (y) g (y) .
(2.7.1)
dy
2 Si richiede dal punto di vista tecnico che la funzione g sia misurabile; ora, il concetto di misurabilità esce

dall’ambito di queste lezioni elementari. Basterà supporre che g sia continua, eventualmente con qualche
punto di discontinuità.
88 CAPITOLO 2. VARIABILI ALEATORIE

Dimostrazione. Se g è crescente e se y ∈ (α, β), è

FY (y) = P(Y ≤ y) = P(g ◦ X ≤ y) = P[X ≤ g −1 (y)] = FX [g −1 (y)].

Se invece g è decrescente

FY (y) = P[X ≥ g −1 (y)] = 1 − F [g −1 (y)] .

In entrambi i casi la (2.7.1) segue per derivazione.


Si consideri, ora, il caso del vettore aleatorio assolutamente continuo X a valori in Rn
e sia g : Rn → R misurabile. In generale si ha, se X = (X1 , . . . , Xn ), f è la densità del
vettore X, e Y := g ◦ X,
Z
FY (y) = PX [(x1 , . . . , xn ) ∈ Rn : g(x1 , . . . , xn ) ≤ y] = f (x) dx ;
{g(x)≤y}

se le v.a. X1 , . . . , Xn sono indipendenti, e, quindi, f = f ⊗ · · · ⊗ fn , è


Z
FY (t) = f1 (x1 ) . . . fn (xn ) dx1 . . . dxn ,
{x∈Rn :g(x)≤t}

essendo fi la densità di probabilità della i–esima v.a. Xi (i = 1, . . . , n).


L’addizione, g(x1 , x2 ) := x1 + x2 , è un caso particolarmente importante; allora, per la
v.a. Y = X1 + X2 si ha,
Z
FY (t) = FX1 +X2 (t) = f (x1 , x2 ) dx1 dx2
{(x1 ,x2 ):x1 +x2 ≤t}

Z t−x
Z 1 Z Zt
= dx1 f (x1 , x2 ) dx2 = dx1 f (x1 , s − x2 ) ds
R −∞ R −∞
Zt Z
= ds f (x, s − x) dx,
−∞ R

sicché la somma X1 + X2 è pure assolutamente continua con densità


Z Z
fX1 +X2 (t) = f (x, t − x) dx = f (t − x, x) dx. (2.7.2)
R R

Se, inoltre, le v.a. X1 e X2 sono indipendenti si ha


Z Z
FX1 +X2 (t) = f1 (x1 ) dx1 f2 (x2 ) dx2
R ]−∞,t−x1 ]
Z
= F2 (t − x) f1 (x) dx .
R

Per derivazione si ottiene poi


Z Z
fX1 +X2 (t) = f1 (x) f2 (t − x) dx = f1 (t − x) f2 (x) dx , (2.7.3)
R R
che è l’usuale convoluzione di due funzioni integrabili,denotata da
Z
(f1 ∗ f2 )(t) := f1 (t − x) f2 (x) dx ,
R
2.7. TRASFORMAZIONI DI VARIABILI ALEATORIE 89

sicché la somma di due v.a. X1 e X2 di v.a. indipendenti e assolutamente continue con


densità uguali a f1 e f2 è pure assolutamente continua ed ha densità data da

fX1 +X2 = f1 ∗ f2 .

Poiché la somma di v.a.è associativa e commutativa, si ha

f1 ∗ f2 = f2 ∗ f1 ,
f1 ∗ (f2 ∗ f3 ) = (f1 ∗ f2 ) ∗ f3 ,

ove f1 , f2 e f3 sono densità di probabilità.

Esempio 2.7.2. Si consideri la somma di due v.a. X1 e X2 indipendenti ed entrambe


uniformemente distribuite su (0, 1), Xj ∼ U(0, 1) (j = 1, 2). Poiché entrambe hanno densità

f (x) = 1(0,1) (x) .

La densità della somma è


Z
fX1 +X2 (t) = 1(0,1) (t − x) 1(0,1) (x) dx .
R

L’integrando è eguale a 0 e a 1: è eguale a 1 se , e solo se, sono verificate contemporaneamente


le diseguaglianze
0<t−x<1 e 0 < x < 1,
queste hanno soluzione
max{0, t − 1} < x < min{t, 1} .
Perciò (
min{t,1}
t ∈ (0, 1)
Z
t,
fX1 +X2 (t) = dx =
max{0,t−1} 1 − (t − 1) = 2 − t , t ∈ (1, 2) ,

mentre fX1 +X2 (t) = 0 per t ∈


/ (0, 1). 

Vale il seguente

Teorema 2.7.2. Nello spazio di probabilità (Ω, F, P) siano X1 e X2 v.a. indipendenti;

(a) se Xi ∼ N (mi , σi2 ) (i = 1, 2), allora X1 + X2 ∼ N (m1 + m2 , σ12 + σ22 );

(b) se Xi ha legge binomiale di parametri ni e p (i = 1, 2), allora X1 + X2 ha legge


binomiale di parametri n1 + n2 e p; cioè Xi ∼ Bi(ni , p) (i = 1, 2) implica X1 + X2 ∼
Bi(n1 + n2 , p);

(c) se Xi ha legge di Poisson di parametro λi (i = 1, 2), cioè Xi ∼ P(λ1 ), allora X1 +X2


ha legge di Poisson di parametro λ1 + λ2 , X1 + X2 ∼ P(λ1 + λ2 );

(d) se Xi ∼ Γ(θ, αi ) (i = 1, 2), allora X1 + X2 ha legge Γ(θ, α1 + α2 ).

Dimostrazione. (a) Si ricorra alla convoluzione delle due densità, sicché, per ogni t ∈ R si
ha

(t − m1 − x)2 (x − m2 )2
Z  
1
fX1 +X2 (t) = exp − − dx
2π σ1 σ2 R 2 σ2 2 σ22
Z   1
1 1
= exp − A dx ,
2π σ1 σ2 R 2
90 CAPITOLO 2. VARIABILI ALEATORIE

ove si è posto

x2 − 2 (t − m1 ) x + (t − m1 )2 x2 − 2 m2 x + m22
A := 2 +
σ1 σ22
σ2 + σ2 (t − m1 ) σ22 + m2 σ12 (t − m1 )2 σ22 + m22 σ12
= x2 1 2 2 2 − 2 x 2 2 + .
σ1 σ2 σ1 σ2 σ12 σ22

Con le posizioni

σ12 σ22 (t − m1 ) σ22 + m2 σ12


σ 2 := e m(t) :=
σ12 + σ22 σ12 + σ22

si può scrivere

x2 m(t) (t − m1 )2 σ22 + m22 σ12


A= − 2x 2 +
σ 2 σ σ12 σ22
1  m2 (t) (t − m1 )2 σ22 + m22 σ12
= 2 x2 − 2 m(t) x + m2 (t) − +
σ σ2 σ12 σ22
1 2 (t − m1 )2 σ22 + m22 σ12
= 2 (x − m(t)) +
σ σ12 σ22
 2
(t − m1 ) σ22 + m2 σ12 σ12 + σ22
− 2 2 2
σ1 σ2 (σ12 + σ22 )
1 2
= (x − m(t))
σ2
(t − m1 )2 σ24 + m22 σ14 + 2 m2 (t − m1 ) σ12 σ22
 
1 2 2 2 2
+ 2 2 (t − m1 ) σ2 + m2 σ1 −
σ1 σ2 σ12 + σ22
1 2
= 2 (x − m(t))
σ
1
(t − m1 )2 σ12 σ22 + m2 σ12 σ22 − 2 m2 (t − m1 ) σ12 σ22

+ 2 2 2
σ1 σ2 (σ1 + σ22 )
2
(x − m(t)) (t − m1 − m2 )2
= + .
σ2 σ12 + σ22

Pertanto

fX1 +X2 (t)


( )Z
2
1 (x − m(t))2
 
1 1 (t − (m1 + m2 ))
= exp − exp − dx
2π σ1 σ2 2 σ12 + σ22 R 2 σ2

Ma ricordando l’espressione della densità di una legge N (m(t), σ 2 ) si ha

1 (x − m(t))2
Z  
1
√ exp − dx = 1 ,
2π σ R 2 σ2

onde ( )
2
1 1 (t − (m1 + m2 ))
fX1 +X2 (t) = √ p 2 exp − ,
2π σ1 + σ22 2 σ12 + σ22

che è la densità di una legge N (m1 + m2 , σ12 + σ22 ).


Si noti che sin dall’inizio si sapeva che la speranza di X1 + X2 è data da m1 + m2 e che
la sua varianza è, in virtú dell’indipendenza, eguale a σ12 + σ22 ; il risultato interessante è che
anche la somma X1 + X2 ha legge normale.
2.7. TRASFORMAZIONI DI VARIABILI ALEATORIE 91

(b) Poiché X1 e X2 hanno entrambe legge binomiale con lo stesso parametro p, esse si
npossono esprimere nella forma
n1
X nX
1 +n2

X1 = Zj e X2 = Zj ,
j=1 j=n1 +1

ove le variabili aleatorie Zj (j = 1, 2, . . . , n1 + n2 ) sono indipendenti e tutte di legge di


Bernoulli di parametro p, P(Zj = 1) = p. Ma allora
nX
1 +n2

X1 + X2 = Zj
j=1

è una variabile aleatoria di binomiale, X1 + X2 ∼ Bi(n1 + n2 , p).


(c) Si ha
n n
X X λj1 −λ2 λn−j
P(X1 + X2 = n) = P(X1 = j) P(X2 = n − j) = e−λ1 e 2

j=0 j=0
j! (n − j)!
−(λ1 +λ2 ) n  
e X n n (λ1 + λ2 )n
= λj1 λ2 j = e−(λ1 +λ2 ) .
n! j=0
j n!

(d) La convoluzione delle densità f1 e f2 di X1 e X2 , rispettivamente, dà, per t > 0,

f X1 +X2 (t)
θα1 θα2
Z
= (t − x)α1 −1 xα2 −1 e−θ (t−x) e−θ x 1(0,+∞) (t − x) 1(0,+∞) (x) dx
Γ(α1 ) Γ(α2 ) R
Z t
θα1 +α2
= e−θ t (t − x)α1 −1 xα2 −1 dx
Γ(α1 ) Γ(α2 ) 0
Z t
θα1 +α2 −θ t α1 −1 x α1 −1 α2 −1
= e t 1− x dx
Γ(α1 ) Γ(α2 ) 0 t
Z 1
θα1 +α2
= e−θ t tα1 −1 tα2 −1 t uα2 −1 (1 − u)α1 −1 du
Γ(α1 ) Γ(α2 ) 0
θα1 +α2 θα1 +α2
= tα1 +α2 −1 e−θ t B(α2 , α1 ) = tα1 +α2 −1 e−θ t ,
Γ(α1 ) Γ(α2 ) Γ(α1 + α2 )

sicché
θα1 +α2
fX1 +X2 (t) = tα1 +α2 −1 e−θ t 1(0,+∞) (t) ,
Γ(α1 + α2 )
vale a dire X1 + X2 ∼ Γ(θ, α1 + α2 ).

Con strumenti piú raffinati si può dimostrare inoltre che, se Xi ha legge di Cauchy con
parametri αi e βi (i = 1, 2), allora X1 + X2 ha legge di Cauchy con parametri α1 + α2 e
β1 + β2 .
È talvolta utile il seguente

Teorema 2.7.3. Sia X : Ω → Rn un vettore aleatorio con densità continua f . Sia g :


Rn → R continua e si supponga che esista una funzione ϕ : R → R tale che g(x) = y
implichi f (x) = ϕ(y). In tali ipotesi la v.a. Y = g ◦ X è assolutamente continua e ha
densità fY : R → R+ data da
fY (y) = ϕ(y) Vg0 (y)
92 CAPITOLO 2. VARIABILI ALEATORIE

ove Vg è il volume racchiuso dalla superficie g = y:


Z
Vg (y) := dx.
{x∈Rn :g(x)≤y}

Dimostrazione. Si ponga B(y; ε) := {x ∈ Rn : y < g(x) ≤ y + ε} se ε > 0. Allora, in virtú


del teorema della media,
Z
FY (y + ε) − FY (y) = f (x) dx = f (x0 ) [Vg (y + ε) − Vg (y)] ,
B(y;ε)

con x0 ∈ B(y; ε). Dividendo per ε e facendo tendere ε a zero si ha f (x0 ) → ϕ(y), mentre

Vg (y + ε) − Vg (y)
→ D+ Vg (y) = Vg0 (y) .
ε

Analogamente si procede per −ε < 0.

Consideriamo, infine, il caso di un vettore aleatorio che sia una funzione (misurabile) di
un altro vettore aleatorio. Siano g : Rn → Rn una funzione misurabile e X = (X1 , . . . , Xn )
un vettore aleatorio; si domanda quale sia la legge del vettore aleatorio Y = g ◦ X di
componenti Yj = gj (X1 , . . . , Xn ) (j = 1, . . . , n).

Teorema 2.7.4. Sia X = (X1 , . . . , Xn ) un vettore aleatorio assolutamente continuo di


densità f ; sia g : Rn → Rn un diffeomorfismo tale che sia diverso da zero il determinante
J della matrice jacobiana (Dj gi ). è allora assolutamente continuo anche il vettore aleatorio
Y = g ◦ X e questo ha densità

fY (y) = f [g −1 (y)] |J[g −1 (y)]| (y ∈ Rn ) . (2.7.4)

Dimostrazione. Per ogni funzione h : Rn → R sufficientemente buona positiva (o limitata)



Z Z
h(y)f [g −1 (y)] J[g −1 (y)] dy .

E(h ◦ Y ) = (h ◦ g)(x)f (x) dx =
Rn Rn

In particolare, si applichi quest’ultima relazione alla funzione h := 1B , ove B è un boreliano


di Rn ,
Z
P(Y ∈ B) = E (1Y ∈B ) = E (1B ◦ Y ) = f [g −1 (y)] J[g −1 (y)] dy ,

sicché la (2.7.4) dà effettivamente la densità di probabilità del vettore aleatorio Y .

Esempio 2.7.3. (La “definizione” stocastica del numero e). Si consideri la successione (Un )
di v.a. indipendenti e tutte di legge uniforme in (0, 1), Un ∼ U(0, 1) (n ∈ N) e la v.a.
( n
)
X
V := min n ∈ N : Uk ≥ 1 .
k=1
2.8. LA FUNZIONE GENERATRICE DEI MOMENTI 93

Evidentemente P(V ≥ 2) = 1. Si vuole calcolare la speranza di V . Ora


Xn
! Z
1 Z 1−u1 Z 1−Pn−1
k=1 uk
P Uk < 1 = du1 du2 . . . dun
k=1 0 0 0
Pn−2 !
Z 1 Z 1−u1 Z 1− k=1 uk n−1
X
= du1 du2 . . . 1− uk dun−1
0 0 0 k=1
Pn−2
Pn−3

n−1
!2 un−1 =1− k=1 uk
Z 1 Z 1−u1 Z 1− k=1 uk
− 1
X
= du1 du2 . . . 1− uk  dun−2
0 0 0 2
k=1
un−1 =0
Pn−3
n−2
!2
Z 1 Z 1−u1 Z 1− uk
k=1 1 X
= du1 du2 . . . 1− uk dun−2 = . . .
0 0 0 2
k=1
1 1−u1 Z 1 u =1−u1
(1 − u1 − u2 )n−2 (1 − u1 − u2 )n−1 2
Z Z
= du1 du2 = − du1
0 0 (n − 2)! 0 (n − 1)! u2 =0
Z 1 u1 =1
(1 − u1 )n−1

1 1
= du1 = − (1 − u1 )n = .
0 (n − 1)! n u1 =0 n!
Pertanto ! !
n n
X X 1
P(V ≤ n) = P Uk ≥ 1 =1−P Uk < 1 =1−
n!
k=1 k=1
e, di conseguenza,
P(V = n) = P(V ≤ n) − P(V ≤ n − 1)
1 1 n−1 1
=1− −1+ = = .
n! (n − 1)! n! (n − 2)! n
Quella cosı́ ottenuta è effettivamente una legge di probabilità; infatti
∞ ∞  
X X 1 1
P(V = n) = −
n=2 n=2
(n − 1)! n!
∞ ∞
X 1 X 1
= − = (e − 1) − (e − 2) = 1 .
n=2
(n − 1)! n=2 n!

La speranza di V è
∞ ∞ ∞
X X 1 X 1
E(V ) = P(V = n) n = = = e,
n=2 n=2
(n − 2)! k!
k=0

che dà il significato probabilistico del numero e. 

Consideriamo, infine, il caso di un vettore aleatorio che sia una funzione (misurabile) di
un altro vettore aleatorio. Siano g : Rn → Rn una funzione misurabile e X = (X1 , . . . , Xn )
un vettore aleatorio; si domanda quale sia la legge del vettore aleatorio Y = g ◦ X di
componenti Yj = gj (X1 , . . . , Xn ) (j = 1, . . . , n).

2.8 La funzione generatrice dei momenti


La funzione generatrice dei momenti può essere usata per specificare la legge di probabilità
di una variabile aleatoria; come si vedrà, essa soffre dell’inconveniente di non essere definita
per ogni valore della variabile aleatoria alla quale is riferisce. Anche in questa sezione si
suppone fissato lo spazio di probabilità (Ω, F, P).
94 CAPITOLO 2. VARIABILI ALEATORIE

Definizione 2.8.1. Data una v.a. X con f.r. F si dice funzione generatrice dei momenti la
funzione ψX : R → R definita da

ψX (t) := E etX ,

(2.8.1)

se tale speranza esiste per |t| ≤ t0 con t0 > 0. 


Si noti che se X è una v.a. discreta che assume i valori xn con probabilità P(X = xn ) =
pn , la sua funzione generatrice è
X
ψX (t) = pn etxn , (2.8.2)
n

mentre se X è assolutamente continua con densità f la sua funzione generatrice è


Z
ψX (t) = etx f (x) dx . (2.8.3)
R

In effetti la funzione generatrice dei momenti dipende dalla v.a. X solo attraverso al sua
legge, di modo che si parlerà indifferentemente della funzione genrtrice di X oppure della
sua legge.
Si controlla immediatemante che, per a e b in R, si ha

ψaX+b = E (exp(atX + bt)) = ebt E eatX = ebt ψX (at) ,




per t ≤ t0 /|a|.
Del seguente teorema che fornisce una delle motivazioni piú forti per l’introduzione della
funzione generatrice dei momenti non daremo la dimostrazione.
Teorema 2.8.1. Se le funzioni generatrici dei moneti di due v.a. X e Y sono eguali,
ψX (t) = ψY (t), per ogni t con |t| ≤ t0 , t0 > 0, allora esse hanno la stessa legge, FX (x) =
FY (x) per ogni x ∈ R.
È molto utile il seguente risultato
Teorema 2.8.2. Se esiste la funzione generatrice dei momenti di due v.a. indipendenti X
e Y , rispettivamente per |t| ≤ t1 e per |t| ≤ t2 , esiste anche la funzione generatrice della
loro somma per |t| ≤ t0 , ove t0 = min{t1 , t2 } e vale

∀ |t| ≤ t0 ψX+Y (t) = ψX (t) ψY (t) .

Dimostrazione. Per |t| ≤ t0 vale


 
ψX+Y (t) = E et (X+Y ) = E etX etY = E etX E etY = ψX (t) ψY (t) ,
  

in virtú dell’indipendenza.
La giustificazione del nome è, di fatto, contenuta nel seguente
Teorema 2.8.3. Se per |t| ≤ t0 esiste la funzione generatrice dei momenti della v.a. X,
esistono finiti i momenti di ogni ordine µn := E(X n ).
Dimostrazione. Poiché la funzione esponenziale è positiva si ha, per ogni y ∈ R,

e|y| ≤ e|y| + e−|y| = ey + e−y ,

di modo che, per |t| ≤ t0


 
E e|tX| ≤ E etX + e−tX = ψX (t) + ψX (−t) < +∞ .

2.8. LA FUNZIONE GENERATRICE DEI MOMENTI 95

Ora, per ogni n ∈ N, si ha



X |y|n |y|n
e|y| = ≥ ,
n=0
n! n!
e, di conseguenza,
|t|n  
E (|X|n ) ≤ E e|tX| < +∞ ;
n!
perciò, esistono finiti tutti i momenti della v.a. X.
È conseguenza immediata del teorema precedente che non può esistere la funzione
generatrice dei momenti della legge di Cauchy, che non ammette speranza finita.

Esempio 2.8.1. Per una v.a. X di Bernoulli, con P(X = 1) = p e P(X = 0) = q = 1 − p


vale
∀t ∈ R ψ(t) = p et + q .

Pn
Esempio 2.8.2. Sia S k=1 Xk una v.a. binomiale con probabilità di successo p; qui ogni
Xk è una v.a. di Bernoulli come nell’esempio precedente; allora scende dal Teorema 2.8.2
che n
∀t ∈ R ψ(t) = p et + q
è la funzione generatrice dei momenti. 

Esempio 2.8.3. Per la legge geometrica di parametro p (Esempio 1.8.1) vale, per ogni
t∈R
∞ ∞
X X n−1 p et
ψ(t) = p q n−1 ent = p et q et = .
n=1 n=1
1 − q et

n
Esempio 2.8.4. Sia X una v.a. di Poisson, P(X = n) = e−θ θn! con θ > 0; allora, per ogni
t ∈ R,
∞ ∞ n
X θn tn X (θ et )
ψ(t) = e−θ e = e−θ = exp θ et − 1 ,
 
n=0
n! n=0
n!
è la sua funzione generatrice dei momenti. 

Esempio 2.8.5. Per la legge uniforme in (0, 1) vale, per ogni t 6= 0,


Z 1
et − 1
ψ(t) = etx dx = ;
0 t
tale funzione si può prolungare per continuità in t = 0, ove ψ(0) = 1. 

Esempio 2.8.6. La funzione generatrice dei momenti della legge normale N (0, 1) si calcola
facilmente ricorrendo al metodo del “completamento del quadrato”; per ogni t ∈ R si ha:
Z Z   2 
1 tx −x2 /2 1 x
ψ(t) = √ e e dx = √ exp − + tx dx
2π 2π 2
R R
t2
Z  
1 1
=√ exp − (x2 − 2tx + t2 ) + dx
2π 2 2
R
t2 /2 Z  
e 1 2
=√ exp − (x − t)2 dx = et /2 ,
2π 2
R

perché si riconosce nell’ultimo integrando la densità della legge normale N (t, 1). 
96 CAPITOLO 2. VARIABILI ALEATORIE

Esempio 2.8.7. Per la legge gamma Γ(θ, α) dell’Esempio 2.3.4 si ha


Z +∞ Z +∞
θα −θx α−1 θα
ψ(t) = etx e x dx = e−(θ−t) x xα−1 dx ;
0 Γ(α) Γ(α) 0
Quest’ultimo integrale è finito se, e solo se, |t| ≤ θ. La funzione generatrice esiste quindi in
un intorno dell’origione, e è lı́ data da
 α  −α
θ t
ψ(t) = = 1− .
θ−t θ
In particolare per la legge esponenziale Γ(θ, 1) si ha
 −1
θ t
ψ(t) = = 1− .
θ−t θ


Esempio 2.8.8. Si considerino le v.a. X di legge esponenziale e Y = X 2 ; quest’ultima ha


f.r. data, per y > 0, da
√ √
FY (y) = P(Y ≤ y) = P(X ≤ y) = 1 − exp(−θ y) ,
che ha densità
θ √
fY (y) = √ exp(−θ y) .
2 y
Ora, l’integrale √
+∞ +∞
exp(ty − θ y)
Z Z
θ
ety fY (y) dy = √ dy
0 2 0 y
non è finito per alcun t > 0, sicché non esiste la funzione generatrice dei momenti di Y . 

È possibile definire la funzione generatrice dei momenti anche per un vettore aleatorio.

Definizione 2.8.2. Sia X = (X1 , . . . , Xn ) un vettore aleatorio. Se esiste finita, la funzione


ψX : Rn → R+ definita da
ψX (t) = E [exp (ht, Xi)] , (2.8.4)
ove t = (t1 , . . . , tn ) è un punto di Rn , si dice funzione genratrice dei momenti del vettore
aleatorio X. 

Esempio 2.8.9. Si consideri il vettore X = (X1 , . . . , Xn ), nel quale le componenti sono


indipendenti e tutte di legge N (0, 1). Allora, ricordando l’Esempio 2.8.6, si ha
    
Xn n
Y
ψX (t) = E [exp (ht, Xi)] = E exp  tj Xj  = E  exp (tj Xj )
j=1 j=1
 
n n   n
Y Y 1 2  1 X 
= E [(tj Xj )] = exp tj = exp t2j
j=1 j=1
2 2
j+1

 
1
= exp ktk2 ,
2
ove k · k è la norma euclidea. 

Il Teorema 2.8.2 e i risultati di questa sezione forniscono una dimostrazione del Teorema
2.7.2 piú facile di quella incontrata nella Sezione 2.7
2.9. LA FORMULA DI DE MOIVRE–STIRLING 97

2.9 La formula di de Moivre–Stirling


LaQformula P
dà una stima asintotica di n!, o, ciò che è lo stesso, di ln n!. Ora ln n! =
n n
ln j=1 j = j=1 ln j; d’altro canto, poiché x 7→ ln x è una funzione strettamente crescente
risulta Z j Z j+1
ln x dx < ln j < ln x dx;
j−1 j

da questa relazione, sommando per j = 1, 2, . . . , n, scende


Z n Z n+1
ln x dx < ln n! < ln x dx
0 1
R
onde, poiché ln x dx = x ln x − x + c,

n ln n − n < ln n! < (n + 1) ln(n + 1) − n.

Questa doppia diseguaglianza suggerisce di paragonare ln n! alla media aritmetica del primo
e dell’ultimo termine. Tale media è
1
An = [n ln n − n + (n + 1) ln(n + 1) − n]
2   
1 1
= n ln n − 2n + (n + 1) ln n + (n + 1) ln 1 +
n
 
1
= n+ ln n − n + an ,
2
ove  n  
1 1 1 1
an := ln 1 + + ln 1 + ,
2 n 2 n
che tende a 1/2 al tendere di n a +∞. Si studierà cosı́ la differenza
 
1
sn := ln n! − n + ln n + n . (2.9.1)
2
Ora, è
 
1
sn − sn+1 = ln n! − n + ln n + n − ln(n + 1)!
2
 
1
+ n+ ln(n + 1) + ln(n + 1) − n − 1
2
 
1 n+1
= n+ ln − 1;
2 n
e poiché
1
n+1 1+
= 2n + 1 ,
n 1
1−
2n + 1
si ha
1
1 1+
sn − sn+1 = (2n + 1) ln 2n + 1 − 1. (2.9.2)
2 1
1−
2n + 1
Com’è noto, per |t| < 1 vale il seguente sviluppo in serie
1 1 X tn
ln(1 + t) = t − t2 + t3 + · · · = (−1)n+1 (2.9.3)
2 3 n
n∈N
98 CAPITOLO 2. VARIABILI ALEATORIE

dal quale, sostituendo −t a t si ricava


1 1 3 X tn
ln(1 − t) = −t − t2 − t − ··· = − . (2.9.4)
3 n
n∈N

Sottraendo la (2.9.4) dalla (2.9.3) si ottiene



t2j+1
 
1+t 1 3 X
ln =2 t+ t + ... =2 .
1−t 3 j=0
2j + 1

In virtú di quest’ultima relazione, la (2.9.2) si può scrivere nella forma



X 1
sn − sn+1 = (2n + 1) −1
j=0
(2j + 1)(2n + 1)2j+1

X 1
= (2.9.5)
j=1
(2j + 1)(2n + 1)2j

1 X 3
= .
3(2n + 1) j=0 (2j + 3)(2n + 1)2j
2

I termini di quest’ultima serie sono maggiorati dai termini della serie geometrica di ragione
(2n + 1)−2 < 1 (per n > 2), onde scende dalla (2.9.5)
1 1
0 < sn − sn+1 <
3(2n + 1)2 1 − (2n + 1)−2
1 1
= (2.9.6)
3 (2n + 1)2 − 1
1 1 1
= = − .
12(n2 + n) 12n 12(n + 1)

Si vede, intanto, che la successione (sn ) è decrescente è, perciò, ammette limite ξ ≥ −∞;
d’altro canto, pure dalla (2.9.6), scende
1 1
sn − < sn+1 −
12n 12(n + 1)

e pertanto la successione (sn − 1/12n) è crescente ed ammette perciò limite. Di conseguenza


esiste finito ξ := limn→+∞ sn . Segue allora dalla (2.9.1) che

n!
lim √ = 1,
n→+∞ (n/e)n eξ n

onde √
n! = eξ nn n e−n eθn . (2.9.7)
1
Dimostriamo ora che 0 < θn < 12n .
Si ricava dalla (2.9.5) che
1 1 1
sn − sn+1 > 2
> −
3(2n + 1) 12(n + 1) 12(n + 2)
1 1
e di qui che la successione (sn − 12(n+1) ) decresce. Poiché si è visto che (sn − 12n ) cresce,
si ha la doppia diseguaglianza
1 1
ξ+ < sn < ξ +
12(n + 1) 12n
2.9. LA FORMULA DI DE MOIVRE–STIRLING 99

sicché, tenendo conto della (2.9.1), riesce


√ √
   
1 1
eξ nn n e−n exp < n! < eξ nn n e−n exp .
12(n + 1) 12n
1
Ciò mostra che nella (2.9.7) è 0 < θn < 12n .
ξ

Dimostreremo ora che e = 2π. Questa parte della dimostrazione può essere saltata
dallo studioso di probabilità, perché il risultato si ottiene in maniera piú semplice per via
probabilistica. Si vedano gli esercizı̂. è tuttavia importante sapere che è possibile una
dimostrazione diretta. A tal fine, dimostreremo prima la formola di Wallis
 2  2
1 2 · 4 · · · · · (2n) 1 (2n)!! π
lim = lim = . (2.9.8)
n→+∞ 2n + 1 1 · 3 · · · · · (2n − 1) n→+∞ 2n + 1 (2n − 1)!! 2
Ricordando le proprietà delle funzioni beta e gamma, si ha
Z π/2
1 Γ(n) Γ(1/2)
sin2n−1 θ dθ = B(n, 1/2) =
0 2 2Γ(n + 1/2)

Γ(n) π
=
1 · 3 · · · · · (2n − 1) √
2 π
2n
2n−1 (n − 1)! (2n − 2)!!
= = .
(2n − 1)!! (2n − 1)!!
Analogamente,
π/2
(2n − 1)!! π
Z
sin2n θ dθ = .
0 (2n)!! 2
Si controlla facilmente che, per ogni θ ∈ ]0, π/2[, la successione (sinn θ) è strettamente
decrescente, onde
sin2n+1 θ < sin2n θ < sin2n−1 θ ,
sicché Z π/2 Z π/2 Z π/2
2n+1 2n
sin θ dθ ≤ sin θ dθ ≤ sin2n−1 θ dθ ,
0 0 0
cioè
(2n)!! (2n − 1)!! π (2n − 2)!!
≤ ≤ ,
(2n + 1)!! (2n)!! 2 (2n − 1)!!
ovvero  2
2n π (2n)!! 1 π
≤ ≤ ,
2n + 1 2 (2n − 1)!! 2n + 1 2
della quale la (2.9.8) è immediata conseguenza. Posto, ora, tn = exp(sn ), si ha tn → eξ .
Risulta dalla (2.9.1) che
n!en
tn = n √ .
n n
Si osservi che, alla luce della (2.9.8), è
√ √
t2n (n!)2 e2n (2n)2n 2n (n!)2 22n 2n
= · =
t2n n2n n (2n)!e2n (2n)!n
√  1/2
(2n)!! 2n (2n)!! 1 2n(2n + 1)
= = √ ,
(2n − 1)!! n (2n − 1)!! 2n + 1 n2
p √
sicché, per la (2.9.8), (t2n /t2n ) → 2 π/2 = 2π. Ma, evidentemente, è

lim tn = lim t2n = eξ ,


n→+∞ n→+∞
100 CAPITOLO 2. VARIABILI ALEATORIE

sicché (t2n /t2n ) → eξ . Ciò prova che eξ = 2π. Vale pertanto la formola di de Moivre–
Stirling
√ √ −n θn
  
n 1
n! = 2π n ne e θn ∈ 0, . (2.9.9)
12n

2.10 I teoremi di de Moivre–Laplace


Il teorema che segue fu dimostrato da de Moivre nel 1733 per il caso p = 1/2 e da Laplace
per qualsiasi p nel 1812. Questo teorema, come pure quello che lo segue, sono esempı̂ di
teoremi del limite centrale (TLC).
In un processo di Bernoulli con probabilità di successo p ∈ ]0, 1[ sia, al solito, q := 1 − p
e sia Sn il numero di successi in n prove. Ricordiamo che E(Sn ) = np e V (Sn ) = npq.
Introduciamo la v.a. Un che si ottiene da Sn “riducendola”, vale a dire sottraendo da Sn la
sua media e dividendo il risultato per lo scarto quadratico medio:
Sn − np
Un := √ .
npq

Naturalmente, E(Un ) = 0 e V (Un ) = 1. La v.a. Un assume i valori


j − np
xn,j := √
npq
 
n j n−j
con probabilità p q . Con queste notazioni possiamo enunciare
j
Teorema 2.10.1. (Teorema locale di de Moivre–Laplace). Con le notazioni appena in-
trodotte si ha √
P(Sn = j) 2πnpq
lim = 1. (2.10.1)
n→+∞ exp(−x2n,j /2)
La convergenza è uniforme in ogni intervallo [a, b] (a, b ∈ R, a < b) .
Dimostrazione. Ricorrendo alla formula di de Moivre–Stirling (2.9.9), si ha
n!
Pn (xn,j ) := P(Sn = j) = pj q n−j
j!(n − j)!
r  j  n−j
1 n np nq
=√ eθ ,
2π j(n − j) j n−j

per j = 0, 1, . . . , n. Per il fattore di correzione eθ vale la diseguaglianza


 
1 1 1 1 k
|θ| < + + ≤ .
12 n j n−j n

Se xn,j appartiene all’intervallo [a, b], allora è


 

r
q
j ≥ n p + a npq = n p 1 + a
np
 r 
√ p
n − j ≥ n q − b npq = n q 1 − b ,
nq

sicché  
1  1 1 
|θ| < 1 + r + r  .
12 n  pq pq 
p+a q−b
n n
2.10. I TEOREMI DI DE MOIVRE–LAPLACE 101

Perciò il fattore di correzione eθ , al tendere di n a +∞, tende uniformemente a 1 in ogni


intervallo [a, b].
Se (an ) e (bn ) sono due successioni reali, con la notazione an ' bn si intenderà che sia
limn→+∞ an /bn = 1. Allora
j(n − j) √ √ 1
= (np + xn,j npq) (nq − xn,j npq)
n r  r  n

pq pq
= n p + xn,j q − xn,j ' npq .
n n
p p
Per ogni x ∈ [a, b] tanto x q/np quanto x p/nq tendono a zero quando n tende a +∞;
quindi, per n sufficientemente grande entrambe queste quantità sono in modulo minori di
1, ciò che consente di ricorrere agli sviluppi in serie dei logaritmi:
 j  n−j !
p  np nq
− ln 2πnpq Pn (xn,j ) ' − ln
j n−j
 r 
√ q
= (np + xn,j npq) ln 1 + xn,j
np
 r 
√ p
+ (nq − xn,j npq) ln 1 − xn,j
nq
" #
√ qx2n,j
r
q −3/2
= (np + xn,j npq) xn,j − + O(n )
np 2np
" #
√ px2n,j
r
p −3/2
+ (nq − xn,j npq) −xn,j − + O(n )
nq 2nq
" #
√ qx2n,j 2 −1/2
= xn,j npq − + qxn,j + O(n )
2
" #
√ px2n,j
+ −xn,j npq − + px2n,j + O(n−1/2 )
2
1  
= x2n,j + O n−1/2 .
2
L’affermazione sull’uniformità della convergenza in ogni intervallo [a, b] è immediata.
Per grandi valori di n si può quindi usare l’approssimazione
(j − np)2
   
n j n−j 1
p q '√ exp − .
j 2 π npq 2 π npq
Si era visto, d’altra parte, che per piccoli valori di p, la legge binomiale era approssimata
dalla distribuzione di Poisson
(np)j
 
n j n−j
p q ' e−np (j = 0, 1, . . . , n) .
j j!
Esistono, quindi, casi nei quali si possono applicare entrambe le utlime due approssi-
mazioni; questo lascia indurre che anche la distribuzione di Poisson possa essere approssima-
ta mediante la distribuzione normale. Che questo sia effettivamente vero è mostrato negli
esercizı̂.
Teorema 2.10.2. (Teorema integrale di de Moivre–Laplace). Con le stesse notazioni del
teorema precedente, risulta, se −∞ ≤ a < b ≤ +∞,
  Z b  2
Sn − np 1 x
lim P a ≤ √ ≤b = √ exp − dx.
n→+∞ npq 2π a 2
102 CAPITOLO 2. VARIABILI ALEATORIE

Dimostrazione. Si supponga dapprima che sia −∞ < a < b < +∞; Si indichino con
j − np
xn,j := √
npq

i valori della v.a. Un che cadono in [a, b]. Si osservi che


1
|xn,j − xn,j+1 | = √ ;
npq

per la (2.10.1) è
2
e−xn,j /2
 
Sn − np
P √ = xn,j = P(Sn = j) ' √
npq 2 π npq
uniformente in [a, b]. Dato ε > 0, si ha, per n abbastanza grande, diciamo per n ≥ n0 , da
un lato 2 2
e−xn,j /2 e−xn,j /2
(1 − ε) √ ≤ P(Sn = j) ≤ (1 + ε) √ ,
2 π npq 2 π npq
per ogni xn,j , e d’altro canto,

Z b −x2n,j /2

1 2
−x /2
X e
√ e dx − √ < ε.

a 2 π npq
j:xn,j ∈[a,b]

Poiché  
Sn − np X
P a≤ √ ≤b = P (Sn = j) ,
npq
j:xn,j ∈[a,b]

si ha
2
e−xn,j /2
 
X Sn − np
(1 − ε) √ ≤P a≤ √ ≤b
2 π npq npq
j:xn,j ∈[a,b]
2
X e−xn,j /2
≤ (1 + ε) √
2 π npq
j:xn,j ∈[a,b]

e quindi
!
b  
Sn − np
Z
1 2
−x /2
(1 − ε) √ e dx − ε ≤P a≤ √ ≤b
2π a npq
Z b !
1 −x2 /2
≤ (1 + ε) √ e dx + ε .
2π a

L’asserto è cosı́ provato per questo caso.


Supponiamo ora che sia −∞ < a < b = +∞. Se ε > 0, si scelga c > a ∨ 0 in modo che
sia Z −c Z +∞
1 2 1 2 ε
√ e−x /2 dx = √ e−x /2 dx ≤ .
2 π −∞ 2π c 2
Dal caso precedente abbiamo
Z c
1 2
lim P(|Un | ≤ c) = √ e−x /2
dx .
n→+∞ 2π −c

Perciò Z
1 2
lim P(|Un | > c) = √ e−x /2
dx < ε .
n→+∞ 2π
|x|>c
2.11. NOTE AL CAPITOLO 2 103

Esiste quindi n1 ∈ N tale che, per ogni n ≥ n1 , sia P(|Un | > c) < ε. Allora, per ogni n ≥ n1 ,
si ha
Z +∞
P(Un ≥ a) − √1 −x2 /2

e dx
2π a
Z c
1 2
e−x /2 dx + P(Un > c)

≤ P(a ≤ Un ≤ c) − √
2π a
Z +∞
1 2
+√ e−x /2 dx
2π c
Z c
1 −x2 /2

< 2 ε + P(a ≤ Un ≤ c) −
√ e dx .
2π a
In virtú della prima parte della dimostrazione, se n ≥ n0 ∨ n1 , anche l’ultimo termine è
minore di ε, sicché l’asserto è provato.
La dimostrazione del caso −∞ = a < b < +∞ è analoga a quella appena data; infine, il
caso a = −∞, b = +∞ discende immediatamente dagli ultimi due.

2.11 Note al Capitolo 2


Sezione 2.9 La formula che costituisce l’oggetto delle presente sezione è di solito chiamata
formula di Stirling. Tuttavia la formula è essenzialmente dovuta
√ a de Moivre; l’impor-
tante contributo di Stirling si limita al calcolo della costante 2π. Si veda in proposito
(Bellhouse, 2011). La dimostrazione che qui si dà è dovuta a (Robbins, 1962).
Sezione 2.10 Il teorema di de Moivre–Laplace, come abbiamo avuto di dire, da de Moivre
nel 1733. Il teorema integrale è un caso di un importante classe di teoremi che va sotto
il nome di Teorema del limite centrale o Teorema centrale del limite; vi è qualche
incertezza tra gli autori sul fatto che l’aggettivo “centrale” debba essare riferito al
teorema, per l’importanza che questo riveste per le applicazioni, oppure al limite,
dato che si tratta sempre di variabili aleatorie centrate; la prima interpretazione è
dovuta a Pólya (1920), la seconda, per esempio, a Le Cam (1986)
it describes the behaviour of the centre of the distribution as opposed to
its tails.

2.12 Esercizı̂ sul Capitolo 2


1. Sia F la f.r. definita da

0,


x < 0,
1/4, x ∈ [0, 1[ ,
F (x) :=
3/4,

 x ∈ [1, 2[ ,
1, x ≥ 2.

Quale probabilità assegna la legge di F ai seguenti insiemi:


     
1 1 1 3 2 5
A= − , , B= − , , ,
2 2 2 2 3 2
D = [0, 2[ , E = [4, +∞[?

2. Sia F la f.r. della v.a. X. Per ogni t0 ∈ R, si ha


`− F (t0 ) := lim F (t) = P(x < t0 ).
t→t0
t<t0
104 CAPITOLO 2. VARIABILI ALEATORIE

3. Si cerchi l’esempio di una v.a. per la quale nella diseguaglianza di Čebyšev valga il segno
d’eguaglianza.

4. Sia X una v.a.; g : R → R+ sia continua e sia B un insieme tale che g(x) > a > 0 per
ogni x ∈ B. Allora
E (g ◦ X)
P(X ∈ B) < .
a
È questa una generalizzazione della diseguaglianza di Čebyšev; quest’ultima si ottiene
2
prendendo g(x) = [x − E(X)] .

5. Siano X1 , X2 , . . . , Xn v.a. positive con speranza finita. Allora, per ogni c > 0, è
n
! n
X 1 X
P Xi > c ≤ E(Xi ) .
i=1
c i=1

6. Sia X una v.a. tale che E(X) = 0, V (X) = 1, |X| < K con K > 1. Allora vale, per ogni
λ < 1, la diseguaglianza
1 − λ2
P (|X| ≥ λ) ≥ 2 .
K − λ2

7. Sia ϕ : R → [0, α] una funzione continua positiva (limitata). Per ogni t ∈ [0, α[ si ha

E (ϕ ◦ X) − t
P (ϕ ◦ X ≥ t) ≥ .
α−t

8. La v.a. X abbia varianza finita; si mostri che il minimo della funzione

t 7→ f (t) := E (X − t)2
 

si ha per t = E(X).

9. Se X ≤ Y q.c., allora FX ≥ FY . Si mostri però che FX ≥ FY non implica X ≤ Y .

10. La f.r. ϕ di una v.a. N (0, 1) soddisfà alle due relazioni

ϕ(−x) = 1 − ϕ(x) (x > 0),


1 2
1 − ϕ(x) ≤ √ e−x /2 .
x 2π
La prima di esse è di uso frequente perché le tavole dei valori della ϕ riportano i soli valori
che essa assume per x > 0.

11. Si mostri che la funzione Γ definita dalla (2.9.9) soddisfà alle seguenti proprietà:

(a) Γ(t) = (t − 1)Γ(t − 1) (t > 1) sicché, in particolare, Γ(n) = (n − 1)! se n ∈ N;



(b) Γ( 21 ) = π;
2.12. ESERCIZÎ SUL CAPITOLO 2 105

(c) Per ogni n ∈ N,

1 · 3 · 5 · · · · · (2n − 1) √ (2n − 1)!! √


 
1
Γ n+ = π= π;
2 2n 2n

1 · 3 · 5 · · · · · (n − 1) √ (n − 1)!! √
 
n+1
(d) Γ = n/2
π= π (n pari) ;
2 2 2n/2
Γ(β)
xβ−1 exp(−αx) dx =
R
(e) (α, β > 0) ;
R+ αβ

(f) se α, β, t sono strettamente positivi,


−β
αβ
Z 
t
exp(−tx) xβ−1 exp(−αx) dx = 1+ .
Γ(β) α
R+

Per la funzione gamma e le sue proprietà in un ambito piú vasto, si veda Whittaker &
Watson (1927).

12. Si calcolino i momenti E(|X|n ) con n ∈ N se X ∼ N (0, 1).

13. Si mostri che, se r > 0 e s > 0, è finito l’integrale


Z 1
B(r, s) := xr−1 (1 − x)s−1 dx .
0

Resta cosı́ definita una funzione B : ]0, +∞[ × ]0, +∞[ → R+ detta funzione beta. Si mostri
che B è simmetrica: B(r, s) = B(s, r) e che
π/2 +∞
ts−1
Z Z
B(r, s) = 2 sin2r−1 θ cos2s−1 θ dθ = dt .
0 0 (1 + t)r+s

Γ(r) Γ(s)
14. B(r, s) = (r, s > 0).
Γ(r + s)

15. Si calcolino media, varianza, e, se possibile, la f.r., delle distribuzioni

(a) uniforme U (a, b);

(b) Γ(θ, α);

(c) χ2 (n, s).

16. Per la distribuzione di Student a n gradi di libertà, il momento di ordine k esiste se, e
solo se, k < n. In tal caso se k è dispari, si ha E(X k ) = 0, mentre, se k < n è pari, si calcoli
E(X k ).

17. Si controlli che sia la (2.3.12) sia la (2.3.13) definiscono densità di probabilità.
106 CAPITOLO 2. VARIABILI ALEATORIE

18. La f.r. di una v.a. X con legge Γ(λ, n) con n ∈ N è, per x > 0,
n−1
X (λ x)j −λ x
F (x) = 1 − e .
j=0
j!

19. Nella legge di Poisson,

λk
P(X = k) = e−λ (k ∈ Z; λ > 0)
k!
si ha √
2πλ P(X = j) j−λ
lim =1 se t := √ .
λ→+∞ exp(−t2 /2) λ
Si applichi questo risultato al calcolo del limite
n
X nj 1
lim e−n = .
n→+∞
j=0
j! 2

20. Sia N il numero di palline contenute in un’urna e sia θ ∈ ]0, 1[ la proporzione di palline
bianche. Se pk,n (N ) è la probabilità che, nell’estrazione senza restituzione di n palline
dall’urna, k siano bianche, si dimostri che, al tendere di N a +∞, pk,n (N ) tende all’analoga
probabilità in un’estrazione con restituzione. Tale fatto trova applicazione nella Statistica
Matematica quando si sostituisce alla legge ipergeometrica la legge binomiale. Come si vede
ciò è lecito quando la popolazione dalla quale si sta campionando è molto piú numerosa del
campione che si considera, vale a dire quando N è molto piú grande di n.

21. Un certo prodotto ha durata T che segue una legge esponenziale.


(a) Se la vita media è di 4 anni e se la ditta che la produce dà una garanzia di due anni,
qual è la probabilità che debba essere sostituito?
(b) Quale dovrebbe la durata della garanzia perché la ditta debba sostituire in garanzia
non piú del 10% dei pezzi?

22. Si dice legge di Laplace quella definita dalla densità


1 −|x|
f (x) := e (x ∈ R) .
2
Se ne calcolino la media e la varianza. Se X è una v.a. che legge di Laplace, qual è la legge
della sua ridotta,
X − E(X)
Y := ?
σ(X)

23. Se il vettore (X, Y ) ha una densità f , si determinino le leggi delle v.a. (a) X − Y , (b)
XY , (c) X/Y .

24. Si dice legge di Weibull di parametri α e λ quella che ha densità data da


α
fα,λ (t) := α λ tα−1 e−λ t 1(0,+∞) (t) ,

ove α > 0 e λ > 0.


2.12. ESERCIZÎ SUL CAPITOLO 2 107

(a) Si controlli che fα,λ è effettivamente una densità di probabilità e se ne scriva la f.r.;
(b) sia T una v.a. con la legge di Weibull; si studii per quali valori di α e di λ la funzione
s 7→ P(T > s + t | T > s) sia crescente o decrescente;
(c) se X ha legge esponenziale di parametro λ > 0, X ∼ Γ(λ, 1), si calcoli, per β > 0,
E(X β ) e si trovi la legge di X β . Si usi tale risultato per calcolare la speranza della
v.a. T del punto (b).
Questa legge fu introdotta in Weibull (1951). Si veda, per maggiori informazioni Johnson
et al. (1994) che le dedica un capitolo.

25. Se F è una f.r. anche la funzione G : R → [0, 1] definita da

G(x) := 1 − `− F (−x) (x ∈ R)

è una f.r.. Se F = G allora si dice che la legge è simmetrica rispetto all’origine.


Se X ha densità f , sono equivalenti le proprietà:
(a) f è simmetrica rispetto a c ∈ R, cioè f (c − x) = f (c + x) per ogni x ∈ R;
(b) le v.a. X − c e c − X hanno la stessa legge.
Quando si verifica una delle ultime due condizioni si dice che X è simmetrica rispetto a c.
Se X è simmetrica rispetto a c e integrabile, allora è E(X) = c.

26. Ogni f.r. multipla è crescente in ogni variabile.

27. Si verifichi che le funzioni F, G : R → [0, 1] definite sotto soddisfanno alle condizioni
(a), (b) e (c) del Teorema 2.5.1 sono crescenti in ogni variabile, ma non sono f.r.
(
1, x + y ≥ 0,
F (x, y) :=
0, x + y < 0,
(
max{0, x + y + 1} , x + y < 0 ,
G(x, y) :=
1, x + y ≥ 0.

28. Data la densità di probabilità f : R → R+ definita da

f (x1 , x2 ) := x1 x2 exp{−(x1 + x2 )} 1R2+ (x1 , x2 ) ,

si calcolino le probabilità
(a) P(X1 ≤ 1, X2 ≤ 1);
(b) P(X1 + X2 ≤ 1);
(c) P(X1 + X2 ≥ 2);
(d) P(X1 < X2 );
(e) P(X1 > 1);
(f) P(X1 = X2 );
(g) P(X2 < 1|X1 ≤ 1);
108 CAPITOLO 2. VARIABILI ALEATORIE

(h) P(X1 > X2 |X2 > 1).

29. Si calcolino le stesse probabilità dell’esercizio precedente se il vettore aleatorio (X1 , X2 )


ha densità uniforme sul quadrato (0, 2) × (0, 2).

30. Il vettore aleatorio (X1 , X2 ) assume i valori sotto indicati con le probabilità date dalla
seguente tabella (ove p = 1/60)

.

X2 \X1 .. 0

1 2

. . . . . . . . . . . . . . . . . . . . . . . .
..


0 . p 2p 3p

..
1 . 2p 4p 6p


2 ..
. 3p 6p 9p

3 ..
. 4p 8p 12p

(per esempio P(X1 = 1, X2 = 2) = 6p = 1/10). Si determinino le leggi marginali e si


calcolino le probabilità:
(a) P(X1 ≤ 1, X2 ≤ 1);
(b) P(X1 + X2 ≤ 1);
(c) P(X1 + X2 > 2);
(d) P(X1 < 2X2 );
(e) P(X1 > 1);
(f) P(X1 = X2 );
(g) P(X1 ≥ X2 |X1 > 1);
(h) P(X12 + X22 ≤ 1).

31. Sia T il triangolo con vertici nei punti (0, 0), (0, 1), (1, 1).
(a) Si calcoli la costante k in modo che sia una densità di probabilità la funzione (x, y) 7→
k
f (x, y) := 1T (x, y), √ ;
xy
(b) si determinino le leggi marginali e si dica se siano indipendenti.

32. È data la funzione f : R2 → R+ mediante

k
f (x, y) := .
(1 + x2 )(1 + y 2 )

(a) Si calcoli la costante k in modo che sia f sia la densità di probabilità di un vettore
aleatorio (X, Y );
(b) si calcoli la f.r. di (X, Y );
(c) si calcoli P [(X, Y ) ∈ Q] se Q = (0, 1) × (0, 1).
2.12. ESERCIZÎ SUL CAPITOLO 2 109

33. Si mostri che, se r > 0 e s > 0, è una densità di probabilità la funzione f : R2 → R+


definita da
1

 xr−1 (y − x)s−1 e−y , 0 < x < y ,
f (x, y) := Γ(r) Γ(s)
0, altrove,

e se ne determinino le leggi marginali.

34. Il vettore aletorio (X, Y ) abbia densità f .


(a) Se (
f (x, y) + f (y, x) , se x ≥ y,
g(x, y) :=
0, altrove,
g è una densità di probabilità;
(b) se il vettore (U, V ) ha densità g, le v.a. Z := X + Y e W := U + V hanno la stessa
legge.

35. Se X ha varianza finita e se a e b sono in R, si calcoli V (aX + b). Se, inoltre, a 6= 0 e


V (X) 6= 0, si calcoli ρ(X, aX + b). SE anche Y ha varianza finita si calcoli il coefficiente di
corralazione ρ(X + a, Y + b).

36. Se X e Y hanno varianza finita e se non sono costanti q.c., si mostri che ha minimo
assoluto la funzione (s, t) 7→ f (s, t) := E (Y − s − tX)2 e si trovino i valori si s e di t che
realizzano tale minimo.

37. Siano X e Y due v.a. con varianza finita, strettamente positiva e tale che V (X) = V (Y ).
Allora X + Y e X − Y sono incorrelate. Sono anche indipendenti?

38. Siano X, Y e Z v.a. indipendenti ed isonome con legge geometrica di parametro p ∈


]0, 1[. Si calcolino
(a) la legge della v.a. S = X ∨ Y ;
(b) la probabilità che sia P(X = Y );
(c) la probabilità P(X ≥ 2 Y );
(d) la probabilità P(X + Y ≤ Z).
Definite le v.a. U := X ∧ Y e V := X − Y si mostri che esse sono indipendenti.

39. Si determini la legge di Y = X 2 esaminando, in particolare, il caso nel quale X abbia


una densità.

40. Se X ha una densità, qual è la legge della v.a.

Y := arctan X ?

p
41. Se X è assolutamente continua, quali sono le leggi di |X| e di |X|?
110 CAPITOLO 2. VARIABILI ALEATORIE

42. Se X è distribuita uniformemente in (−π/2, π/2) e se a > 0, qual è la legge di a sin X?


e quella di tan X?

43. Se X ∼ N (m, σ 2 ), qual è la legge (detta lognormale) della v.a. Y := eX ?

44. Se X p è distribuita uniformemente in (0, 1), si calcolino le leggi delle seguenti v.a. (a)
X 2 , (b) |X|, (c) eX , (d) − ln |X|, (e) cos πX.

45. Si risolva l’esercizio precedente se X ha legge uniforme in (−1, 1).

46. Se U è distribuita uniformemente in (0, 1), le v.a. X = sin πU e Y = cos πU sono


incorrelate, ma non indipendenti.

47. Se X ∼ N (0, 1) e Y = X 2 , X e Y sono incorrelate senza essere indipendenti.

48. Se α > 0 e X ∼ N (0, 1), qual è la legge della v.a. Y = X 1{|X|≤α} − X 1{|X|>α} ?

49. Si scrivano le f.r. della distribuzione uniforme sul quadrato unitario Q = (0, 1) × (0, 1)
e di quelle uniformi sulle diagonali di Q. Si mostri che le tre f.r. hanno le stesse marginali.

50. Siano X e Y due v.a. indipendenti, entrambe di legge uniforme sull’intervallo (0, 1).
Qual è la legge della v.a. X + Y ?

51. Siano X1 e X2 v.a. indipendenti definite sullo stesso spazio di probabilità, di legge
Γ(θ, p) e Γ(θ, q) rispettivamente. Definite le v.a.
X1
Y1 := X1 + X2 e Y2 :=
X1 + X2
si mostri che sono indipendenti e se ne determinino le leggi.

52. Sia data la funzione ϕ : R2 → R definita da


 2
x + y2

1 2 2
ϕ(x, y) := (x + y ) exp − .
4π 2
(a) Si mostri che ϕ è una densità di probabilità ;
(b) se (X, Y ) è un vettore aleatorio con densità congiunta data da ϕ si trovino le leggi
marginali di X e di Y e se calcolino le speranze;
(c) si calcoli la covarianza di X e di Y ; sono indipendenti?
(a) Si consideri la trasformazione

1

 U = √ (X + Y )
2




 1
V = √ (X − Y ) ,


2
si trovino la legge congiunta del v.a. (U, V ) e le legge marginali di U e V .
2.12. ESERCIZÎ SUL CAPITOLO 2 111

53. Siano X e Y due v.a. indipendenti e di legge uniforme in (0, 1); si trovi la densità del
vettore aletorio (X, Z), ove Z = X + Y .

54. Sia data la funzione f : R2 → R definita da


 2
x − xy + y 2

f (x, y) = k exp − (x, y) ∈ R2 .
2

(a) Si calcoli la costante k in modo che f sia una densità di probabilità.


(b) Se (X, Y ) è un vettore aleatorio con densità f , ove k ha il valore calcolato in (a), si
trovino le leggi marginali di X e di Y .
(c) Si calcoli la covarianza di X e di Y .
(d) Considerata la trasformazione

3 1
U= Y, V =X− Y,
2 2
si trovi la legge congiunta di (U, V ).

55. Il vettore aleatorio (X, Y ) ha densità congiunta data da


 2
x + y2

1
f (x, y) = exp − (x, y) ∈ R2 .
2π 2

(a) Si trovi la densità congiunta del vettore (X 2 , Y 2 );


(b) si trovi la legge della v.a. Z = X 2 + Y 2 .

56. Sono date due v.a. strettamente positive X e Y che hanno f come densità congiunta.
(a) Si trovi la densità congiunta del vettore (U, V ) ove U = X + Y e V = X/Y .
(b) Se inoltre X e Y sono indipendenti e hanno, rispettivamente, legge Γ(θ, α) e Γ(θ, β),
si mostri che U e V sono indipendenti e se ne trovino le leggi.

57. Sia X una v.a. strettamente positiva di densità f . Si trovi la legge della v.a. V = 1/U .

58. Siano X e Y indipendenti di densità Γ(θ, α) e Γ(θ, β) rispettivamente.


(a) Si trovi la legge congiunta del vettore (X, X + Y )
(b) Si trovino le densità congiunte delle due v.a.
X +Y X
U= e V = .
X X +Y

59. Siano O = (0, 0), A = (1, 1), B = (1/2, 1), C = (0, 1/2), D = (1, 0), E = (1, 1/2) e
F = (1/2, 0) punti del piano e sia f la densità di probabilità uniforme con supporto dato
dall’unione del quadrilatero OABC e del triangolo DEF . Se il vettore aleatorio (X, Y ) ha
densità f ,
(a) si trovino le leggi (marginali) di X e di Y ;
112 CAPITOLO 2. VARIABILI ALEATORIE

(b) si determini la legge della somma X + Y .

60. Si dice che una v.a. X ha legge di Rayleigh, se la sua densità è


2x −x2 /α
fα (x) := e 1(0,+∞) (x),
α
ove α > 0.
(a) Si mostri che fα è effettivamente una densità di probabilità;
(b) si calcolino la media e la varianza di X;
(c) si determini la legge della v.a. Y := X 2 ;
2
(d) si determini la legge della v.a. Z := e−X /α
;
(e) se il vettore aleatorio (S, T ) ha densità definita da

ϕ(x, y) := β fα (x) y 1{(x,y):0<y<x} (x, y),

si determini la costante β, si trovino le densità marginali e si dica se siano indipendenti


la v.a. S e S/T .

61. Sia ϕ : R+ → R una funzione di classe C1 , cioè derivabile e con derivata continua, tale
che ϕ(0) = 0. Se X è una v.a. a valori positivi vale
Z +∞ Z +∞
E (ϕ ◦ X) = ϕ0 (t) P(X ≥ t) dt = ϕ0 (t) P(X > t) dt .
0 0

Una v.a. X con f.r. F e densità f è integrabile se, e solo se, valgono le due diseguaglianze
Z +∞ Z 0
{1 − F (t)} dt < +∞ e F (t) dt < +∞ ;
0 −∞

in tal caso la speranza è data da


Z +∞ Z 0
E(X) = {1 − F (t)} dt − F (t) dt .
0 −∞

Si interpreti questo risultato dal punto di vista geometrico. Se X hA speranza finita, allora

lim x {1 − F (x)} = 0 ,
x→+∞

lim x F (x) = 0 .
x→−∞

62. Se X è una v.a. che assume solo valori interi positivi, allora
X
E(X) = P(X ≥ n) .
n∈N

63. L’equazione funzionale di Cauchy per una funzione f : R → R è

f (x + y) = f (x) + f (y) (x, y ∈ R) .

(a) f (0) = 0;
2.12. ESERCIZÎ SUL CAPITOLO 2 113

(b) f (−x) = −f (x);


(c) f (q) = c q per ogni q razionale (q ∈ Q);
(d) ∀ x ∈ R f (x) = cx, se f è derivabile in R;
(e) ∀ x ∈ R f (x) = cx, se f è continua in R;
(f) ∀ x ∈ R f (x) = cx, se f è continua in un punto x0 ∈ R;
(g) ∀ x ∈ R f (x) = cx, se f è monotona;
(h) ∀ x ∈ R f (x) = cx, se f è integrabile;
(i) ∀ x ∈ R f (x) = cx, se f è limitata in un intervallo.
Per il vasto campo delle equazioni funzionali si vedano i libri Aczél (1966) e Aczél & Dhom-
bres (1989). Le equazioni funzionali ricorrono spesso nella caretterizzazioni delle leggi di
probabilità. Quello dell’esercizio che segue è l’esempio piú facile.

64. Si supponga che ϕ : ]0, +∞[ → R soddisfaccia all’equazione funzionale

ϕ(x + y) = ϕ(x)ϕ(y) (x, y > 0) .

Se ne trovino le soluzioni continue.

65. Se X è una v.a. con legge esponenziale e s e t sono numeri strettamente positivi, vale

P (X > s + t | X > s) = P(X > t) .

Viceversa si supponga che una v.a. X verifichi quest’ultima relazione per ogni coppia s e t
di numeri reali. Si mostri, nell’ordine, che, se F è la f.r. di X,
(a) F (0) = 0, o, equivalentemente, P(X > 0) = 1;
(b) ∀ x > 0 0 < F (x) < 1;
(c) la v.a. X ha legge esponenziale.
Si mostri che la proprietà (∗), nota sotto il nome di mancanza di memoria, vale nel caso
delle distribuzioni discrete, per la legge geometrica se X rappresenta il tempo al quale si
ha il primo successo nel processo bernoulliano, cioè X := min{n ∈ N : Xn = 1}. Si veda
Nelsen (1987).

66. Sia X una v.a. con legge uniforme in (0, 1).


(a) Qual è la legge della v.a. Y := [X] + nX ove [t] designa la parte intera di t?
(b) Qual è la legge di Y := [2X] + 2X?

67. Si consideri il vettore aleatorio (X, Y ) di densità


 −x
e
, 0 < y ≤ x,
f (x, y) := x
0 , altrove.

Qual è la legge di X/(X + Y )?


114 CAPITOLO 2. VARIABILI ALEATORIE

68. Siano W e Z v.a. indipendenti, rispettivamente esponenziale di parametro 1, W ∼


Γ(1, 1), e normale ridotta, Z ∼ N (0, 1).

(a) Si determini la legge di Y := 2 W ;

(b) si determini la legge della v.a. X := 2 W Z.

69. Siano U1 e U2 due v.a. definite sullo stesso spazio di probabilità ed indipendenti, en-
trambe con legge uniforme su (0, 1), Uj ∼ U(0, 1) (j = 1, 2). Se X := ln U2 /U1 , qual è la
legge di X?

70. Siano X e Y due v.a. definite sullo stesso spazio di probabilità ed indipendenti. X
assume i valori +1 e −1 entrambi con probabilità 1/2, mentre Y ha legge esponenziale di
parametro 1, Y ∼ Γ(1, 1). Se Z := X Y , qual è la legge di Z?

p
71. Sia X una v.a. con legge χ(n, σ 2 ); si trovi la legge di X/n. Se X1 ,. . . , Xn sono
indipendenti isonome con Xj ∼ N (0, σ 2 ) con (j = 1, 2, . . . , n), allora la v.a.
 1/2
n
1 X 
V := Xj2
n 
j=1

ha legge χ(n, σ).

72. Siano X e Y v.a. indipendenti e sia

X ∼ N (0, σ 2 ) e Y ∼ χ(n, σ) ;

allora la v.a. X/Y ha legge di Student di parametro n. Si osservi che la legge di Student
non dipende dal parametro σ.

73. Una serie di eventi indipendenti si realizza con legge di Poisson: il parametro λ > 0 è
il numero di eventi per unità di tempo. Il tempo d’attesa Tk sino a che non si verifica il
k–esimo evento ha legge Γ(λ, k).

74. La somma di r v.a. indipendenti, tutte con legge esponenziale di parametro λ > 0, ha
legge Γ(λ, r); in altre parole Γ(r, λ) è la convoluzione di r leggi esponenziali Γ(λ, 1).

75. Sia N , X1 , X2 , . . . , Xn , . . . una successione di v.a. indipendenti. N ha legge geometrica


di parametro p, mentre ogni Xn ha legge esponenziale di parametro λ > 0. Si trovi la legge
della v.a. SN definita da
N (ω)
X
SN (ω) := Xj (ω).
j=1

76. Siano X1 , . . . , Xn v.a. indipendenti; si determinino le leggi delle v.a.

X 00 := max{X1 , X2 , . . . , Xn } = ∨nj=1 Xj ,
X 0 := min{X1 , X2 , . . . , Xn } = ∧nj=1 Xj .

In particolare se ognuna delle v.a. X1 , . . . , Xn è uniformemente distribuita sull’intervallo


(0, 1), si determini la legge della v.a. R := X 00 − X 0 e si calcolino E(R) e V (R).
2.12. ESERCIZÎ SUL CAPITOLO 2 115

77. Siano X1 , . . . , Xn v.a. indipendenti ed isonome. Si ordinino le v.a. in modo che sia

X (1) ≤ X (2) ≤ · · · ≤ X (n) .

Si osservi, che con riferimento all’esercizio precedente, è X 00 = X (n) e X 0 = X (1) . Le v.a.


X (j) sono dette, nella Statistica, statistiche d’ordine. Si trovi la legge di X (j) ; si consideri,
in particolare, il caso in cui ognuna delle v.a. X1 , . . . , Xn abbia legge uniforme in (0, 1).

n2 X1
78. Se X1 e X2 sono v.a. indipendenti e Xi ha legge χ2 (ni ) (i = 1, 2), allora T =
ha
n1 X2
legge F (n1 , n2 ), detta legge di Fisher–Snedecor. Se ne calcolino, quando esistano, la media
e la varianza.

79. Se X ha legge F (m, n), allora la v.a.


 m −1
T := 1 + X
n
ha legge beta con parametri (m/2) e (n/2).

80. Se X ha legge beta con parametri α e β, allora la v.a.


 
α 1
S := −1
β X
ha legge F (2β, 2α).

81. Nello spazio di probabilità (Ω, F, P) sia (Xn ) una successione di v.a. indipendenti,
Pn tutte
di legge esponenziale di parametro λ > 0, Xn ∼ Γ(λ, 1). Si ponga, al solito, Sn := j=1 Xj .
Per t > 0, si definisca la v.a. X
Nt := 1{Sn ≤t} .
n∈N

Si mostri che
(a) è , per ogni n ∈ N,
{Nt = n} = {Sn ≤ t} \ {Sn−1 ≤ t};

(b) Nt ha legge di Poisson e se determini il parametro.

82. Siano f1 e f2 due densità di probabilità e siano A > 0, [a1 , b1 ] e [a2 , b2 ] tali che risulti
fi (xi ) ≥ A per ogni xi ∈ [ai , bi ] (i = 1, 2). Si definisca ora ϕ : R2 → R mediante
     
π a1 + b1 π a2 + b2
ϕ(x, y) := A2 sin x1 − × sin x2 −
b1 − a1 2 b2 − a2 2
se (x, y) ∈ [a1 , b1 ] × [a2 , b2 ], ϕ := 0 altrove. Allora

f (x, y) := f1 (x) f2 (y) + ϕ(x, y)

è una densità di probabilità le cui densità marginali sono f1 e f2 .

83. Siano X e Y due v.a. indipendenti geometriche di parametro p. Si definiscano le v.a.

S := X ∧ Y e T := |X − Y | .
116 CAPITOLO 2. VARIABILI ALEATORIE

(a) Si trovi la legge congiunta di S e di T ;


(b) si determino le leggi marginali di S e di T .

84. Si consideri un processo di Bernoulli (Xn ) di parametro p, e, sullo stesso spazio di


probabilità (Ω, F, P), la v.a. N , indipendente da quelle
Pn della successione (Xn ) e con legge di
Poisson di parametro λ. Al solito si ponga Sn := j=1 Xj se n ∈ N e S0 := 0. Si determini
la legge della v.a. X
SN := Sn 1{N =n} .
n∈Z+

85. Il problema dei momenti : Data una legge ne restano individuati, se esistono, i momenti
mk := E(X k ) (k ∈ N). Ci si può domandare se la successione

(mk )k∈Z+

individui la legge. La risposta è, in generale, negativa. Sia f la densità della legge
lognormale:
ln2 x
 
1
f (x) = √ exp − 1]0,+∞[ (x) ;
2π x 2
se a ∈ ]0, 1], si ponga fa (x) := f (x){1 + a sin(2π ln x)}. Allora:
(a) fa definisce una densità di probabilità su R;
(b) mk esiste per ogni k sia per la legge lognormale sia per quella di densità fa e le due
leggi hanno le stesse successioni di momenti.
Per il problema dei momenti in generale, si può consultare la monografia Shohat & Tamarkin
(1943).

86. L’estremo inferiore di una famiglia (non necessariamente numerabile) di f.r. è una f.r.?
e l’estremo superiore?

87. Sia X una v.a. con f.r. continua F ; allora la v.a. F ◦ X ha legge uniforme in [0, 1]. Cosa
accade se F non è continua?

88. Sia F una f.r.; si definisca F̂ : ]0, 1] → R mediante

F̂ (t) := inf{x ∈ R : F (x) ≥ t} .

Allora
(a) ∀ t ∈ ]0, 1] F [F̂ (t)] ≥ t; il segno d’eguaglianza vale se, e solo se, F è continua;
(b) ∀ x ∈ R F̂ [F (x)] ≤ x; il segno d’eguaglianza vale se, e solo se, F è strettamente
crescente.

89. Siano Y una v.a. di legge B(p, q) con p, q ∈ Z+ e p > 1 e X una v.a. di legge binomiale
di parametri p + q − 1 e θ ∈ ] 0, 1[. Allora P(Y ≤ θ) = P(X ≥ p).

90. Anziché usare la formula di Wallis (2.9.8) come nell’ultima parte della Sezione 2.9 si
usi il teorema di de Moivre–Laplace per calcolare il valore della costante c = eξ .
2.12. ESERCIZÎ SUL CAPITOLO 2 117

91. In una passeggiata aleatoria di Bernoulli, con p ∈ ]0, 1[, si dimostri che, usando la
notazione usuale, si ha
∀k ∈ Z lim P(Gn = k) = 0 .
n→+∞

92. Sia X una v.a. uniformemente distribuita nell’intervallo (0, 1). Si consideri lo sviluppo
di X in base 10: X xn
X=
10n
n∈N

con xn ∈ {0, 1, . . . , 9}. Qual è la probabilità che in tale sviluppo non compaia mai la cifra
5.

93. Le v.a. X1 , . . . , Xn si dicono scambiabili se la loro f.r. congiunta è una funzione simme-
trica, vale a dire se è invariante per permutazioni. Una successione di v.a. si dice scambiabile
se tale è ogni suo sottoinsieme finito.

(a) Se le v.a. X1 , X2 , . . . , Xn sono scambiabili, sono anche isonome;

(b) se le v.a. X1 , X2 , . . . , Xn indipendenti e isonome sono scambiabili;

(c) se (Xn ) è successione scambiabile nella quale tutte le v.a. hanno varianza finita,
ρ(Xj , Xk ) non dipende dagli indici j e k e ρ(X1 , X2 ) ≥ 0.

94. Per una v.a. X con distribuzione di Pareto di densità

f (x) := 24 x−4 1[2,+∞[

si paragoni la funzione ϕ : ]0, +∞[ → [0, 1] data da

ϕ(δ) := P (|X − E(X)| > δ)

con la limitazione data dalla diseguaglianza di Čebyšev.

95. Sullo spazio di probabilità (Ω, F, P) si consideri la successione (Xn ) di v.a. indipendenti,
tutte di leggePesponenziale di parametro λ > 0, Xn ∼ Γ(λ, 1) per ogni n ∈ N. Posto, al
n
solito, Sn := j=1 Xj , si consideri, per t ≥ 0, la v.a.Nt : Ω → Z+ ∪ {+∞} definita da
X
Nt := 1{Sn ≤t} .
n∈N

(a) Si mostri che, per ogni n ∈ N è

{Nt = n} = {Sn ≤ n} \ {Sn+1 ≤ t} ;

(b) si determini la legge della v.a. Nt ;

(c) si mostri che P(Nt = +∞) = 0;

(d) si mostri che


t
E(Nt ) = .
E(X1 )
118 CAPITOLO 2. VARIABILI ALEATORIE

96. Siano U una v.a. di legge uniforme su (0, 1) e X1 , X2 , . . . , Xn v.a. indipendenti e isonome
definite sullo stesso spazio di probabilità (Ω, F, P). Se, per j = 1, 2, . . . , n,
P (Xj = 1 | U = x) = x e P (Xj = −1 | U = x) = 1 − x
con x ∈ ]0, 1[ e se Yj := Xj Xj+1 (j = 1, 2, . . . , n − 1), si calcolino media e varianza della
v.a.
n−1
X
S := Yj .
j=1

97. Siano U1 , . . . , Un vettori aleatorı̂ uniformemente distribuiti nel quadrato Q := (0, 1) ×


(0, 1). Se Uj = (Xj , Yj ) (j = 1, 2, . . . , n), siano N e M la v.a. che contano rispettivamente
quante delle v.a. Xj assumono valori in (0, 1/3) e quante delle v.a. Yj assumono valori in
(0, 2/3). Se S è la v.a. che conta quante volte i vettori Uj assumono valori nel rettangolo
(0, 1/3) × (0, 2/3), si calcoli la legge di S subordinata a N e M , cioè si calcoli la probabilità
P (S = l | N = j, M = k) .

98. Tre v.a. indipendenti X0 , X1 e X2 assumono ciascuna valori interi positivi. Si ponga
Y1 := X0 + X1 e Y2 := X0 + X2 .
Siano λ0 , λ1 e λ2 tre costanti strettamente positive. Si determinino le leggi delle tre v.a.
X0 , X1 e X2 , se la legge congiunta di Y1 e Y2 è data da
n∧s
X λk0 λn−k λ2s−k
P(Y1 = n, Y2 = s) = 1
e−(λ0 +λ1 +λ2 ) .
k! (n − k)! (s − k)!
k=0

(Amer. Math. Monthly 103 (1996), 428–429).

99. Si mostri che


       
1 n k k k k ln n
ln = ln − 1 − ln 1 − +O
n k n n n n n
uniformemente rispetto a k ∈ {0, 1, . . . , n} per n → +∞.

100. Sopra un segmento, che si può supporre di lunghezza unitaria, si segnino a caso ed
indipendentemente due punti. Qual è la probabilità che i tre segmenti cosı́ ottenuti siano i
lati di un triangolo?

101. Siano X e Y due v.a. indipendenti, entrambe di legge N (0, 1). Si determinino:
(a) la legge della v.a. X − Y ;

(b) la legge del vettore (X, 2 Y );
(c) la legge del vettore (X, X − Y );
(d) la legge del vettore aleatorio (X + Y, X − Y ); sono indipendenti le componenti X + Y
e X − Y di tale vettore?

102. Siano date le matrici


     
1 2 3 1 5 −2
A= B= C= .
2 1 2 4 −2 4
Quali tra queste sono matrici di varianza–covarianza?
Bibliografia

[1] D. André, Solution directe du problème résolu par M. Bertrand, C.R. Acad. Sci. Paris
105, 436–437 (1887).
[2] K. Baclawski, M. Cerasoli, G.C. Rota, Introduzione alla probabilità, Monografie
dell’Unione Matematica Italiana, Pitagora, Bologna, 1984.
[3] P. Baldi, Calcolo delle probabilità e statistica, McGraw–Hill, Milano, 1992.
[4] P. Baldi, R. Giuliano, L. Ladelli, Laboratorio di statistica e probabilità, McGraw–Hill,
Milano, 1995.
[5] D.R Bellhouse, Abraham de Moivre: setting the stage for classical probability and its
applications, CRC Press, Boca Raton FL, 2011.
[6] S. Bernstein, Démonstration du théorème de Weierstrass fondée sur le calcul des
probabilités, Soob. Charkov Mat. Obs. 13, 1–2 (1912).
[7] I.J. Bienaymé, Considérations à l’appui de la découverte de Laplace sur la loi des
probabilité dans la méthode des moindres carrés, C.R. Acad. Sci. Paris 37, 309–324
(1853).
[8] I.J. Bienaymé, Considérations à l’appui de la découverte de Laplace sur la loi des
probabilité dans la méthode des moindres carrés, J. Math. Pures Appl. (2) 12, 158–176
(1867).
[9] P. Billingsley, Probability and Measure, Wiley, New York, 1979; terza edizione, 1995.
[10] R.P. Boas jr., A primer of real functions, Mathematical Association of America,
Washington 1960.
[11] É. Borel, Mécanique statistique et irréversibilité, J. Phys. 5e série 3, 189-196 (1913).
[12] C.B. Boyer, A history of mathematics, Wiley, New York, 1968; traduzione italiana
“Storia della matematica”, Arnoldo Mondadori, Milano, 1980.
[13] R.A. Brualdi, Introductory Combinatorics, Elsevier North–Holland, New York 1977.
[14] A. Buonocore, A. Di Crescenzo, L.M. Ricciardi, Appunti di probabilità, Liguori,
Napoli, 2011.
[15] T. Cacoullos, Exercises in probability, Springer, New York, 1989.
[16] G. Castelnuovo, Calcolo delle Probabilità, Zanichelli, Bologna, 1926 (ristampa del
1976).
[17] P.L. Čebyšev, Des valeurs moyennes, J. Math. Pures Appl. (2) 12, 177– 184 (1867);
traduzione inglese in Smith (1929).
[18] M. Cerasoli, Problemi Risolti di Calcolo delle Probabilità, Ambrosiana, Milano, 1991.

119
120 BIBLIOGRAFIA

[19] Y. S. Chow, H. Teicher, Probability Theory. Independence, Interchangeability,


Martingales, Springer, New York–Berlin, 1978.

[20] H. Cramér, Mathematical methods of statistics, Princeton University Press, 1946.

[21] H. Cramér, Half a century with probability theory: some personal recollections, Ann.
Probab. 4, 509–546 (1976); anche in Cramér (1994), pp. 1352–1389.

[22] N. Cufaro Petroni, Lezioni di Calcolo delle Probabilità, Edizioni dal Sud, Modugno
(Bari) (1996).

[23] G. Dall’Aglio, Calcolo delle Probabilità, Zanichelli, Bologna, 1987.

[24] J.W. Dauben, The history of mathematics from antiquity to the present. A selective
bibliography, Garland, New York–London, 1985.

[25] B. de Finetti, Teoria della probabilità, Boringhieri, Torino, 1970.

[26] B. de Finetti, Probabilità, voce del vol. 10 dell’Enciclopedia Einaudi, Torino, 1980.

[27] J. Dieudonné, Abrégé d’histoire des mathématiques 1700–1900, Vol. II, Hermann,
Pari, 1978.

[28] W. Feller, An Introduction to Probability Theory and Its Applications. vol. I, Wiley,
New York, 1950; terza ed., 1968.

[29] T.L. Fine, Theories of probability. An examination of foundations, Academic Press,


New York–London, 1973.

[30] B.V. Gnedenko, The Theory of probability, Mir, Moscow, 1968; traduzione italiana
Teoria delle Probabilità, Editori Riuniti, Roma, 1985.

[31] G. Grimmett, D. Stirzaker, One Thousand Exercises in Probability, Oxford University


Press, 2001.

[32] C.C. Heyde, E. Seneta, I.J. Bienaymé: statistical theory anticipated, Springer, New
York, 1977.

[33] C.C. Heyde, E. Seneta, Statistician of the centuries, Springer, New York, 2001.

[34] N.L. Johnson, S. Kotz, A.W. Kemp, Univariate Discrete Distributions, Wiley, New
York (2nd ed.), 1993.

[35] M. Kline, Mathematical thought from ancient to modern times, Oxford University
Press, New York, 1972; traduzione italiana, Einaudi, Torino.

[36] G. Koch, La matematica del probabile, Aracne, Roma, 1997.

[37] A. N. Kolmogorov, Grundbegriffe der Wahrscheinlichkeitsrechnung, Springer, Berlin,


1933; traduzione inglese Foundations of probability, Chelsea, New York, 1950.

[38] S. Kotz, N.L Johnson, Encyclopedia of Statistical Sciences, Wiley, New York, 1982–
1988.

[39] L. Le Cam, The central limit theorem around 1935, Statistical Science 1, 78-91, 1986.

[40] G. Letta, Probabilità Elementare. Compendio di teoria–Problemi risolti, Zanichelli,


Bologna, 1993.

[41] M. Loève, Probability Theory, Van Nostrand, New York, 1963; quarta edizione in due
volumi Probability Theory I, II, Springer, New York–Heidelberg–Berlin, 1977– 78.
BIBLIOGRAFIA 121

[42] M. Loève, Calcul des probabilités, in (Dieudonné, 1978), pp. 277–313.

[43] G. Loria, Storia della matematiche dall’alba della civiltà al tramonto del XIX secolo,
Hoepli, Milano, 1950; ristampa, Cisalpino–Goliardica, Modena, 1982.

[44] L. E. Maistrov, Probability Theory. A Historical Sketch, Academic Press, New York,
1974.

[45] A.A. Markov, Izv. Fiz.–Matem. Obsch. Kazan Univ. (2) 8, 110–128 (1906); anche in
(Markov, 1951).

[46] A.A. Markov, Ischishenie Veroiatnostei (Calcolo delle Probabilità), Gosizdat, Mosca,
1913.

[47] A.A. Markov, Izbrannie Trudy, ANSSR, Leningrado, 1951.

[48] R. von Mises, Über Auftellungs und Besetzungswahrscheinlichkeiten, Rev. Fac. Sci.
Istanbul, 4, 145–163 (1932); reprinted in Selected Papers of R. Von Mises, Vol. 2,
Amer. Math. Soc., Providence, RI, pp. 313–331.

[49] E. Parzen, Modern probability theory and its applications, Wiley, New York, 1960;
traduzione italiana, La moderna teoria della probabilità e le sue applicazioni, Franco
Angeli, Milano, 1976.

[50] N. Pintacuda, Coupons collectors via the martingales, Bull. Un. Mat. Ital. A (5) 17,
174–177 (1980).

[51] N. Pintacuda, Primo corso di probabilità, Muzzio, Padova, 1983.

[52] G. Pólya, Über den zentralen Grenzwertsatz der Wahrscheinlichkeitsrechnung und das
Momentenproblem, Math. Zeit. 8, 171–181 (1920).

[53] G. Pólya, Über eine Aufgabe der Wahrscheinlichkeitsrechnung betreffend die Infahrt
in Straßenretz, Math. Ann. 84, 149–160 (1921).

[54] N.L. Rabinovitch, Probability in the Talmud, Biometrika 56, 437–441 (1969).

[55] H. Robbins, A remark on Stirling’s formula, Amer. Math. Monthly 62, 26–29 (1962).

[56] J.P. Romano, A.F. Siegel, Counterexamples in probability and statistics, Wadsworth
& Brooks/Cole, Monterey CA, 1986.

[57] H.J. Ryser, Combinatorial mathematics, Mathematics Association of America,


Washington, 1963.

[58] R. Scozzafava, La probabilità soggettiva e le sue applicazioni, Veschi, Roma, 1989.

[59] O.B. Sheynin, Poisson’s work on probability, Arch. Hist. Exact Sci. 18, 245–300
(1978).

[60] D.E. Smith, A source book in mathematics, McGraw–Hill, New York, 1929; ristampa
in due volumi, Dover, New York, 1959.

[61] J.M. Stoyanov, Counterexamples in probability, Wiley, Chichester–New York, 1987.

[62] D. Struik, A concise history of mathematics, Dover, New York, 1947; traduzione
italiana, Matematica: un profilo storico, Il Mulino, Bologna, 1981.

[63] G.J. Székely, Paradoxes in probability theory and mathematical statistics, Reidel, Dor-
drecht, 1986.
122 BIBLIOGRAFIA

[64] K. Weierstraß, Über die analytische Darstellbarkeit sogennanter willkülicher Funk-


tionen reller Argumente, Sitzungsber. Akad. Wiss. Berlin, 633–639; 789– 805 (1885);
anche in Werke. Vol 3, Preuss. Akad. Wiss., 1903.

[65] P. Whittle, Probability via expectation, Springer, New York, 1992.

Вам также может понравиться