Академический Документы
Профессиональный Документы
Культура Документы
A.A. 2016–2017
22 novembre 2017
ii
Indice
Prefazione 1
1 Probabilità discrete 1
1.1 Che cos’è la probabilità? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Operazioni sugli insiemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Probabilità discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Alcuni problemi d’urna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5 Probabilità condizionata e indipendenza . . . . . . . . . . . . . . . . . . . . . 17
1.6 Variabili aletorie discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.7 La diseguaglianza di Čebyšev . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.8 Alcune distribuzioni di probabilità discrete . . . . . . . . . . . . . . . . . . . 28
1.9 Probabilità di un assegnato numero di eventi . . . . . . . . . . . . . . . . . . 33
1.10 Alcuni problemi classici di probabilità . . . . . . . . . . . . . . . . . . . . . . 35
1.11 Passeggiata aleatoria di Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . 39
1.12 La funzione generatrice delle probabilità . . . . . . . . . . . . . . . . . . . . . 49
1.13 Passeggiata aleatoria in Zd . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
1.14 La definizione soggettiva della probabilità . . . . . . . . . . . . . . . . . . . . 53
1.15 Note al Capitolo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
1.16 Esercizı̂ sul Capitolo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2 Variabili Aleatorie 69
2.1 Variabili aleatorie assolutamente continue . . . . . . . . . . . . . . . . . . . . 69
2.2 Le funzioni di ripartizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
2.3 Esempı̂ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
2.4 Probabilità geometriche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
2.5 Vettori aleatorı̂ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
2.6 La covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
2.7 Trasformazioni di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . 87
2.8 La funzione generatrice dei momenti . . . . . . . . . . . . . . . . . . . . . . . 93
2.9 La formula di de Moivre–Stirling . . . . . . . . . . . . . . . . . . . . . . . . . 97
2.10 I teoremi di de Moivre–Laplace . . . . . . . . . . . . . . . . . . . . . . . . . . 100
2.11 Note al Capitolo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
2.12 Esercizı̂ sul Capitolo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
iii
iv INDICE
Prefazione
Queste lezioni riproducono, con qualche ampliamento, l’argomento del corso introduttivo
di Probabilità che, oramai da molti anni, tengo presso l’Università di Lecce, prima e del
Salento poi. Esse non sono un trattato di Probabilità e sono state scritte al solo scopo di
facilitare il compito dello studente che, per la prima volta, si avvicini a questa disciplina.
Quanto è qui presentato corrisponde al programma che è possibile svolgere in un corso di
durata trimestrale; mi pare però giusto lasciare intravvedere agli studenti, almeno quelli
dotati di maggiore curiosità intellettuale, che esistono orizzonti piú ampı̂. Ad ogni capitolo
ho fatto seguire brevi note con un duplice intento,
– fornire una guida bibliografica alla letteratura per chi volesse approfondire qualche
argomento e dare traccia di approcci alternativi;
– dare lo scheletro di una storia della disciplina, sia pur estremamente sintetica.
Spero che queste lezioni, se non lo avranno annoiato troppo, inducano qualche studente
alla lettura di qualcuno dei testi citati in bibliografia e a proseguire, approfondire ed esten-
dere lo studio della probabilità. Desidero, infine, ringraziare tutti i colleghi (e sono numerosi)
dai quali ho imparato qualcosa e gli studenti che, con osservazioni e domande, mi hanno
obbligato ad uno sforzo di chiarezza del quale mi posso solo augurare che si veda il segno.
Un ringraziamento particolare va a Giorgio Metafune, Gianfausto Salvadori e a Angela Al-
banese per l’aiuto datomi nel corso degli anni, tenendo le esercitazioni e partecipando agli
esami, e, soprattutto, per avermi obbligato a ripensare alcuni degli argomenti e la maniera
di presentarli agli studenti. Naturalmente, non v’è ragione perché debbano dividere con me
le critiche o la responsabilità per gli errori, che, inevitabilmente saranno rimasti; questa è
interamente mia.
Carlo Sempi
Lecce, 22 novembre 2017
1
2 PREFAZIONE
Capitolo 1
Probabilità discrete
1
2 CAPITOLO 1. PROBABILITÀ DISCRETE
modello matematico della classe di fenomeni in esame, quelli ai quali si è accennato sopra
e che oggi, con un nome di chiara derivazione dal primo campo di applicazione nei giochi
d’azzardo, chiamiamo aleatorı̂.
Da allora, la letteratura sulle probabilità è venuta aumentando sino ad essere ai giorni
nostri piú vasta di quanto una sola persona riesca a padroneggiare. Tuttavia lo sviluppo del
Calcolo delle Probabilità è relativamente recente e data dagli anni Trenta del secolo scorso;
per rendersi conto di quanto sia stato radicale il cambiamento basta consultare il libro di
Calcolo delle Probabilità di G. Castelnuovo del 1926 e confrontarlo con un libro moderno
(per esempio uno di quelli citati in bibliografia). Le righe che precedono non portano alcuna
risposta alla domanda che costituisce il titolo di questa sezione, che cosa sia la probabilità.
In quelle che seguono, cercherò di tratteggiare assai brevemente alcune visioni sul significato
della probabilità. Il dominio di applicazione del calcolo delle probabilità è costituito da
tutti quei fenomeni dei quali non si sappia prevedere o calcolare l’esito, o per mancanza
d’informazione o per la difficoltà (o addirittura l’impossibilità) di eseguire i calcoli; è cosı́
evidente perché le prime considerazioni di probabilità siano storicamente state collegate con
i giochi d’azzardo. Tuttavia, l’impulso decisivo allo sviluppo di questa disciplina è venuto
con il sorgere, nel secolo scorso, della teoria cinetica dei gas e della Meccanica Statistica.
L’apparire di campi nei quali era spontaneo usare concetti probabilistici ha obbligato i mate-
matici ad uno sforzo di formalizzazione per porre su solide basi scientifiche quelli che prima
erano stati risultati interessanti, talvolta profondi, ma sparsi e senza una teoria coerente che
li sostenesse e li ponesse in un quadro unitario. A cavallo tra la seconda metà dell’Ottocento
e l’inizio del Novecento si compie il lavoro di preparazione, nel quale svolgono un ruolo
importante le scuole francesi (Poincaré, Borel, Lebesgue, Fréchet, . . . ) e russa (Čebyšev,
Markov, Lyapunov, . . . ). Ancora nel 1919, von Mises poteva dichiarare che “la teoria
delle probabilità non è una disciplina matematica”; nello stesso articolo esprimeva però la
convinzione che la probabilità fosse “una scienza naturale dello stesso genere della geometria
o della meccanica” e che dovesse essere considerata il modello matematico di una certa classe
di fenomeni. Come si vede si tratta di un punto di vista molto moderno. In un articolo del
1926, alla vigilia della sistemazione definitiva della probabilità, Cramér scriveva:
Il lavoro di preparazione culmina, dopo la sistemazione definitiva della Teoria della Misura,
nella sintesi di Kolmogorov del 1933. Oggi, le considerazioni probabilistiche si incontrano
spesso nelle applicazioni, sicché il modo di ragionare probabilistico costituisce un ingrediente
importante della formazione scientifica matematica. Si tenga presente che considerazioni di
probabilità sono alla base della Meccanica Quantistica.
Esempı̂ tipici, e molto semplici, di situazioni nelle quali vi è incertezza sull’esito di un
fenomeno, sono il lancio di un dado o di una moneta, ma anche la previsione del tempo
di domani. Si osservi che nel lancio di una moneta, per esempio, non vi sarebbe alcuna
incertezza sull’esito se si conoscessero le condizioni iniziali (posizione al momento del lancio,
velocità e forza con la quale si lancia la moneta, etc.) e la struttura del sistema (peso,
forma, dimensioni della moneta, etc.); in queste condizioni, con un po’ di pazienza (e buone
conoscenze di Meccanica) si potrebbero risolvere le equazioni del moto e prevedere quale
faccia della moneta sarà rivolta verso l’alto. In effetti, nessuno userà un approccio simile,
che, evidentemente, non è facilmente estendibile a sistemi piú complicati della semplice
moneta. La prima definizione della probabilità è dovuta a Laplace all’inizio dell’Ottocento
1.1. CHE COS’È LA PROBABILITÀ? 3
probabilità non è una proprietà intrinseca dell’evento, ma dipende dalla valutazione che ne
fa l’osservatore: per questa ragione si parla di probabilità soggettive. A chi scrive sembra che
questo approccio sia il solo valido. Lo studente potrà conoscerlo nel libro di de Finetti Teoria
delle Probabilità, citato in bibliografia. La trattazione di questi appunti prescinderà, tuttavia
dall’interpretazione che si dà alla probabilità per adottare un’impostazione assiomatica,
quella formulata da Kolmogorov nel 1933, e alla quale si è fatto cenno sopra. In questa
formulazione, come del resto in tutte le formulazioni assiomatiche, si evitano le polemiche
riguardanti il significato delle probabilità.
Gli eventi saranno rappresentati da sottoinsiemi di un insieme non vuoto Ω(6= ∅). La
scelta dell’insieme Ω può non essere unica, e la teoria non dà regole per la costruzione dello
spazio Ω che si chiama solitamente spazio dei risultati o spazio dei campioni o, ancora,
spazio campionario. È bene che lo studente, nell’avvicinarsi per la prima volta al Calcolo
delle Probabilità, si abitui, in ogni esercizio, a scrivere esplicitamente che cosa sia l’insieme
Ω; con un po’ di pratica, non dovrebbe essere difficile costruirlo. Lo spazio Ω è, cosı́, parte del
modello che si costruisce per rappresentare un fenomeno. La condizione piú importante alla
quale deve ottemperare Ω è che contenga tutti i possibili risultati che ci possano attendere
dal fenomeno del quale si vuole costruire il modello.
Esempio 1.1.1. Se si lancia una moneta lo spazio dei risultati può essere rappresentato
come Ω = {C, T } con ovvio significato dei simboli. Rappresentazioni equivalenti sono Ω =
{0, 1} oppure Ω = {s, f } ove s indica, convenzionalemente, il “successo” e f il “fallimento”.
Le denominazioni di “successo” e “fallimento” sono convenzionali e possono essere scambiate
tra loro. Nella sua semplicità questo modello è fondamentale e riccore ogni qual volta
si sia interessati alla partizione dei risultati, che possono essere anche piú d’uno, in due
sottoinsiemi.
Se si ha il dubbio che la moneta possa rimanere in bilico sul bordo si può ampiare Ω e
prendere Ω = {C, T, B}; al piú si attribuirà probabilità nulla all’esito B.
Nel seguito parleremo senza fare distinzioni degli eventi o degli insiemi che li rappre-
sentano. Ad operazioni logiche sugli eventi corrispondono operazioni sugli insiemi che li
rappresentano: cosı́, dati gli eventi A e B (che, per una volta, si rappresenteranno con sim-
boli diversi da quelli usati per gli insiemi) ad essi si faranno corrispondere gli insiemi A e
B; all’evento A ∧ B (è questo l’evento “si realizzano tanto A quanto B”) si fa corrispondere
l’insieme A ∩ B. Analogamente, all’evento A ∨ B (=“si realizza uno almeno degli eventi A
o B”) si fa corrispondere l’insieme A ∪ B. All’opposto, ¬A, di un evento A corrisponde il
complementare Ac dell’insieme A. Altre corrispondenze tra operazioni logiche sugli eventi
e operazioni sugli insiemi che li rappresentano si vedranno nel seguito.
1.2. OPERAZIONI SUGLI INSIEMI 5
ove I è un’arbitraria famiglia di indici (in particolare, non si fa alcuna ipotesi sulla car-
dinalità di I); vale, inoltre, la relazione (Ac )c = A, che mostra come l’operazione di
complementazione sia involutoria.
È opportuno ricordare le relazioni, valide per ogni insieme A,
\ [ [ \
A ∅ = ∅, A ∅ = A, A Ω = Ω, A Ω = A.
A \ B := {ω ∈ Ω : ω ∈ A, ω ∈
/ B}.
Due insiemi A, B ⊂ Ω si dicono disgiunti se accade che essi non abbiano punti in comune,
A ∩ B = ∅; riferendosi ad eventi, si dice che essi si escludono mutuamente. Si osservi che le
relazioni \ [
A⊂B A B=B A B=B
sono equivalenti e si leggono “A è incluso in B” o “B include A” o, ancora “A implica B”;
in quest’ultima espressione si fa riferimento agli insiemi A e B come eventi. Si osservi che
il simbolo d’inclusione ⊂ è inteso in senso debole, vale a dire che scrivendo A ⊂ B, si lascia
la possibilità che i due insiemi A e B siano eguali, A = B. Non sarà mai usato in queste
lezioni il simbolo ⊆.
Valgono le relazioni:
\
A \ B = A Bc,
[ [
A = (A ∩ B) (A ∩ B c ) = (A ∩ B) (A \ B)
(si tratta di un’unione disgiunta),
[ [ [
A B=A (B \ A) = B (A \ B) (unioni disgiunte),
\ [
A ⊂ B ⇐⇒ A B = A ⇐⇒ A B = B.
essa corrisponde all’evento “si realizza esattamente uno tra i due eventi A e B”. Le proprietà
della differenza simmetrica, come pure i rapporti con le altre operazioni sugli insiemi, si
troveranno negli esercizı̂.
Si indicherà con P(Ω) la famiglia costituita da tutti i sottoinsiemi dell’insieme non vuoto
Ω, P(Ω) := {A ⊂ Ω}; essa si chiama famiglia delle parti di Ω o potenza di Ω.
Dato un insieme non vuoto Ω (Ω 6= ∅), per ogni sottoinsieme A di Ω si definisce la
funzione indicatrice di A, 1A : Ω → {0, 1} mediante
(
1, se ω ∈ A,
1A (ω) :=
0, se ω ∈/ A.
funzione caratteristica; quest’ultimo è però riservato, nel Calcolo delle Probabilità, ad una
diversa funzione che però non costituisce argomento di queste lezioni introduttive. Inoltre
si usano anche i simboli χA e |A|.
Si incontrano difficoltà a considerare come eventi tutti i sottoinsiemi di un insieme Ω.
Occorrerà restringere l’attenzione a particolari famiglie di sottoinsiemi. L’opportunità, intui-
tivamente necessaria, di considerare, accanto all’insieme A, anche il suo complementare Ac
e, oltre agli eventi A e B, anche la loro unione e la loro intersezione, giustifica l’introduzione
della seguente
Definizione 1.2.1. Dato un insieme non vuoto Ω, si chiama algebra di sottoinsiemi di Ω,
ogni famiglia A ⊂ P(Ω), non vuota, che sia stabile per la complementazione, per l’unione
finita e tale che l’insieme vuoto appartenga ad A; cioè:
(a) Ω ∈ A;
(b) A ∈ A =⇒ Ac ∈ A;
S
(c) A, B ∈ A =⇒ A B ∈ A.
∀ x, y ∈ E x∗y ∈E.
(a) Ω ∈ F;
(b) A ∈ F =⇒ Ac ∈ F;
S
(c) ∀ n ∈ N An ∈ F =⇒ n∈N An ∈ F.
Una tribú è dunque stabile rispetto all’operazione di unione numerabile. Usando le leggi
di de Morgan è immediato dimostrare il seguente
1.2. OPERAZIONI SUGLI INSIEMI 7
Si osservi che una tribú è anche un’algebra. Naturalmente, come si vedrà, non tutte le
algebre sono anche tribú.
La classe delle tribú di sottoinsiemi di un insieme non vuoto Ω è ordinata, parzialmente,
rispetto all’inclusione e contiene una piú piccola tribú, la tribú banale, N := {∅, Ω} ed
una piú grande tribú, che è la famiglia delle parti P(Ω), sicché, per ogni tribú F, si ha
N ⊂ F ⊂ P(Ω).
Sia A un sottoinsieme proprio e non vuoto di Ω, cioè A 6= ∅ e A 6= Ω; la famiglia
F(A) := {∅, A, Ac , Ω} è un’algebra; è anzi, una tribú, poiché ogni algebra finita è anche una
tribú, dato che ogni successione è necessariamente composta da un numero finito di insiemi
distinti, sicché ogni unione numerabile è, di fatto, un’unione finita; essa è la piú piccola tribú
che contenga A (e si dice generata da A). Infatti se G è una tribú che contiene A, risulta,
per definizione,
A ∈ G , Ac ∈ G , ∅ ∈ G , Ω ∈ G ,
onde F(A) ⊂ G. Si noti che se i sottoinsiemi A e B sono differenti, le tribú F(A) e F(B)
non sono paragonabili.
Il teorema seguente è di dimostrazione banale.
Teorema 1.2.3. La tribú di Borel B(R) è generata da una qualsiasi delle seguenti famiglie:
Dimostrazione. Sia B = B(R) e si indichi con B1 la tribú generata dalla famiglia indicata in
(a). Si osservi che anche gli intervalli aperti a sinistra e chiusi a destra, cioè del tipo ]a, b],
con a e b in R, appartengono a B. Infatti
\ 1
]a, b] = a, b + .
n
n∈N
Se F è la tribú generata dalla famiglia C, non si può, in generale, dare una descrizione
costruttiva degli elementi di F partendo dagli elementi di C.
Nel seguito si diranno misurabili (o, ove vi sia possibilità di confusione, F–misurabili )
gli insiemi appartenenti ad una prefissata tribú F. Si dirà spazio misurabile la coppia (Ω, F)
costituita da un insieme non vuoto Ω e da una tribú F di suoi sottoinsiemi.
Definizione 1.3.1. Dato uno spazio misurabile (Ω, F) — vale a dire un insieme non vuoto
Ω ed una tribú F di suoi sottoinsiemi — si dice (misura di) probabilità su (Ω, F) ogni
funzione P : F → R che soddisfaccia alle seguenti condizioni:
(P.2) P(Ω) = 1;
(P.3) per ogni successione (An )n∈N di insiemi misurabili disgiunti (An ∈ F, per ogni n ∈ N,
con Aj ∩ Ak = ∅ (j 6= k)), vale la proprietà di additività numerabile o σ–additività:
!
[ X
P An = P(An ) .
n∈N n∈N
Una terna (Ω, F, P) formata da uno spazio misurabile e da una misura di probabilità su
F si dice spazio di probabilità.
Diamo ora alcune conseguenze elementari della definizione appena data, avvertendo che
tutti gli insiemi che compaiono si intendono appartenere all’assegnata tribú F.
P(∅) = 0. (1.3.1)
1.3. PROBABILITÀ DISCRETE 9
l’ultima serie scritta è convergente ed ha i termini tutti eguali a P(∅); l’unica serie a termini
costanti che risulti convergente è quella con i termini tutti nulli; dunque P(∅) = 0, come
asserito.
Siano ora A e B due insiemi misurabili disgiunti (A ∩ B = ∅). Si consideri la successione
(An )n∈N cosı́ definita: A1 = A, A2 = B, An = ∅ per n ≥ 3. Per questa successione è
∪n∈N An = A ∪ B; la (P.3) e la (1.3.1) danno
[
P A B = P(A) + P(B) , (1.3.2)
proprietà che si dice di additività semplice. Si è quindi visto che l’additività semplice (1.3.2)
vale in ogni spazio di probabilità. Esistono esempı̂ nei quali vale la (1.3.2) senza che valga
la (P.3); quest’ultima è dunque una proprietà piú forte. Inoltre si vede facilmente per
induzione finita che la proprietà di additività semplice si estende ad un numero finito di
insiemi disgiunti: se A1 , . . . , An sono insiemi a due a due disgiunti, Aj ∩ Ak = ∅ per j 6= k,
allora
[n Xn
P Aj = P(Aj ) .
j=1 j=1
basta scrivere A ∪ B come un’unione disgiunta A ∪ B = A ∪ (B \ A); l’asserto segue ora dalla
(P.3) e dalla (1.3.3).
La (1.3.6) si esprime dicendo che le probabilità sono isotone (o crescenti) rispetto all’inclu-
sione.
∀A ∈ F 0 ≤ P(A) ≤ 1 . (1.3.7)
Per quest’ultima relazione basta osservare che ∅ ⊂ A ⊂ Ω ed usare la (1.3.6), la (1.3.1) e la
(P.2).
È notevole la diseguaglianza di Boole
[
P(A) + P(B) ≥ P A B . (1.3.8)
Questa è conseguenza della (1.3.5) e della (P.1). Per induzione la (1.3.8) si estende al caso
di un numero finito di insiemi.
n
! n
[ X
P Ai ≤ P(Ai ) . (1.3.9)
i=1 i=1
Vale per le probabilità il seguente risultato che si potrebbe chiamare “di passaggio al
limite lungo le successioni monotone di insiemi”.
Teorema 1.3.1. (a) Nello spazio di probabilità (Ω, F, P) sia (An ) una successione crescente
di insiemi di F, An ∈ F per ogni n ∈ N,
A1 ⊂ A2 ⊂ · · · ⊂ An ⊂ . . . ;
A1 ⊃ A2 ⊃ · · · ⊃ An ⊃ . . . ;
Dimostrazione. (a) Sia data una successione crescente (An ) di insiemi misurabili e si definis-
ca, a partire da questa, una nuova successione (Bn ) cosı́ definita
\
B1 := A1 , Bn := An \ An−1 = An Acn−1 , . . . .
il minimo indice j per il quale ω appartiene a Bj . È ora evidente che vale l’inclusione
n
[
An ⊂ Bj .
j=1
ove, per semplicità, si è posto N (A) := card(A). La (1.3.13) è, essenzialmente, la definizione
classica di probabilità dovuta a Laplace che abbiamo già incontrato. I problemi di proba-
bilità basati sulla (1.3.13), e ve ne sono molti ed importanti per le applicazioni, sono quindi di
fatto problemi di calcolo combinatorio. Riterremo noti gli elementi del calcolo combinatorio,
limitandoci a richiamarli nelle sezioni successive, quando necessario.
Nel seguito di questo capitolo tratteremo solo di probabilità discrete.
Ω = {(x1 , x2 ) : xi = 1, 2, . . . , n (i = 1, 2)}.
Con x1 e x2 si indicano i numeri delle palline estratte rispettivamente alla prima e alla
seconda estrazione. Poiché l’urna ha la medesima composizione nelle due estrazioni, risulta
N (Ω) = n2 ; e N (B1 ) = bn, N (B2 ) = nb, N (B1 ∩ B2 ) = b2 , sicché la (1.3.13) dà P(B1 ) =
b/n = P(B2 ) e P(B1 ∩B2 ) = b2 /n2 . Si osservi che, in questo caso, P(B1 ∩B2 ) = P(B1 ) P(B2 ).
Estrazione senza restituzione. In questo caso si può prendere come spazio dei risultati
l’insieme Ω1 = {(x1 , x2 ) : x1 6= x2 }. La condizione x1 6= x2 è imposta dall’ipotesi (“senza
restituzione”) che una pallina già estratta non possa essere estratta nuovamente. Si osservi
che lo spazio dei risultati appena introdotto, Ω1 è un sottoinsieme proprio dello spazio dei
risultati Ω usato per descrivere l’estrazione con restituzione di due palline. Se si indica
con Dn,k il numero delle disposizioni semplici di n oggetti a k a k, o ciò che è lo stesso, il
1.4. ALCUNI PROBLEMI D’URNA 13
b(b − 1) + (n − b)b b
P1 (B2 ) = = .
n(n − 1) n
Non deve sembrare paradossale che sia P1 (B1 ) = P1 (B2 ), cioè che la probabilità di estrarre
una pallina bianca sia la stessa per la seconda estrazione che per la prima. Ciò è dovuto al
fatto che nel calcolare la probabilità di B non si sa, perché non è detto, se la prima pallina
estratta sia bianca (evento B1 ∩ B2 ) oppure colorata (evento B1c ∩ B2 ). La probabilità di
B2 avrebbe un valore diverso da quello trovato se si conoscesse il colore della prima pallina
estratta; si vedrà nel seguito, nello studiare le probabilità condizionate, come calcolare questo
nuovo valore. Si ha qui conferma dell’affermazione che la probabilità non è una proprietà
intrinseca degli eventi ma dipende dall’informazione che si possiede circa l’evento stesso.
Infine P1 (B1 ∩ B2 ) = b(b − 1)/(n(n − 1)). Al contrario dell’estrazione con restituzione,
è ora P1 (B1 ∩ B2 ) 6= P1 (B1 ) P1 (B2 ).
Esempio 1.4.2. (Ripetizioni in un’estrazione con restituzione). Si estraggono con resti-
tuzione k palline da un’urna che ne contiene n, numerate da 1 a n. Qual è la probabilità
che non si estraggano palline con lo stesso numero?
Evidentemente,
Ωk = {(x1 , x2 , . . . , xk ) : xi = 1, 2, . . . , n, (i = 1, 2, . . . , k)}
Ak := {(x1 , x2 , . . . , xn ) : xi 6= xj (i 6= j)} .
Si può anche calcolare la probabilità di avere almeno una ripetizione, cioè che almeno due
delle palline estratte portino lo stesso numero: è P(Ack ) = 1 − P(Ak ).
Questo esempio è anche la formalizzazione del celebre problema dei compleanni, in-
trodotto da von Mises: Se in una stanza sono presenti k persone, qual è la probabilità che
almeno due tra i presenti abbiano il compleanno nello stesso giorno? Per rispondere a ques-
ta domanda si costruisce un modello nel quale i compleanni possibili sono 365, trascurando
cosı́ la possibilità che un compleanno possa cadere il 29 febbraio; si eliminano cioè gli anni
bisestili. Allora si ha n = 365. Con semplici calcoli si vede anche che il minimo numero k
di presenti per il quale, nella notazione di sopra è P(Ak ) > 1/2 è dato da k = 23:
Il fatto che tale numero sia molto minore del numero 365 dei possibili compleanni fa spesso
parlare del paradosso dei compleanni.
coincidenza nell’i–esima urna se in questa si è posta la pallina che porta lo stesso numero.
In seguito si calcolerà la probabilità di avere k coincidenze (si veda la sezione 1.11); per ora,
si può rispondere alla domanda piú semplice: qual è la probabilità dell’evento A che si abbia
una coincidenza nella i–esima urna?
Se xj designa il numero della pallina che è stata posta nella j–esima urna, si pone
Ω = {(x1 , x2 , . . . , xn ) : xi = 1, 2, . . . , xn (xi 6= xj ) (i 6= j)}.
Allora,
Ai = {(x1 , . . . , xi−1 , i, xi+1 , . . . , xn ) ∈ Ω}
sicché N (Ω) = n! e N (Ai ) = (n − 1)!. Perciò P(Ai ) = 1/n. Si osservi che P(Ai ) non dipende
da i.
Esempio 1.4.4. Si estraggono, con o senza restituzione, n palline da un’urna che ne contiene
b bianche e c colorate. Se l’estrazione avviene senza restituzione, si dovranno imporre l’ovvia
condizioni n ≤ b + c. Per k = 0, 1, . . . , n, qual è la probabilità di estrarre esattamente k
palline bianche?
Se Ak è l’evento del quale si vuole calcolare la probabilità, risulta
c n−k
n b c
P(Ak ) = (estrazione con restituzione). (1.4.1)
k (b + c)n
n Db,k Dc,n−k
P1 (Ak ) = (estrazione senza restituzione) (1.4.2)
k Db+c,n
Basterà stabilire una sola delle ultime due eguaglianze, per esempio la seconda, perché l’altra
si ottiene da questa con lo stesso procedimento, a meno di ovvie modifiche. Al solito si può
supporre che le palline siano numerate da 1 a b + c e che le prime b siano bianche. Nel caso
dell’estrazione senza restituzione sarà, ovviamente k ≤ b.
Nel caso dell’estrazione con restituzione, lo spazio dei risultati si può rappresentare
mediante Ω = {(x1 , x2 , . . . , xn )}, ove xi è il numero della i–esima pallina estratta. Se
l’estrazione avviene senza restituzione, allora si può prendere come spazio dei risultati
Ω1 = {(x1 , x2 , . . . , xn ) : xi 6= xj (i 6= j)};
N (Ω1 ) = Db+c,n . L’evento Ak è costituito dalle n–ple (x1 , x2 , . . . , xn ) di Ω1 con k compo-
nenti comprese tra 1 e b; per calcolare la probabilità di Ak si può procedere come segue. Sia
J = {j1 , j2 , . . . , jk } ⊂ {1, 2, . . . , n} un sottoinsieme di k numeri estratti da {1, 2, . . . , n} e sia
BJ l’evento “si estrae una pallina bianca in tutte le estrazioni che hanno il numero d’ordine
compreso in J e solo in quelle”. Evidentemente, è BJ ⊂ Ak , quale che sia J e Ak = ∪J BJ ;
quest’ultima è un’unione disgiunta eseguita sopra tutti gli nj sottoinsiemi J di k numeri
cioè la (1.4.2).
Nell’estrazione con restituzione si ha N (BJ ) = bk cn−k .
La (1.4.2) si può porre, con facili calcoli, nella forma piú intuitiva
b c
k n−k
P1 (Ak ) = , (j = 0, 1, . . . , n)
b+c
n
1.4. ALCUNI PROBLEMI D’URNA 15
Esempio 1.4.5. (Campioni non ordinati o estrazione in blocco). Si può pensare di estrarre
n palline da un’urna che ne contiene N , anziché una alla volta, in modo che si possa parlare
di prima, seconda pallina estratta e cosı́ via, tutte insieme, o, come si suol dire, in blocco.
Il risultato di una tale estrazione, che si può pensare anche ottenuta estraendo le palline ad
una ad una, senza tuttavia registrare in quale ordine le palline siano state estratte, sarà rap-
presentato da n–ple (x1 , . . . , xn ) con xi = 1, . . . , N , n–ple che si possono pensare ordinate in
guisa che risulti x1 ≤ x2 ≤ · · · ≤ xn (tale ordinamento è solo opportuno, ma non necessario;
altri sono possibili); la condizione xi 6= xj se i 6= j sarà, o no, richiesta, secondo che si tratti
di un’estrazione senza o con restituzione.
Nell’estrazione senza restituzione, è N (Ω) = N
n che è, com’è noto, il numero delle
combinazioni semplici di N oggetti a n a n. Se, invece, l’estrazione è con restituzione, è
N +n−1
N (Ω) = .
n
si vuole dimostrare che il risultato è valido anche per n + 1. Ordinate le (n + 1)–ple nel
modo indicato sopra, si osservi che vi sono V (N, n) (n + 1)–ple con il primo numero eguale
a 1, ve ne sono V (N − 1, n) con il primo numero eguale a 2 e cosı́ via. Vi saranno, infine,
V (1, n) (n + 1)–ple con la prima componente eguale a N . Pertanto
N
X
V (N, n + 1) = V (N, n) + V (N − 1, n) + · · · + V (1, n) = V (i, n) ;
i=1
ma
k+n−1 k+n k+n−1
V (k, n) = = − ,
n n+1 n+1
sicché
N +n N +n−1 N −1+n
V (N, n + 1) = − +
n+1 n+1 n+1
N +n−2 n+1 n N +n
− + ··· − + = ,
n+1 n+1 n n+1
b c
j sicché P1 (Aj ) è data ancora dalla (1.4.2), mentre nell’estrazione con restituzione,
n−j
è
b+j−1 c+n−j−1
j n−j
P2 (Aj ) = ,
N +n−1
n
che invece non coincide con la (1.4.1).
Esempio 1.4.6. (Alcune distribuzioni della Meccanica Statistica). Siano date N urne
numerate da 1 a N , nelle quali si collocano n palline (n < N ). Si domanda, nei varı̂ casi
possibili, quale sia la probabilità dell’evento A che ognuna delle urne numerate da 1 a n
contenga esattamente una pallina.
La risposta dipende dalle ipotesi su due aspetti:
(a) l’essere, o no, le palline distinguibili (ricordiamo che in Meccanica classica le particelle
sono distinguibili, mentre non lo sono in Meccanica quantistica);
(b) porre, o no, limitazioni al numero di palline che ciascuna urna può contenere (in
Meccanica quantistica esistono particelle, i cosiddetti fermioni , per i quali non esiste
la possibilità che uno stato ne contenga piú di una, mentre tale limitazione non sussiste
per le particelle che sono chiamate bosoni ).
Se le palline sono distinguibili, si possono, senz’altro, pensare numerate da 1 a n; il risultato
dell’esperimento consistente nel porre le palline nelle urne può essere rappresentato mediante
n–ple (x1 , . . . , xn ), nelle quali xi designa il numero dell’urna nella quale è stata posta l’i–
esima pallina. Se, invece, le palline sono indistinguibili, si può ricorrere agli insiemi di
n elementi {y1 , y2 , . . . , yn }, gli elementi dei quali indicano i numeri delle urne nelle quali
sono state poste le palline. In quest’ultimo caso vi possono essere ripetizioni, se piú di una
pallina è stata posta nella stessa urna. Supponiamo, poi, che si possa imporre una regola di
esclusione che vieti di porre piú di una pallina per urna (il principio di esclusione di Pauli,
valido, appunto, per i fermioni). Imponendo tale regola, in ciascuno dei due casi appena
esaminati, si avrà la condizione xi 6= xj oppure yi 6= yj se i 6= j. Ora, N (Ω) è dato, nei
quattro casi possibili, dai valori che seguono.
Se non vale il principio d’esclusione, si ha
n
N , palline distinguibili,
N (Ω) = N +n−1
, palline indistinguibili.
n
Si hanno, cosı́, rispettivamente le statistiche di Maxwell–Boltzmann e di Bose–Einstein.
Se vale invece il principio d’esclusione, si ha
D N,n, palline distinguibili,
N (Ω) = N
, palline indistinguibili.
n
Quest’ulima corisponde alla statistica di Fermi–Dirac. Tanto in presenza quanto in assenza
della regola di esclusione, risulta
N (A) = n!,
se le palline sono distinguibili; si ha, perciò,
N
P(A) = n!/DN,n = 1/ e P(A) = n!/N n ,
n
rispettivamente. Se, invece, le palline
sono indistinguibili, è N (A) = 1 in entrambi i casi,
onde, rispettivamente, P(A) = 1/ N n e P(A) = 1/
N +n−1
n . Si osservi che, imponendo la
regola di esclusione, P(A) ha lo stesso valore sia che le palline siano distinguibili sia che esse
siano indistinguibili.
1.5. PROBABILITÀ CONDIZIONATA E INDIPENDENZA 17
Esempio 1.5.1. Si torni all’esempio 1.4.1, nel caso dell’estrazione senza restituzione. Se si
sa che la prima pallina estratta è bianca (e quindi in questo caso, A = B1 ), la probabilità
che la seconda pallina estratta sia pure bianca, è (b − 1)/(n − 1) anziché b/n.
Definizione 1.5.1. Sia P una probabilità definita sugli insiemi di una tribú F di un insieme
Ω e sia A ∈ F un insieme tale che P(A) > 0; si dice probabilità condizionata (o subordinata
o condizionale) da A la funzione
P(· | A) : F → [0, 1]
definita da T
P (A B)
P(B | A) := . (1.5.1)
P(A)
Proposizione 1.5.1. Una probabilità condizionata P(· | A) è una probabilità tale che
P(A | A) = P(Ω | A) = 1.
Proposizione 1.5.2. Se A1 , . . . , An sono tali che P (∩ni=1 Ai ) > 0, vale la formula delle
probabilità composte:
n
!
\ \
Ai = P(A1 ) P(A2 | A1 ) P A3 A1 A2 × . . .
P
i=1
\ \
× P An A1 ··· An−1 . (1.5.2)
tutte le probabilità condizionate che compaiono nella (1.5.2) sono ben definite.
Si dice che una famiglia {An }, finita o numerabile, di eventi è un sistema di costituenti
se sono verificate le due condizioni:
(a) P(An ) > 0 per ogni indice n;
(b) An è una partizione misurabile di Ω, vale a dire che An ∈ F per ogni indice n, che
Ω = ∪n An e che gli insiemi An sono a due a due disgiunti (Ai ∩ Aj = ∅ se i 6= j).
18 CAPITOLO 1. PROBABILITÀ DISCRETE
Teorema 1.5.1. (di Bayes). Nelle ipotesi della proposizione 1.5.3, se P(B) > 0, vale
P(B | Ai ) P(Ai )
P(Ai | B) = P . (1.5.4)
n P(B | An ) P(An )
Il teorema di Bayes è solitamente usato per calcolare la probabilità delle cause; se è noto
che piú cause, A1 , . . . , An , . . . , possono provocare lo stesso effetto B e se sono note tanto le
probabilità P(An ) delle cause (probabilità che sono dette a priori ) quanto le probabilità con-
dizionate P(B | An ) (che sono dette probative) la (1.5.4) consente di calcolare la probabilità
delle cause avendo osservato l’effetto B.
Il concetto di indipendenza è fondamentale nel Calcolo delle Probabilità. Siano A e
B eventi e sia P(B) ∈ ]0, 1[, sicché restano definite entrambe le probabilità condizionate
α := P(A | B) e β := P(A | B c ). Se α > β l’evento A ha maggior probabilità di manifestarsi
se si realizza B piuttosto che il suo complementare B c ; il realizzarsi di B “favorisce” il
realizzarsi di A. Il contrario accade se α < β. Se si presume che il realizzarsi di A non
dipenda da quello di B, occorre richiedere che sia α = β. In tal caso si ha:
cioè P(A) = P (A | B), onde P(A ∩ B) = P(A) P(B). Quanto precede giustifica la seguente
Teorema 1.5.2. Due eventi A e B sono indipendenti se, e solo se, tali sono le tribú F(A)
e F(B) che essi generano.
\ [ c [
P Ac Bc = P A B =1−P A B
\
= 1 − P(A) − P(B) + P A B
= 1 − P(A) − P(B) + P(A) P(B)
= (1 − P(A)) (1 − P(B)) = P(Ac )P(B c ) ;
\
P A Ω = P(A) = P(A) · 1 = P(A) P (Ω) ;
\
P A ∅ = 0 = P(A) P(∅) ,
(b) per ogni numero naturale k ≤ n e per ogni scelta di k numeri i1 , . . . , ik in {1, . . . , n}
si ha
\k Yk
P Ai j = P(Aij ).
j=1 j=1
20 CAPITOLO 1. PROBABILITÀ DISCRETE
Dimostrazione. L’implicazione (a) ⇒ (b) è ovvia perché nella (1.5.6) basta prendere As = Ω
se s 6= ij (j = 1, . . . , k).
(b) ⇒ (a) Si ha, ad esempio,
n−1
!
\ \ \ Y
c
P A1 ··· An−1 An = P(Ai ) P(Acn )
i=1
perché \ \
\ \ \ \
n−1
A1 A2 ... An−1 Acn = i=1 Ai \ n
i=1 Ai
sicché
h \ \ i \ \
n−1 n−1
P i=1 Ai Acn = P i=1 A i − P n
i=1 Ai
(n−1 )
Y
= P(Ai ) P(Acn ) .
i=1
Definizione 1.6.1. Dato uno spazio misurabile (Ω, F) si chiama variabile aleatoria discreta
ogni funzione X definita in Ω che assuma un numero finito o un’infinità numerabile di valori
{xn } e tale che, per ogni valore xn , il sottoinsieme di Ω nel quale X assume il valore xn ,
{X = xn } = X −1 ({xn }) sia misurabile, appartenga cioè alla tribú F.
1.6. VARIABILI ALETORIE DISCRETE 21
Se poi Ω è esso stesso finito o numerabile una variabile aleatoria discreta sarà una
qualsiasi funzione a valori in R definita in Ω. Una variabile aleatoria è dunque, in realtà,
una funzione. Si scriverà spesso v.a.. è tradizionale indicare le v.a. mediante le ultime lettere
maiuscole dell’alfabeto.
Dalle proprietà di una tribú si vede poi che sono misurabili, per ogni indice n, anche gli
insiemi {X ≤ xn }, {X > xn }, {X 6= xn }.
Se è assegnata una probabilità P su Ω, un problema tipico del Calcolo delle Probabilità
(anzi il problema tipico) è di rispondere alla domanda: Qual è la probabilità che una v.a.
X assuma valori nell’insieme A? Si vedrà che, nel caso generale, si richiederà all’insieme
A di essere boreliano. Si tratta quindi di calcolare la probabilità dell’insieme, contenuto
in Ω, X −1 (A). A questo proposito occorre avvertire che si usa in maniera sistematica la
notazione piú espressiva {X ∈ A} invece di X −1 (A); analogamente si scrive, per esempio,
{a < X < b} o {X = x} in luogo di X −1 (]a, b[) o di X −1 ({x}), rispettivamente.
Dato uno spazio di probabilità (Ω, F, P) si parlerà di v.a. discreta, anche quando Ω non
sia finito o numerabile, se la funzione X : Ω → R assume un numero finito o un’infinità
numerabile di valori distinti, purché, per ognuno di tali valori xn appartenga a F l’insieme
{X = xn } = X −1 ({xn }). Si può rappresentare una v.a. discreta X nella forma
X
X= xi 1Ai ,
i
ove gli xi sono i valori che essa assume e Ai è l’insieme di Ω nel quale X assume il valore
xi . Gli insiemi Ai costituiscono una partizione (misurabile) di Ω. Spesso, nell’assegnare
una v.a., si fa riferimento ai valori che essa assume e alle probabilità con le quali li assume,
tacendo lo spazio Ω sul quale è definita.
I tre esempı̂ che seguono sono fondamentali.
Esempio 1.6.1. (v.a. di Bernoulli), Si consideri la v.a. che assume i valori 1 e 0 con
probabilità p e q := 1 − p, rispettivamente; è ovvio che p ∈ [0, 1]. X descrive i risultati del
lancio di una moneta, ponendo X(T ) = 1 e X(C) = 0.
Le v.a. bernoulliane si incontrano tutte le volte che si è interessati al realizzarsi di
un evento E. È in tal caso naturale considerare la partizione di Ω data da E e dal suo
complementare E c ; quindi X = 1E con p = P(E) e q = P(E c ). La coppia (p, 1 − p) = (p, q)
si dice legge o distribuzione di Bernoulli.
Esempio 1.6.2. (v.a. binomiale). Si considerino n prove indipendenti, ciascuna delle quali
abbia due soli risultati possibili; questi sono denominati, per convenzione, successo s e
fallimento f , oppure 1 e 0 (il successo può essere il risultato testa nel lancio di una moneta,
l’estrazione di una pallina bianca da un’urna che ne contiene di diversi colori, l’uscita di un
certo numero nel gioco della roulette,...). In generale, sia P(s) = p e P(f ) = q(= 1 − p) e
sia Sn la v.a. che conta il numero dei successi in n prove. Nella stessa maniera dell’esempio
1.4.4, si mostra che
n j n−j
P(Sn = j) = b(j; n, p) := p q (j = 0, 1, . . . , n).
j
Una v.a. binomiale è legata alle v.a. Xi (i = P 1, 2, . . . , n), ove Xi si riferisce al risultato
n
della i–esima prova, mediante la relazione Sn = i=1 Xi . Si noti che ciascuna delle v.a. Xi
è una v.a. di Bernoulli. Se una v.a. X è binomiale con parametri n ∈ N e p ∈ [0, 1], si scrive
X ∼ Bi(n, p) e si dice che X ha legge o distribuzione binomiale.
Esempio 1.6.3. (v.a. di Poisson). Una v.a. X di Poisson dipende da un parametro λ > 0
e assume i valori 0, 1, . . . , n, . . . con probabilità
λn
P(X = n) := e−λ (n ∈ Z+ ).
n!
Se X è una v.a. di Poisson di parametro λ, si scrive X ∼ P(λ) e si dice che X ha legge o
distribuzione di Poisson.
22 CAPITOLO 1. PROBABILITÀ DISCRETE
Definizione 1.6.2. Nello spazio di probabilità (Ω, F, P), sia X una v.a. discreta; se converge
la serie X
|xn | P(X = xn ), (1.6.1)
n
Qualche volta si attribuisce significato alla speranza di una v.a. discreta, anche quando
la serie (1.6.1) non sia convergente, ma la v.a. sia positiva X ≥ 0 o negativa X ≤ 0; in tal
caso si ha E(X) = +∞ oppure E(X) = −∞.
Se X è la funzione indicatrice di un insieme A, X = 1A , essa è, ovviamente, una v.a.
bernoulliana, poiché assume solo i valori 1 e 0, con probabilità date rispettivamente da P(A)
e P(Ac ); per la sua speranza si ha
E (1A ) = P(A) .
Se invece X è costante, X = c, si ha
E(c) = c .
Se f : R → R è una funzione, si ha
X
f ◦X = f (xi ) 1Ai
i
e X X
E (f ◦ X) = f (xi ) P(Ai ) = f (xi ) P(X = xi ) ,
i i
Poiché segue immediatamente dalla definizione che se la v.a. discreta X ha speranza finita
e se α è un numero reale anche la v.a. α X ha speranza finita e vale
E(α X) = α E(X) ,
si può dire che le speranze delle v.a. discrete sono lineari, anche se non abbiamo ancora
specificato l’insieme nel quale le speranze sono definite.
Segue immediatamente dalla definizione di speranza che, se X è una v.a. positiva, vale
a dire, se xn ≥ 0 per ogni indice n, allora anche la speranza di X è positiva, E(X) ≥ 0.
Si osservi che se X e Y sono v.a. discrete con X ≥ Y , ed entrambe con speranza finita,
si ha anche E(X) ≥ E(Y ), proprietà che si dice di isotonı́a delle speranze. Basta infatti
notare che la v.a. discreta X − Y è positiva; dunque
s’intende che, se X assume un’infinità numerabile di valori, occorre verificare che le serie in
esame convergano assolutamente, prima di affermare che esistono i rispettivi momenti.
Siano ora X e Y due v.a. discrete; ponendo Ai := {X = xi } e Bj := {Y = yj }, esse si
possono scrivere nella forma
X X
X= xi 1Ai e Y = yj 1Bj ,
i j
Per il seguito è importante sottolineare che, date due v.a. X e Y sul medesimo spazio di
probabilità (Ω, F, P), le probabilità
pij := P (X = xi , Y = yj )
definiscono al variare degli indici i e j la legge congiunta delle v.a. X e Y . Questa contiene
l’informazione completa sulle due v.a. considerate nelle loro individualità; infatti le leggi di
X e di Y , che si dicono marginali si ricavano facilmente dalla legge congiunta {pij }:
X
pi := P(Ai ) = P(X = xi ) = pij
j
X
qj := P(Bj ) = P(Y = yj ) = pij .
i
Si noti che, in genere, se sono note le leggi marginali {pi } di X e {qj } di Y non è possibile
ricostruire la legge congiunta {pij }.
Vogliamo dimostrare due proprietà importanti dei momenti.
Teorema 1.6.1. (a) Sia s un reale positivo, s > 1. Se la v.a. X ha finito il momento di
ordine s, E(|X|s ) < +∞, allora, per ogni r ∈ [1, s], esiste finito il momento di ordine r,
E(|X|r ) < +∞.
(b) Se due v.a. X e Y hanno entrambe finito il momento di ordine s, con s ≥ 1, allora
è finito anche il momento di ordine s della v.a. X + Y , vale a dire E (|X + Y |s ) < +∞ se
E(|X|s ) < +∞ e E(|Y |s ) < +∞.
Dim. (a) Occorre dimostrare che è convergente la serie
X r
|xn | pn ,
n
r
ove si è posto pn := P(X = xn ). Ora se |xn | ≤ 1 si ha |xn | ≤ 1, mentre, se |xn | > 1, allora
r s
|xn | ≤ |xn | . Pertanto
X r
X s
X X s
|xn | pn ≤ (1 + |xn | ) pn = pn + |xn | pn
n n n n
= 1 + E (|X|s ) < +∞ ,
24 CAPITOLO 1. PROBABILITÀ DISCRETE
n
X n j n−j
E [X(X − 1)] = j(j − 1) p q
j=0
j
n
X (n − 2)!
= n(n − 1)p2 pj−2 q n−j
j=2
(j − 2)!(n − j)!
n−2
X
2 n − 2 k n−2−k
= n(n − 1)p p q = n(n − 1)p2 ,
k
k=0
Di qui si ottiene
X X X
E(Y ) = yj P(Bj ) = yj P (Bj ∩ {X = xn })
j j n∈S
XX
= yj P (Bj ∩ {X = xn })
n∈S j
X X X
= P(X = xn ) yj Qn (Bj ) = P(X = xn ) En (Y ) .
n∈S j n∈S
ciò che mostra che il prodotto ha, anch’esso, speranza finita; questa è ora data dallo stesso
calcolo nel quale sono state eliminati i segni di valore assoluto:
X
E(XY ) = E(Z) = zn P(Z = zn )
n
X X
= zn P(X = xr ) P(Y = ys )
n r,s:xr ys =zn
X
= xr ys P(X = xr ) P(Y = ys )
r,s
! !
X X
= xr P(X = xr ) |ys | P(Y = ys ) = E(X) E(Y ) ,
r s
Corollario 1.7.1. Siano X una v.a. discreta, c un numero reale, ε > 0 e n ∈ N. Allora
E (|X − c|n )
P (|X − c| ≥ ε) ≤ . (1.7.1)
εn
Se la v.a. X ammette speranza e varianza finite si ha, per ogni numero reale k > 0,
p 1
P |X − E(X)| ≥ k V (X) ≤ 2 (1.7.2)
k
come subito si vede ponendo c = E(X) e ε = V (X) nella (1.7.1). La (1.7.2) è nota con il
nome di diseguaglianza di Čebyšev e consente di interpretare la varianza come misura della
dispersione dei valori assunti dalla v.a. X attorno alla sua speranza E(X). La diseguaglianza
di Čebyšev si può scrivere in una delle forme equivalenti
V (X)
P (|X − E(X)| ≥ ε) ≤ , (1.7.3)
ε2
oppure
V (X)
P (|X − E(X)| < ε) ≥ 1 − .
ε2
Usando la diseguaglianza di Čebyšev, si può dimostrare il seguente celebre risultato, che è
anche il primo esempio di Legge dei Grandi Numeri (LGN).
p(1 − p) 1
P (|Tn − p| ≥ ε) ≤ ≤
nε2 4nε2
per ogni p ∈ [0, 1] e per ogni ε > 0.
Teorema 1.7.3. Ogni funzione f continua nell’intervallo chiuso e limitato [a, b], f ∈
C[a, b], è il limite uniforme di una successione di polinomı̂.
Poiché f è limitata, esiste una costante C > 0 tale che |f (x)| ≤ C per ogni x ∈ [0, 1]; e
poiché f è uniformemente continua, fissato ε > 0, esiste δ > 0 tale che |x − x0 | < δ implichi
|f (x) − f (x0 )| < ε. Perciò, se Sn ha lo stesso significato che nel teorema precedente, si ha
Sn
|f (x) − pn (x)| = E f (x) − f
n
X n
≤ |f (x) − f (k/n)| b(k; n, p)
k=0
X X
≤ |. . . | + |f (x) − f (k/n)| b(k; n, p) .
|k−nx|<nδ |k−nx|≥nδ
Pn
La prima delle due somme è limitata da ε k=0 b(k; n, p) = ε. Per la seconda risulta, in
virtú della diseguaglianza di Čebyšev,
X
|f (x) − f (k/n)| b(k; n, p)
|k−nx|≥nδ
X
≤ 2C b(k; n, p) = 2 C P (|Sn − E(Sn )| ≥ nδ)
|k−nx|≥nδ
V (Sn ) 2 C x(1 − x) C
≤ 2C = ≤ .
n2 δ 2 nδ 2 2nδ 2
Perciò, pur di prendere n > C/(δ 2 ε), si ha
ε C ε ε
|f (x) − pn (x)| ≤ + < + = ε,
2 2nδ 2 2 2
che conclude la dimostrazione.
λk
lim b(k; n, pn ) = e−λ (k ∈ Z+ ) .
n→+∞ k!
1.8. ALCUNE DISTRIBUZIONI DI PROBABILITÀ DISCRETE 29
Dimostrazione.
k n−k
n λ λ
b(k; n, pn ) = 1−
k n n
k
n−k k
λ λ n(n − 1) . . . (n − k + 1) −λ λ
= 1− → e ,
k! n nk k!
Esempio 1.8.1. (La distribuzione geometrica). Si consideri una sequenza, a priori infinita,
di prove bernoulliane indipendenti, tutte con probabilità di successo eguale a p. Ci si
domanda quanto “tempo” occorra aspettare perché si abbia il primo successo; l’espressione
“tempo” equivale a “numero di prove”, ma è piú intuitiva. Si consideri la v.a. discreta T1 :=
“tempo al quale si ha il primo successo”, definita sull’insieme Ω = {0, 1}N , cioè l’insieme
delle successioni costituite di 0 e di 1. È noto che tale insieme ha la cardinalità del continuo
sicché, a rigore, tale esempio esce dalla schema che abbiamo costruito sin qui. Tuttavia, non
sarà difficile nel seguito rendere preciso quanto abbiamo appena detto. Facendo riferimento
alle v.a. indipendenti {Xn } con P(Xn = 1) = p e P(Xn = 0) = q per ogni naturale n, si
ottiene \ \
n−1
{T1 = n} = j=1 {X j = 0} {Xn = 1},
sicché P(T1 = n) = p q n−1 . Si chiama distribuzione geometrica quella i cui termini sono dati
da pn = p q n−1 (n ∈ N) con p ∈ ]0, 1[. Si controlla subito che
∞
X X 1
pn = p (1 − p)n−1 = p = 1.
n=1
1 − (1 − p)
n∈N
Poiché è facile controllare che E(T1 ) esiste finita, si può calcolare in modo indiretto come
segue,
∞
X ∞
X
E(T1 ) = p n q n−1 = (k + 1)q k
n=1 k=0
X∞ ∞
X
=p kq k + p qk
k=0 k=0
∞
X
= 1 + pq kq k−1 = 1 + q E(T1 ) ,
k=0
sicché E(T1 ) è soluzione dell’equazione E(T1 ) = 1 + q E(T1 ); perciò E(X) = 1/p. È questa
la risposta alla domanda iniziale: in media occorre aspettare un tempo 1/p prima di avere
un successo.
Questo risultato risolve il cosiddetto paradosso di Borel, che consiste in questo. Si osservi
che, in una serie di prove bernoulliane indipendenti con probabilità non nulla p > 0, è
certo che prima, o poi, si realizzerà un successo. Infatti, la probabilità che in n prove
non si realizzi alcun successo è data da q n , che, al tendere di n all’infinito, tende a 0.
Il paradosso di Borel consiste nel fatto che, pur di aspettare abbastanza a lungo, anche
un evento con probabilità piccola si realizzerà; per esempio, una scimmia che estraesse,
con restituzione, lettere da un sacchetto che contiene tutte le lettere dell’alfabeto italiano,
minuscole e maiuscole, la punteggiatura, lo spazio tra una parola e la successiva (dunque in
tutto 50 simboli), prima o poi estrarrà in successione il primo verso della Divina Commedia.
Tuttavia, perché ciò accada, occorre attendere un tempo eguale al reciproco della probabilità
dell’evento in questione. Nell’esempio appena dato, se si suppone che la scimmia estragga
30 CAPITOLO 1. PROBABILITÀ DISCRETE
una lettera al secondo, occorre aspettare in media 5035 secondi prima che la scimmia estragga
in successione le lettere che compongono il primo verso. Ora 5035 > 1035×1.69 > 1059 e,
poiché un anno contiene meno di 109 secondi, occorrerà aspettare, in media, piú di 1050
anni prima di veder comparire
sicché
1 2q 1+q 2−p
E(T12 ) = +1 = 2
=
p p p p2
2−p 1 q
V (T1 ) = − 2 = 2.
p2 p p
e dunque
P (T1 > n + j) q n+j
P (T1 > n + j | T1 > n) = = n = qj .
P (T1 > n) q
0, 1/N, 2/N, . . . , 1 ,
pk è, come si è già visto, la probabilità di estrarre k palline bianche in un’estrazione senza
restituzione di n palline da un’urna che ne contiene N p bianche.
1.8. ALCUNE DISTRIBUZIONI DI PROBABILITÀ DISCRETE 31
Esempio 1.8.3. (La distribuzione binomiale negativa). Se si domanda quanti siano i fal-
limenti Fk che, in una serie di prove bernoulliane indipendenti, si hanno prima di avere k
successi si ottiene per n = 0, 1, . . .
k+n−1 k n −k k
pn := P(Fk = n) = p q = p (−q)n , (1.8.1)
n n
Si dice binomiale negativa la distribuzione i cui termini sono dati dalla (1.8.1).
Alla legge binomiale negativa è legata la legge di Pascal ; questa è la legge della v.a.
Tk (=istante del k–esimo successo in un processo di Bernoulli). La v.a. Tk è discreta a
valori nell’insieme {n ∈ N : n ≥ k} ∪ {+∞} ed è quasi certamente finita, vale a dire
P(T = +∞) = 0. Si osservi che Tk = Fk + k. Perciò, per n ≥ k,
n − 1 k n−k n − 1 k n−k
P(Tk = n) = P(Fk = n − k) = p q = p q .
n−k k−1
Esempio 1.8.4. Si consideri una variabile X che assume come valori i numeri naturali e
sia, per n ∈ N,
k
P(X = n) = s (s > 1) . (1.8.2)
n
Com’è noto la serie
X 1
ns
n∈N
È questa la funzione zeta di Riemann ben nota in teoria dei numeri. Si determina cosı́ il
valore della costante k nell’eq. (1.8.2), sicché la legge della v.a. X è
1 1
P(X = n) = .
ζ(s) ns
Siano ora j e k due numeri primi tra loro, (j, k) = 1 (qui (a, b) indica il massimo comun
divisore dei numeri naturali a e b). L’evento Dj ∩ Dk indica l’insieme dei numeri naturali
che sono divisibili al contempo per j e per k:
\ [
Dj Dk = {X = njk} ,
n∈N
di qui si ricava
\ 1 is is 1
P Dj Dk = s s s
= s s 2s
= s s
6= s s = P(Dj ) P(Dk ) .
h m i h m i j k j k
Gli eventi Dj e Dk sono quindi indipendenti se, e solo se, j e k sono primi tra loro.
Si consideri infine l’insieme P dei numeri primi. La successione
(Dp )p∈P
è costituita da eventi indipendenti. Infatti, se si indica con pj il j–esimo numero primo, per
ogni n ∈ N, l’insieme
\n
Dpj
j=1
è costituito da tutti i punti nei quali X assume un valore divisibile per il prodotto p1 . . . pn ,
sicché
\n [
Dpj = {X = k p1 . . . pn } .
j=1 k∈N
Di qui
n n
\ 1 Y
P D pj = = P Dpj ,
j=1
ps1 ps2 . . . psn j=1
onde l’asserto.
I punti dell’intersezione \
Dpc
p∈P
sono quelli nei quali la v.a. X non è divisibile per alcun numero primo, vale a dire i punti nei
quali X assume il valore 1, l’unico numero naturale non divisibile per alcun numero primo;
dunque \
{X = 1} = Dpc .
p∈P
In virtú dell’indipendenza degli insiemi della successione (Dp )p∈P , si può calcolare
1 Y 1
= P(X = 1) = 1− s , (1.8.3)
ζ(s) p
p∈P
1.9. PROBABILITÀ DI UN ASSEGNATO NUMERO DI EVENTI 33
o, equivalentemente
Y −1
1
ζ(s) = 1− ,
ps
p∈P
A1 , . . . , A n ;
n
e ove si intende che la somma si esegua sopra tutti gli j sottoinsiemi di j numeri,
ove {i(1), i(2), . . . , i(n)} è una permutazione di {1, 2, . . . , n} e J(k) indica il generico sottoin-
sieme {i(1), i(2), . . ., i(k)} di k elementi scelti da {1, 2, . . . , n}. Bk resta, quindi, espresso
come l’unione di nk insiemi. Operando con le funzioni indicatrici, anziché con gli insiemi,
si ha X
1Bk = 1Ai(1) 1Ai(2) . . . 1Ai(k) 1 − 1Ai(k+1) . . . 1 − 1Ai(n) . (1.9.2)
J(k)
Ogni termine di quest’ultima somma si può scrivere nella forma che segue, ottenuta molti-
plicando i fattori contenuti nelle parentesi,
P
ove Hr (J(k)) := 1Aj(1) 1Aj(2) . . . 1Aj(r) , espressione nella quale la somma deve
J(n−k,r)
essere eseguita sopra tutti i n−k
r sottoinsiemi J(n − k, r) di r elementi scelti nell’insieme
{i(k + 1), i(k + 2), . . . , i(n)}. Sostituendo nella (1.9.2), si ha
n−k
X X
1Bk = (−1)r 1Ai(1) 1Ai(2) . . . 1Ai(k) Hr (J(k)) .
r=0 J(k)
Ora,
X
1Ai(1) 1Ai(2) . . . 1Ai(k) Hr (J(k)
J(k)
X X
= 1Ai(1) 1Ai(2) . . . 1Ai(k) 1Aj(1) 1Aj(2) . . . 1Aj(r) . (1.9.4)
J(k) J(n−k,r)
Si introduca X
Hr+k := 1∩r+k Aj(i) , (1.9.5)
i=1
J(n,k+r)
n
ove la somma è eseguita sopra tutti i k+r sottoinsiemi J(n, k + r) di k + r indici scelti tra
{1, 2, . . . , n}. Alle somme (1.9.4) e (1.9.5) contribuiscono termini che possono assumere solo
n
i valori 0 e 1. Si è già detto che nella somma (1.9.5) compaiono k+r termini; i termini
della somma (1.9.4) sono invece nk n−k
r . Poiché
n n−k
k r (n − k)!n!(k + r)!(n − k − r)! k+r
= = .
n r!(n − k − r)!k!(n − k)!n! k
k+r
scende dalle (1.9.3), (1.9.4) e (1.9.5) che
n−k n
X k+r X j
1 Bk = (−1)r Hk+r = (−1)j−k Hj ,
r=0
k k
j=k
Dimostrazione.
n n X
n j
n X
X X j X j
P(Br ) = (−1)j−r Sj = (−1)j−r Sj
r r
r=k r=k j=r j=k r=k
n j
X X j
= (−1)j Sj (−1)−r .
r
j=k r=k
1.10. ALCUNI PROBLEMI CLASSICI DI PROBABILITÀ 35
onde
k
X
E(X) = k + n P(Ai ) = k + kn P(A1 ) ,
i=1
36 CAPITOLO 1. PROBABILITÀ DISCRETE
poiché ogni sottoinsieme ha la stessa probabilità di dare esito positivo. Supponiamo che
gli individui che compongono ogni sottoinsieme siano indipendenti; è questa l’ipotesi piú
forte che si faccia, ma non è possibile altrimenti perché è, di solito, impossibile compiere
un’indagine sui legami dei donatori. In condizioni d’indipendenza, risulta, se q = 1 − p,
P(A1 ) = 1 − P(Ac1 ) = 1 − q n , onde
Se q n > 1/n, allora E(X) è minore di nk, che è il numero di esami che si dovrebbero eseguire
se si analizzassero i flaconi di sangue ad uno ad uno. Per esempio, se n = 10, k = 100 e
p = 1/100, si ha E(X) = 195.6 < 1000 e q = 0.99, onde q 10 ' 0.904 > 0.1.
Non è impossibile risolvere numericamente con l’aiuto di un calcolatore il seguente prob-
lema di ottimizzazione: dati il numero N di donatori e la probabilita p, qual è il numero n
di donatori per gruppo che rende minimo il numero di esami da eseguire?
Esempio 1.10.2. (Il paradosso delle urne). Due urne contengono, entrambe, palline
bianche e palline nere. Si estraggano due palline seguendo una delle due strategie:
(a) si sceglie a caso un’urna, si estrae una pallina che quindi si reintroduce nell’urna dalla
quale è stata estratta, si sceglie di nuovo a caso un’urna dalla quale si estrae un’altra
pallina;
(b) si procede come nella strategia (a), per la scelta della prima pallina, la si reintroduce
nell’urna, ma si estrae la seconda pallina dalla stessa urna.
Con quale delle due strategie è maggiore la probabilità di estrarre due palline bianche?
Siano b0 e n0 il numero delle palline bianche e quello delle palline nere, rispettivamente,
nella prima urna e b00 e n00 i corrispondenti numeri per la seconda urna. Perciò la probabilità
di estrarre una pallina bianca è p0 = b0 /(b0 + n0 ) per la prima urna e p00 = b00 /(b00 + n00 ) per
la seconda. La probabilità che la prima pallina estratta sia bianca è dunque, in entrambe le
strategie p1 = (p0 +p00 )/2. Poiché in entrambe le strategie le due estrazioni sono indipendenti,
la probabilità di estrarre due palline bianche è, con la strategia (a),
2
1 0 1 00
pa = p + p
2 2
Esempio 1.10.3. (Il raccoglitore di figurine). Un bambino vuole riempire un album con N
figurine. Se le figurine si comprano una alla volta, quante figurine dovrà comprare in media
per completare l’album?
Si supporrà che le figurine siano poste in vendita in maniera casuale. La prima figurina
acquistata troverà senz’altro posto nell’album. La seconda figurina che si compra sarà
collocata nell’album se è differente dalla prima, cioè se è una delle N − 1 figurine non ancora
1.10. ALCUNI PROBLEMI CLASSICI DI PROBABILITÀ 37
collocate nell’album. La probabilità che la seconda figurina acquistata non sia già posseduta
è p2 = (N − 1)/N . Pertanto, ricordando i risultati riguardanti la distribuzione geometrica,
e tenendo presente che, se per contare il tempo, si usano gli acquisti delle figurine, occorre
acquistare in media 1/p2 = N/(N − 1) figurine prima di collocare la seconda figurina; per
sistemare la terza, bisognerà comprarne 1/p3 = N/(N − 2) e cosı́ via. In generale, per
collocare la r–esima figurina sarà necessario acquistare N/(N − r + 1) figurine. Perciò, il
numero medio eN di acquisti necessarı̂ per completare l’album è
N N N 1 1 1
eN = 1 + + + ··· + = N 1 + + + ··· + .
N −1 N −2 1 2 3 N
Si riconosce facilmente che l’espressione tra parentesi è la somma parziale N –esima, sN della
serie armonica che, notoriamente, diverge. Si ha, a titolo d’esempio,
Si voglia ora stabilire quante figurine vi saranno in un secondo album, identico al primo,
se nel secondo si raccolgono solo le figurine non utilizzate per il primo: in altre parole, il
bimbo di prima passa i “doppioni” al fratellino minore.
Si possono trascurare le figurine che non servono per alcuno dei due album, perché
già presenti in entrambi. È comodo rispondere alla domanda preliminare: quante figurine
conterrà il secondo album quando il primo ne contiene r? Per la risposta alla domanda
originale basterà porre r = N . Una figurina α sarà collocata nel secondo album solo se è
una delle prime r − 1 figurine; ciò accade con probabilità (r − 1)/N = P(A1 ) = E [1A1 ], ove
A1 è l’evento “si colloca la figurina α”. Nel secondo album si collocherà la seconda figurina
β se essa è stata già collocata nel primo album e se è uno dei primi r − 2 acquisti, ciò che
accade con probabilità P(A2 ) = E [1A2 ] = (r − 2)/(N − 1), perché la figurina α è già stata
sistemata e perciò le figurine candidate ad essere sistemate sono N − 1. Si proceda in questo
modo sino alla (r − 1)–esima figurina, perché ci si ferma quando nel primo album sono
state inserite r figurine; l’r–esima figurina non è quindi disponibile per il secondo album.
Il numero nr di figurine presenti nel secondo album quando il primo ne contiene r si può
scrivere, con ovvio significato dei simboli:
nr = E 1A1 + 1A2 + · · · + 1Ar−1
r−1 r−2 1
= + + ··· +
N N −1 N −r+2
N − (N − r + 1) (N − 1) − (N − r + 1)
= + + ···+
N N −1
(N − r + 2) − (N − r + 1)
+
N −r+2
1 1 1
= (r − 1) − (N − r + 1) + + ··· +
N N −1 N −r+2
1 1 1
= r − (N − r + 1) + + ··· + .
N N −1 N −r+1
Si ha, per esempio, n100 = 94.813. Si osservi che limN →+∞ nN /N = 1, come si vede usando
il teorema di Cesàro.
38 CAPITOLO 1. PROBABILITÀ DISCRETE
Esempio 1.10.4. (Il problema di Monty Hall). In un gioco, condotto alla televisione
canadese dal presentatore Monty Hall, si presentano al concorrente tre porte, dietro una
delle quali si trova un premio consistente. Il concorrente è invitato a scegliere una porta: se
dietro vi è il premio, questo è suo. Prima che il concorrente apra la porta che ha scelto, Monty
Hall apre una porta, (ve ne è sicuramente una) dietro la quale non vi è il premio. A questo
punto si pone al concorrente l’alternativa: può scegliere di confermare o di cambiare la scelta
iniziale. Quale strategia conviene al concorrente? Si calcolino le probabilità di vincita nelle
due strategie. Si considerino le terne (x, y, z) dove x rappresenta il numero della porta scelta
inizialmente dal concorrente, y il numero della porta, senza premio, aperta dal presentatore
e z quello della porta che il concorrente aprirà alla fine. Se il concorrente decide di non
cambiare la scelta iniziale sarà x = z. Per fissare le idee si supponga che il premio si trovi
dietro la porta con il numero 1 (ma, questo è, ovviamente, ignoto al concorrente).
Supponiamo di voler confermare la scelta iniziale. Le terne che portano alla vincita sono
(1, 2, 1) e (1, 3, 1), mentre le terne (2, 3, 2) e (3, 2, 3) non portano alla vincita. In questa
strategia la probabilità di vincere il premio è perciò quella di scegliere inizialmente la porta
dietro la quale si nasconde il premio, vale a dire 1/3.
Se il concorrente decide invece di cambiare la scelta iniziale, le terne che portano alla
vincita sono (2, 3, 1) e (3, 2, 1), mentre le terne (1, 2, 3) e (1, 3, 2) non portano alcuna vincita.
In questa strategia la probabilità di vincere il premio è perciò quella di scegliere inizialmente
una delle due prote dietro le quali non si nasconde il premio, ciò che accade con probabilità
2/3.
Per il concorrente risulta quindi conveniente cambiare la scelta iniziale.
Qui abbiamo usato un’identità tra i coefficienti binomiali che è lasciata come esercizio.
Si osservi che P(Xn = 1) = P(X1 = 1), che è la probabilità che la prima pallina estratta
sia bianca.
Se n > b + c, allora P(Xn = 1) = 0, perché dopo le prime b + c estrazioni l’urna è vuota.
P(Gn = k) = P(2Sn − n = k)
n+k = n + k (n+k)/2 (n−k)/2
= P Sn = = p q , (1.11.1)
2 n 2
40 CAPITOLO 1. PROBABILITÀ DISCRETE
se n e k hanno la stessa parità, vale a dire se n e k sono entrambi pari o entrambi dispari;
in caso contrario P(Gn = k) = 0. Infatti, ci si convince rapidamente che la pallina non può
occupare una posizione pari in un tempo dispari o viceversa. Per esempio, P(G2n+1 = 0) = 0
perché per trovarsi nell’origine la pallina deve aver compiuto un egual numero di passi nel
verso positivo e nel verso negativo, ciò che è possibile solo in un numero pari di passi. Vale
la relazione ricorsiva
che si giustifica facilmente attraverso il teorema delle probabilità totali, considerando che
la pallina può essere nella posizione x = k al tempo t = n solo se al tempo t = n − 1 era
in x = k − 1 e all’n–esimo passo si muove nel verso positivo, con probabilità p, oppure se
era in x = k + 1 e all’n–esimo passo si muove nel verso negativo, con probabilità q. La
dimostrazione formale della (1.11.2) è lasciata per esercizio.
La (1.11.1) si può scrivere in forma piú semplice, ponendo
qui, α rappresenta il numero di passi nel verso positivo e β quello nel verso negativo. Allora,
α+β α β
P(Gn = k) = p q . (1.11.4)
α
Prima di procedere con la passeggiata aleatoria di Bernoulli simmetrica, vale a dire, con
p = q = 1/2, introduciamo, nella sua forma piú semplice, il principio di riflessione.
Siano A e B due punti di una traiettoria che rappresenta la passeggiata aleatoria sim-
metrica, come in Fig. 1.1, e se ne considerino le coordinate, A = (m, j) e B = (n, k), con
n > m ≥ 0 e k > 0, j > 0. Supponiamo qui che i due punti considerati A e B giacciano nello
stesso semipiano (quello delle ascisse positive). Si consideri il punto A0 = (m, −j), simmet-
rico di A rispetto all’asse t dei tempi. Il principio di riflessione consiste nell’affermazione
che le traiettorie che passano per A e per B e che hanno un punto in comune con l’asse dei
tempi sono tante quante sono le traiettorie che passano per A0 e per B.
Infatti, si consideri una traiettoria che unisce A a B e che abbia un punto in comune
con l’asse dei tempi. Sia C il primo (nel senso dei tempi) dei punti che tale traiettoria ha in
comune con l’asse t. Si prenda in esame la traiettoria ottenuta riflettendo, rispetto all’asse
t, la parte della traiettoria che unisce A a C; questa passa necessariamente per A0 e per
C. Alla traiettoria ACB si fa corrispondere la traiettoria A0 CB. Viceversa, ogni traiettoria
che unisce A0 a B ha necessariamente un punto in comune con l’asse dei tempi, poiché A0 e
B giacciono da bande opposte rispetto a tale asse; sia C il primo di tali punti. Riflettendo,
attorno all’asse t, la parte di traiettoria tra A0 e C, si ottiene una traiettoria ACB che unisce
A a B e che un punto in comune con l’asse dei tempi. Esiste, dunque, una corrispondenza
biunivoca tra i due tipi di traiettoria considerati.
Si osservi che, tenendo conto delle (1.11.3) e (1.11.4), si può scrivere il numero N (n, k)
di traiettorie che uniscono l’origine con il punto (n, k) nella forma
α+β
N (n, k) = . (1.11.5)
α
Lemma 1.11.1. In una passeggiata aleatoria simmetrica, posto eguale a N (n, k) il numero
di cammini che uniscono l’origine al punto (n, k), ove n > 0 e k > 0, vi sono esattamente
k
N (n, k)
n
traiettorie dall’origine al punto (n, k) che non hanno punti in comune con l’asse dei tem-
pi tranne che nell’origine, vale a dire, le traiettorie per le quali si ha G1 > 0, G2 >
0, . . . , Gn−1 > 0.
1.11. PASSEGGIATA ALEATORIA DI BERNOULLI 41
Dimostrazione. Le traiettorie che interessano passano tutte per il punto (1, 1); le traiettorie
da (1, 1) a (n, k) sono in numero di N (n − 1, k − 1). A tale numero deve essere sottratto
quello delle traiettorie che passano per (1, 1) e che hanno almeno un punto in comune con
l’asse dei tempi. Per il principio di riflessione, quest’ultime traiettorie sono tante quante
sono le traiettorie da (1, −1) a (n, k), che sono N (n − 1, k + 1). Il numero delle traiettorie
con le proprietà specificate è, perciò, ricorrendo alla (1.11.5),
N (n − 1, k − 1) − N (n − 1, k + 1)
α+β−1 α+β−1 α+β α−β k
= − = = N (n, k),
α−1 α α α+β n
che dà il risultato annunciato.
Sia ora j un numero naturale e si consideri la v.a.
n [ o
Tj := inf n ∈ N {+∞} : Gn = j ,
che rappresenta il tempo di primo passaggio per la posizione x = j, cioè il primo istante
nel quale la pallina si trova in x = j. Useremo il principio di riflessione per calcolare la
probabilità P(Tj = n); si considerino gli eventi
n−1
[
En,j (k) := ({Gn = k} ∩ {Gs = j})
s=1
Per calcolare P(Tj = n), si osservi che vale la relazione tra insiemi
n
j
P(Tj = n) = n n+j .
n2
2
1.11. PASSEGGIATA ALEATORIA DI BERNOULLI 43
n − 1 n − 1
= 2−(n−1) n + j − n+j
−1
2 2
(n − 1)! 1 1 −(n−1)
= n−j − n+j 2
n+j n−j
−1 ! −1 !
2 2 2 2
n
(n − 1)!j j
= 2−(n−1) = n+j 2
−(n−1)
,
n+j n−j n
! ! 2
2 2
Affrontiamo ora il problema del tempo del primo ritorno nell’origine.
Si ponga
2n−1
A2n := {G2n = 0} e F2n := A2n ∩ ∩j=1 {Gj 6= 0} .
Gli insiemi A2n e F2n rappresentano rispettivamente gli eventi “la particella al tempo
t = 2n si trova nell’origine” e “la particella ritorna nell’origine per la prima volta al tempo
t = 2n”. Poniamo ora
u2n := P(A2n ), f0 := 0, f2n := P(F2n ).
Si noti che, usando la formula di Stirling, che dimostreremo nel seguito, ma che supporremo
già nota, si ha
2n 1 (2n)! 1
u2n = 2n
=
n 2 n! n! 22n
1 (1.11.7)
1 (2n)2n+ 2 e−2n 1 1
'√ 1 1 = √ .
2 π nn+ 2 nn+ 2 e−n e−n 22n nπ
Il seguente lemma fornisce il legame tra queste probabilità.
Lemma 1.11.2. Con le notazioni appena introdotte è
u2n = u0 f2n + u2 f2n−2 + · · · + u2n−2 f2 + u2n f0 . (1.11.8)
Dimostrazione. La (1.11.8) è una semplice conseguenza del teorema delle probabilità totali
e dell’indipendenza delle v.a. di {Xn }, o, che è lo stesso, di {Yn }.
n
X
P(A2n ) = P (A2n ∩ F2j )
j=0
Xn n
X
= P(F2j ) P(A2n−2j ) = f2j u2n−2j ,
j=0 j=0
44 CAPITOLO 1. PROBABILITÀ DISCRETE
cioè la (1.11.8).
Può giungere come una sorpresa che valga il seguente
Lemma 1.11.3. In una passeggiata aleatoria simmetrica è
P ∩2n
j=1 {Gj 6= 0} = P(G2n = 0) = u2n . (1.11.10)
Per il Lemma 1.11.1, il numero di traiettorie che terminano nel punto (2n, 2k) e che non
hanno punti in comune con l’asse dei tempi, salvo che nell’origine, è
Dimostrazione. L’insieme che esprime che il primo ritorno nell’origine avviene al tempo
t = 2n è
∩2n−1 2n−1 c
j=1 {Gj 6= 0} ∩ {G2n = 0} = ∩j=1 {Gj 6= 0} \ {G2n 6= 0}
onde
∩2n−2
f2n = P j=1 {Gj 6= 0} ∩ {G2n = 0}
= P ∩2n−2 2n
j=1 {Gj 6= 0} − P (∩j=1 {Gj 6= 0} = u2n−2 − u2n .
La (1.11.12) si ottiene dopo qualche conto che non presenta alcuna difficoltà:
2n − 2 1 2n 1
f2n = u2n−2 − u2n = −
n − 1 22n−2 n 22n
(2n − 2)! 1 (2n)! 1
= −
(n − 1)! (n − 1)! 22n−2 n! n! 22n
(2n − 2)! 1 1 2n (2n − 1)
= 1 −
(n − 1)! (n − 1)! 22n−2 4 n2
2n − 2 1 2n − (2n − 1)
=
n − 1 22n−2 2n
(2n − 2)! 1 1 2n 1
= = .
n! (n − 1)! 22n−1 2n − 1 n 22n
Infine, per la (1.11.13),
X X
f2n = (u2n−2 − u2n ) = u0 = 1 .
n∈N n∈N
Corollario 1.11.2. Il tempo medio d’attesa per il primo ritorno nell’origine è infinito,
X
2 n f2n = +∞. (1.11.14)
n∈N
Dimostrazione. Segue dalla (1.11.12) e dalla (1.11.7) che, per n abbastanza grande, il
termine generale della serie in (1.11.14) si può scrivere
2n 2n 1
2n f2n = u2n ' √ ,
2n − 1 2n − 1 n π
onde l’asserto.
Consideriamo ora l’evento L2k,2n “sino al tempo t = 2n, la particella è passata per
l’origine l’ultima volta al tempo t = 2k”;
L2k,2n := {G2k = 0} ∩ ∩nj=k+1 {G2j 6= 0} .
Z √x/n Z √x/n
1 2ns 1 ds
= p ds = √
π 0
2 2 2
n s (1 − s ) π 0 1 − s2
r
j
= arcsin .
n
Infine, vogliamo studiare il massimo raggiunto dalla passeggiata aleatoria: introdotta la
v.a. Mn := max{j : Gk = j (k ≤ n)}, si domanda quale sia la probabilità P(Mn = j). Si
osservi che l’evento En,j (k) − En,j+1 (k) corrisponde all’essere la pallina al tempo t = n in
x = k senza essere mai passata per x = j + 1, ma essendo passata per x = j. Poichè k può
essere un qualsiasi intero compreso tra −n e j, si ha
j
[
{Mn = j} = (En,j (k) \ En,j+1 (k)) .
k=−n
Si è, cosı́, espresso l’evento {Mn = j} come unione disgiunta; poiché, inoltre, En,j+1 (k) è
contenuto in En,j (k), si ottiene, ricorrendo alla (1.11.2),
j
X
P(Mn = j) = (P(En,j (k)) − P(En,j+1 (k)))
k=−n
j
X
= (P(G0n = k − 2j) − P(G0n = k − 2j − 2))
k=−n
Per quanto osservato precedentemente solo uno di questi due ultimi termini differisce da
zero.
In definitiva nella passeggiata aleatoria simmetrica risulta
n n
P(Mn = j) = 2−n n+j + n+j+1 .
2 2
Il metodo di riflessione può essere usato per rispondere ad altre questioni, come nell’e-
sempio che segue.
Esempio 1.11.1. In un ballottaggio tra due candidati, c0 e c00 , che riportano rispettivamente
n0 e n00 voti, vince il candidato c0 (n0 > n00 ); se lo spoglio dei voti avviene aprendo le schede
ad una ad una, qual è la probabilità che il candidato vincente sia sempre in vantaggio nel
corso dello scrutinio?
Si può rappresentare lo scrutinio mediante un grafico, riportando in ascissa il numero
dei voti scrutinati; in ordinata, i voti del candidato c0 sono considerati positivi mentre quelli
del candidato c00 sono considerati negativi. Le posizioni di ordinata positiva corrispondono
dunque ad una situazione di vantaggio del candidato c0 . Tutti i possibili scrutinı̂ sono
rappresentati da spezzate che sono comprese tra le rette x = −n00 e x = n0 e che congiungono
l’origine O con il punto B di coordinate (n0 + n00 , n0 − n00 ). Si conviene di non contare i
0 00 0 00
voti nulli o le schede bianche. Il numero di “storie” differenti è dunque n +n n0 = n n+n
00 .
Gli scrutinı̂ nei quali il candidato vincente c0 è sempre in vantaggio sono quelli che uniscono
O ad B senza toccare l’asse dei “tempi” in punti diversi dall’origine. Si pone il problema
di contare quanti siano tali scrutinı̂ o, equivalentemente, quante siano le spezzate che li
rappresentano. Ognuna di tali spezzate passa necessariamente per il punto A di coordinate
0 00
−1
(1, 1). Le spezzate che congiungono A ad B sono complessivamente n +n
n0 −1 . Tra queste
non sono da considerare quelle che toccano l’asse delle ascisse. Il numero di queste ultime
si determina ricorrendo al metodo di riflessione. Sia A0 il punto simmetrico di A rispetto
all’asse dei tempi. Esiste una corrispondenza biunivoca tra i cammini che uniscono A0 ad
B (con n0 e n00 fissati); si veda la Fig. 13.4
Fig. 13.4
0 00
−1
I cammini da A0 a B sono in numero di n +n
n0 . La probabilità cercata è, perciò,
0
n + n00 − 1 n0 + n00 − 1
0
−
n −1 n0
p= 0
n + n00
n0
n0 !n00 !
1 1
= (n0 + n00 − 1)! −
(n − 1)!n ! n !(n − 1)! (n0 + n00 )!
0 00 0 00
0 00
n −n
= 0 .
n + n00
48 CAPITOLO 1. PROBABILITÀ DISCRETE
Il problema della “rovina del giocatore” consiste nel calcolare la probabilità P (Tc < T0 ). Si
ponga tale probabilità eguale a p(a) indicando esplicitamente la dipendenza da a, p(a) :=
P (Tc < T0 ), in modo da avere la possibilità di variare a. Ricorrendo al teorema delle
probabiltà totali, si ha
che deve essere risolta tenendo conto delle condizioni al contorno, p(0) = 0 e p(c) = 1. Si
può risolvere la (1.11.16), ricorrendo all’equazione caratteristica
1 = q t−1 + p t ,
vale a dire
1 q
t2 − t + = 0. (1.11.17)
p p
Se p 6= q, la (1.11.17) ha due radici distinte, t = 1 e t = q/p. La soluzione generale della
(1.11.16) è a
q
p(a) = A + B ,
p
ove le costanti A e B si determinano mediante le condizioni al contorno. Tenendo conto di
queste ultime, si ottiene a
q
1−
p 1
p(a) = c , p 6= . (1.11.18)
q 2
1−
p
Se, invece, è p = 1/2, la (1.11.17) ha una soluzione doppia t = 1, sicché la (1.11.16) ha come
soluzione generale
p(a) = A + B a .
1.12. LA FUNZIONE GENERATRICE DELLE PROBABILITÀ 49
In tal caso si parla anche di funzione generatrice della legge di probabilità {pn }. La serie
(1.12.1) è convergente in [0, 1]; la sua somma ψ(t) è continua, crescente e verifica le relazioni
ψ(0) = p0 e ψ(1) = 1,
ed ammette in [0, 1] derivate di ogni ordine. è noto dai corsi di analisi matematica che
due serie di potenze che abbiano la stessa somma in tutti i punti di un insieme infinito
avente l’origine come punto di accumulazione sono identiche, nel senso che hanno gli stessi
coefficienti. Da ciò si deduce che due distribuzioni di probabilità con la stessa funzione
generatrice sono eguali.
Per estensione si parla di funzione generatrice di una v.a. X se questa assume valori
interi positivi; in questo caso si ha pn := P(X = n) con n ∈ Z+ e
X
P(X = n) tn = E tX .
ψX (t) :=
n∈Z+
Siano X1 e X2 due v.a. indipendenti a valori in Z+ ; allora, per ogni t ∈ [0, 1], il valore della
funzione generatrice della loro somma X1 + X2 è, per quanto appena visto,
ψX (t) = q + pt = 1 − p + pt = 1 + p (t − 1).
Esempio 1.12.2. Sia Sn una v.a. con legge binomiale Bi(n, p); segue facilmente dall’esem-
pio precedente e dalla (1.12.2)
n
ψSn (t) = {1 + p (t − 1)} .
50 CAPITOLO 1. PROBABILITÀ DISCRETE
Esempio 1.12.4. Sia X una v.a. con legge di Poisson, X ∼ P(λ); allora,
∞
X λn tn
ψX (t) = e−λ = e−λ eλ t = exp{λ (t − 1)} .
n=0
n!
Si osservi che, se X1 e X2 sono due v.a. indipendenti con leggi di Poisson di parametri λ1 e
λ2 rispettivamente, X1 ∼ P(λ1 ) e X2 ∼ P(λ2 ), allora la (1.12.2) dà
In particolare, risulta
e, quindi,
E X 2 = ψ 0 (1) + ψ 00 (1).
Vediamo come usare la funzione generatrice per completare lo studio della passeggiata
aleatoria che abbiamo intrapreso nella sezione precedente, elimando, ora, l’ipotesi che sia
p = q = 1/2. Ritenendo la notazione già introdotta, la probabilità di ritorno all’origine al
tempo t = 2n è data da
2n n n
u2n = p q (n ∈ Z+ );
n
naturalmente, è u0 = 1 perché la particella si trova nell’origine all’istante iniziale. Non è
difficile calcolare la funzione generatrice della legge {u2n : n ∈ Z+ }; ricordando lo sviluppo
della serie binomiale, si trova
∞ ∞
X 2n n n 2n X (2n)!
ψu (t) = p q t = (pqt2 )n
n=0
n n=0
n! n!
∞
X (2n)!
= (−1)n (−4pqt2 )n
n=0
(2n)!! (2n)!!
∞
X (2n − 1)!!
= (−1)n (−4pqt2 )n = (1 − 4pqt2 )−1/2 .
n=0
(2n)!!
1.13. PASSEGGIATA ALEATORIA IN ZD 51
Pertanto
1
ψu (t) = p .
1 − 4pqt2
Si consideri ora la probabilità f2n che il primo ritorno nell’origine avvenga al tempo t = 2n.
Già si sa che f0 = 0 e che vale la relazione
n
X
u2n = u2n−2j f2j .
j=1
Di qui
∞
X ∞
X n
X
ψu (t) = 1 + u2n t2n = 1 + t2n u2n−2j f2j
n=1 n=1 j=1
X∞ ∞
X
=1+ f2j t2j u2n−2j t2n−2j = 1 + ψu (t) ψf (t) .
j=1 n=j
ma
1 − 4pq = 1 − 4p (1 − p) = 1 − 4p + 4p2 = (1 − 2p)2 = (q − p)2 ,
sicché la probabilità di ritorno nell’origine è
pe = 1 − |q − p| .
Tale probabilità è eguale a 1, p̃ = 1, se, e solo se, p = q, vale a dire se, e solo se, la passeggiata
aleatoria è simmetrica. In caso contrario è p̃ < 1.
Vogliamo, infine, calcolare il tempo medio di ritorno nell’origine nel caso simmetrico
q = p. Detta T0 la v.a. che dà il tempo del primo ritorno nell’origine, si ha, evidentemente,
P(T0 = 2n) = f2n , (n ∈ Z+ ). Perciò, tenendo conto delle (1.12.3) e della (1.12.4), si trova
∞
X t
E (T0 ) = 2n f2n = ψf0 (1) = lim √ = +∞ ,
n=0
t→1
t<1
1 − t2
e la successione associata (Ynj )n∈N , ove Ynj := 2 Xnj − 1. Supponiamo che le successioni
(Yn1 ), (Yn2 ), . . . , (Ynd ) siano complessivamente formate da v.a. indipendenti, sicché, per esem-
pio Ynj e Ymk sono indipendenti quali che siano m e n in N con m 6= n e j e k in {1, 2, . . . , d}
52 CAPITOLO 1. PROBABILITÀ DISCRETE
con j 6= k. La posizione della particella che si muove in Zd è individuata dal vettore aleatorio
d–dimensionale
Gn := G1n , G2n , . . . , Gdn .
0 = (0, 0, . . . , 0)
al tempo t = 2n.
Perché il processo ritorni nell’origine, supponiamo che compia 2 kj passi lungo il j–esimo
asse; come nel caso unidimensionale, abbiamo già usato il fatto che, lungo ogni asse, il
processo dovrà compiere un egual numero di passi nel verso positivo che nel verso negativo.
Si avrà, necesseriamente, k1 + k2 + · · · + kd = n. Noti i numeri k1 , k2 , . . . , kd , si ha
2 k 1
j
P Gj2kj = 0 = ;
kj 22kj
inoltre, poiché la probabilità di scegliere 2 kj volte il j–esimo asse è 1/d2kj , si ha, ricorrendo
ai coefficienti multinomiali,
1 X (2 n)!
P (G2n = 0) =
(2 d)2n k1 !k1 !k2 !k2 ! . . . kd !kd !
k1 ,k2 ,...,kd
k1 +k2 +···+kd =n
(n!)2
2n 1 X
=
n (2 d)2n (k1 !)2 (k2 !)2 . . . (kd !)2
k1 ,k2 ,...,kd
k1 +k2 +···+kd =n
2
2n 1 X n
= .
n (2 d)2n k1 , k2 , . . . , kd
k1 ,k2 ,...,kd
k1 +k2 +···+kd =n
ove u2n è dato ancora dalla (1.11.7). Ricorrendo alla formula di Stirling, si ha
1
√ ,
se d = 1,
P (G2n = 0) = nπ (1.13.1)
1 ,
se d = 2.
nπ
Consideriamo, infine, il caso d ≥ 3. Poiché,
X 1 n
= 1,
dn k1 , k2 , . . . , kd
k1 ,k2 ,...,kd
k1 +k2 +···+kd =n
Un facile calcolo mostra che il minimo del denominatore k1 !k2 ! . . . kd ! è raggiunto quando
kj = costante, vale a dire, approssimativamente, per kj ' n/d (j = 1, 2, . . . , d). Ricorrendo
ancora alla formula di Stirling, si ottiene
n n! n!
= ≤ n od
k1 , k2 , . . . , kd k1 ! k2 ! . . . kd ! n
!
√ d
nn e−n 2π n dn dd/2
' r 2 = d−1 ,
n n/d −n/d √ n (2 π n) 2
e 2π
d d
perde certamente, nel secondo si vince certamente. In ciascuna di queste due situazioni la
condizione di coerenza richiede che i guadagni siano nulli; infatti per E = ∅, il guadagno è
G(∅) = −pS, onde p = 0, mentre se E = Ω, il guadagno è G(Ω) = (1 − p)S onde p = 1.
Secondo la definizione di de Finetti, si dice probabilità di un evento E un numero p =
P(E) tale che sia coerente la scommessa di quota p su E.
Questa definizione può apparire deludente, perché tutto quello che dice è che la proba-
bilità di un evento E è un numero di [0, 1]. Occorre, però, fissare l’attenzione non solo su
E, ma anche su altri eventi che possono contribuire a determinare e a modificare le infor-
mazioni che su E si hanno. A tal fine, giova supporre che la famiglia degli eventi abbia una
struttura algebrica; la piú naturale è quella di algebra. Si vedrà nel seguito che supporre
che la probabilità sia definita in un’algebra A di sottoinsiemi di Ω non è restrittivo.
Invece di una sola scommessa sull’evento E, si consideri una qualunque sottoclasse finita
di A, {E1 , E2 , . . . , En }; si considerino n scommesse coerenti e simultanee sugli eventi Ej di
importi arbitrarı̂, e differenti da zero, S1 , S2 , . . . , Sn e di quote p1 , p2 , . . . , pn . Il guadagno
sarà dato dalla v.a.
X n
G := (1Ej − pj )Sj .
j=1
A questo punto, potremmo definire come probabilità qualsiasi funzione P da A in [0, 1] che
soddisfaccia alle proprietà P(∅) = 0, P(Ω) = 1 e all’ultima scritta.
Possiamo ora dare il seguente teorema.
Teorema 1.14.1. Se A e B sono due eventi incompatibili (A ∩ B = ∅), allora
[
P(A B) = P(A) + P(B).
P(E) = 1 − P(E c ).
G = (1 − p)S + (1 − p0 )S 0 se si realizza E,
e
G0 = −pS − p0 S 0 se non si realizza E.
1.15. NOTE AL CAPITOLO 1 55
Ora, si considerino le ultime due come due equazioni nelle incognite S e S 0 , vale a dire
(
(1 − p)S + (1 − p0 )S 0 = G
−pS − p0 S = G0
Se fosse diverso da zero il determinante dei coefficienti, tale sistema avrebbe soluzione per
ogni coppia di valori di G e di G0 , anche entrambi positivi o entrambi negativi. Perciò la richi-
esta che la scommessa sia coerente comporta che si annulli il determinante dei coefficienti,
cioè
1 − p 1 − p0
det = −p0 + pp0 + p − pp0 = p − p0 .
−p0
−p
La coerenza impone dunque che sia p0 = p.
È particolarmente interessante l’approccio soggettivo alle probabilità condizionate. Sia
data un’algebra A di sottoinsiemi di un insieme non vuoto Ω, e si ponga A0 := A \ {∅}. Si
dice evento condizionato E/H con E ∈ A e H ∈ A0 un evento che è vero se sono veri sia H
sia E, è falso se H è vero, mentre E è falso e che, infine, è indeterminato se H è falso. Per
H = Ω si ha E/Ω = E.
In una scommessa condizionata su E/H, di quota p e di importo S 6= 0, si versa la
somma pS per ricevere S se si verificano sia E sia H, si perde pS se si verifica H ma non
E; se non si verifica H la scommessa è annullata e si riprende quindi la somma versata pS.
Una scommessa condizionata su E/H si dice coerente se la funzione su A × A0 definita da
(E, H) 7→ P(E/H) è una probabilità su A, tutte le volte che sia fissato H ∈ A0 .
Teorema 1.14.2. Se E ∈ A e H 6= ∅, allora
quale la probabilità ha trovato il suo assetto moderno e che riporta i risultati fondamentali,
(Cramér, 1946) che insieme al già citato libro di (Feller, 1950) che sono stati, per lungo
tempo, i soli testi di riferimento per gli studiosi.
Un approccio differente da quello tradizionale, basato sull’assiomatizzazione delle sper-
anze anziché delle probabilità si puó trovare in (Whittle, 1992).
Sarà bene tenere presenti le voci dell’enciclopedia (S. Kotz, N.L. Johnson, 1982).
Utili libri di esercizı̂ sono, accanto a quelli di Feller, Letta e Parzen, citati sopra, quelli
di (Cacoullos, 1989), (Cerasoli, 1991), (Baldi et al., 1995), (Piccinato, 1969), (Grimmet &
Stirzaker, 2001).
Si consultino anche i libri di esempiı̂ e controesempı̂, che sono sempre utili per mettere a
cimento le proprie conoscenze, (Romano & Siegel, 1986), (Stoyanov, 1987) e (Székely, 1986).
Section 1.1 Per un primo orientamento sulla storia del calcolo delle probabilità, si vedano
le storie generali della matematica, per esempio, (Loria, 1982), (Boyer, 1980), (Kline,
1972), (Struik, 1947).
Esistono, poi, libri dedicati interamente alla storia del calcolo delle probabilità, come
(Maistrov, 1974). Istruttive sono anche le raccolte (Pearson & Kendall, 1970, 1977).
Per studı̂ piú approfonditi si troveranno numerose indicazioni, aggiornate al 1981,
nell’opera di (Dauben, 1985). Numerose sintetiche biografie di molti probabilisti i cui
nomi ricorrono in queste lezioni si possono trovare in (Heyde & Seneta, 2001).
È istruttiva la lettura del bell’articolo (Cramér, 1976) che dà una visione ragionevol-
mente completa, e non troppo personale, del calcolo delle probabilità nel periodo
1920–1970. Sono tratte da quest’articolo le citazioni di (von Mises, 1919) e (Cramér,
1926). Si veda, infine, la rapida ma magistrale sintesi di (Loève, 978).
Per il richiamo al Talmud si veda (Rabinovitch, 1969).
Tranne i brevissimi cenni di questa sezione e l’ultima sezione, abbiamo evitato qualsiasi
discussione approfondita sul significato di probabilità. Per questo si può consultare
come primo orientamento (Fine, 1973).
Sezione 1.2 Il risultato citato nel corso della dimostrazione di 1.2.3, e cioè che in R ogni
insieme aperto può essere espresso come l’unione disgiunta, al più numerabile, di
intervalli aperti, si può trovare nel delizioso volumetto di (Boas, 1960).
Sezione 1.4 Il problema dei compleanni fu introdotto da von Mises nel 1932. Esso è stato
oggetto di una vasta letteratura e di numerissime generalizzazioni.
Sezione 1.6 Non ci è bastato il cuore per rompere con la tradizione, e sostituire la denom-
inazione “variabile aleatoria” con quella di “funzione (misurabile)”.
Per l’opera probabilistica di Poisson si veda (Sheynin, 1978).
Sezione 1.7 La diseguaglianza (1.7.2) appare per la prima volta in (Bienaymé, 1853), ar-
ticolo che fu ristampato come (Bienaymé, 1867) probabilmente per coincidere con
l’articolo di (Čebyšev, 1867) che lo segue immediatamente nello stesso fascicolo del
Giornale di Liouville. Čebyšev dette la priorità a Bienaymé; alla stessa conclusione
giunse Markov. Tuttavia l’articolo di Čebyšev ebbe maggiore risonanza, soprattut-
to attraverso gli scritti della forte scuola russa di probabilità. Si veda per tutta la
questione (Heyde & Seneta, 1987). A rigore, quindi, la (1.7.2) dovrebbe chiamarsi
diseguaglianza di Bienaymé–Čebyšev, cosı́ come, del resto, fanno alcuni autori.
La diseguaglianza di Markov fu presentata in (Markov, 1913).
Il Teorema di Weierstraßfu introdotto in (Weierstraß, 1885). La dimostrazione data
qui segue (Bernstein, 1912); poiché questo articolo non è reperibile con facilità, essa
si può trovare negli esercizı̂ di (Loève, 1963) o in (Chow & Teicher, 1978).
1.16. ESERCIZÎ SUL CAPITOLO 1 57
Sezione 1.8 Sono, naturalmente, molte altre le distribuzioni di probabilità discrete che
trovano uso nelle applicazioni. Si veda la monografia (Johnson et al., 1993) che è ad
esse dedicata.
Borel (1913) suppose che fossero delle scimmie a scrivere su una macchina per scrivere
e a “creare” testi letterarı̂.
Sezione 1.9 Del principio di inclusione–esclusione sono note numerose dimostrazioni la cui
maggiore o minore semplicità dipende dalla cultura matematica dello studioso che le
legge. Quella presentata in queste lezioni è tratta da (Loève, 1963). Un approccio
differente si può trovare in (Ryser, 1963) o (Brualdi, 1977).
Sezione 1.10 Il problema del raccoglitore di figurine può essere affrontato con metodi piú
raffinati; si veda, a questo proposito, (Pintacuda, 1980). La letteratura in proposito è
però veramente sterminata.
Sezioni 1.11–1.13 Queste sezioni sono modellate in larga parte sulla trattazione dei libri
di (Feller, 1950) e di (Baclawski et al., 1984).
L’esempio 1.11.1 è dovuto ad (André, 1887). Il Teorema (1.13.2) fu presentato in
(Pólya, 1921).
Sezione 1.14 La presentazione delle probabilità soggettive data in queste lezioni è strin-
gatissima. Lo studioso può, anzi, dovrebbe, consultare l’opera di uno dei padri di tale
approccio, Bruno de Finetti; qui basti segnalare (de Finetti, 1970) e la voce Probabilità
nell’Enciclopedia Einaudi, vol. 10, Torino: Einaudi, 1980 scritta dallo stesso de Finetti.
L’esposizione segue (Scozzafava, 1989).
(a) A \ B = A \ (A ∩ B) = (A ∪ B) \ B;
(b) A ∩ (B \ C) = (A ∩ B) \ (A ∩ C) = (A ∩ B) \ C;
(c) (A \ B) \ C = A \ (B ∪ C);
(d) A \ (B \ C) = (A \ B) ∪ (A ∩ C);
(e) (A \ B) ∩ (C \ D) = (A ∩ C) \ (B ∪ D);
(f) (A ∪ B) \ C = (A \ C) ∪ (B \ C).
(A \ B) \ C 6= A \ (B \ C) .
(a) A∆∅ = A;
(b) A∆Ω = Ac ;
(c) A∆Ac = Ω;
(d) A∆A = ∅;
(f) A∆B = Ac ∆B c ;
58 CAPITOLO 1. PROBABILITÀ DISCRETE
(a) 1Ac = 1 − 1A ;
(c) A ⊂ B ⇐⇒ 1A ≤ 1B ;
(d) 1A∩B = 1A · 1B ;
(f) 1A\B = 1A (1 − 1B );
10. Sia A una famiglia di sottoinsiemi di Ω che goda delle seguenti proprietà:
(a) Ω ∈ A;
(b) A ∈ A =⇒ Ac ∈ A;
(c.1) A1 , A2 ∈ A =⇒ A1 ∪ A2 ∈ A;
(c.2) se An ∈ A per ogni n ∈ N e se gli insiemi della successione (An ) sono disgiunti, allora
∪n∈N An ∈ A.
11. Sia Ω un insieme infinito non numerabile, cioè cardΩ) > ℵ0 . Sia F la famiglia dei
sottoinsiemi di Ω che sono numerabili o tali che sia numerabile il loro complementare
23. Siano A, B e C eventi. Si esprima in funzione di P(A), P(B), P(C), P(A ∩ B), P(A ∩ C),
P(B ∩ C) e P(A ∩ B ∩ C) la probabilità che, per k = 0, 1, 2, 3, dei tre eventi A, B e C se ne
verifichino
(a) esattamente k dei due eventi A e B,
(b) almeno k,
(c) al piú k.
24. (Teorema multinomiale)
r
!n
X X n
αk = αk1 αk2 . . . αrkr ,
k1 , k2 , . . . , kr 1 2
k=1 k1 ,k2 ,...,kr
k1 +k2 +···+kr =n
ove la somma è estesa a tutte le r–ple (k1 , k2 , . . . , kr ) di interi positivi (kj ∈ Z+ ) tali che
r
X
kj = n
j=1
e
n n!
:= .
k1 , k2 , . . . , kr k1 !k2 ! . . . kr !
25. Per n ∈ N, quante soluzioni con xk numeri naturali (xk ∈ N) ha l’equazione
n
X
xk = n ?
k=1
quante soluzioni con xk interi positivi (xk ∈ Z+ )? quante con xk ≥ s (con s ∈ N)?
26. Un’urna contiene 6 palline numerate da 1 a 6. Qual è la probabilità che la somma dei
numeri di due palline, estratte con o senza restituzione, sia eguale a k, per (k = 1, 2, . . . , 12)?
27. Un’urna contiene 10 palline numerate da 0 a 9. Si estraggano, con o senza restituzione,
tre palline. Mettendo i numeri l’uno accanto all’altro nell’ordine nel quale sono stati estratti,
si forma un numero compreso tra 0(= 000) e 999. Qual è la probabilità che il numero cosı́
formato sia divisibile per 39? (Lo zero è considerato divisibile per 39).
28. In un gruppo di quattro persone, qual è la probabilità che almeno due di esse abbiano
il compleanno nello stesso giorno? (Nel rispondere si mettano bene in evidenza le ipotesi
che si fanno).
29. (Probabilità che un dato giorno sia il 29 febbraio). Si sa che degli anni dei secoli solo
quelli divisibili per 400 sono bisestili; quindi il 2000 è stato bisestile, mentre non lo sono
stati né il 1700, né il 1800, né il 1900. In un periodo di 400 anni vi sono, allora, 97 anni
bisestili, e, quindi, complessivamente 400 × 365 + 97 = 146097 giorni che corrispondono ad
esattamente 20871 settimane. I giorni della settimana si ripetono, dunque, ogni 400 anni;
basterà, perciò, fare riferimento ad un ciclo di 400. La probabilità pb di un giorno bisestile,
vale a dire la probabilità di un 29 febbraio, è dunque
97
pb = ' 0.000664 = 0.0664 % .
146097
La probabilità di un giorno normale è
400
pn = ' 0.002738 = 0.2378 % ,
146097
che è da confrontarsi con 1/365 ' 0.002740 = 0.2740 %, che è la probabilità che verrebbe
spontaneo usare nel modello piú ingenuo possibile.
1.16. ESERCIZÎ SUL CAPITOLO 1 61
30. Si mescolano separatamente due mazzi di carte da gioco formati da 52 carte ciascuno.
Se si gira una carta alla volta da ciascun mazzo, qual è la probabilità che coincidano le carte
girate
(a) per prime,
(b) per 52–esime,
(c) sia per prime sia per 52–esime?
31. Un’urna contiene palline di r colori, precisamente m1 del primo colore, m2 del secondo
colore e cosı́ via. Si calcoli la probabilità che, estraendo, con o senza restituzione, n palline
ve ne siano k1 del primo colore, k2 del secondo colore,. . . , kr dell’r–esimo colore.
32. Due urne U1 e U2 hanno la medesima composizione; entrambe contengono n palline
delle quali b sono bianche. Si estragga una pallina da U2 (senza guardarne il colore) e la si
ponga in U1 . Qual è ora la probabilità di estrarre una pallina bianca da U1 ?
33. Si lancia una moneta per 10 volte. Se P(T ) = P(C) = 1/2, qual è la probabilità
(a) di avere testa nei primi 5 lanci e croce nei successivi 5?
(b) di avere 5 teste e 5 croci?
(c) di avere almeno 5 teste?
(d) di ottenere non piú di 5 teste?
34. Un’urna contiene b palline bianche e c colorate. Ad ogni istante si estrae una pallina,
se ne nota il colore e la si rimette nell’urna insieme a d palline dello stesso colore di quella
estratta. Si calcolino le probabilità
(a) che la seconda pallina estratta sia bianca;
(b) che la prima pallina sia bianca sapendo che la seconda pallina estratta è bianca.
35. In un teatro si vendono a caso k biglietti per le n poltrone di una fila (n > k)). Qual è
la probabilità che, in quella fila, non vi siano persone sedute l’una accanto all’altra?
36. Da un’urna che contiene 4 palline bianche e 2 nere si estraggono, con o senza resti-
tuzione, 4 palline. Si considerino gli eventi Ai :=“l’i–esima pallina estratta è bianca”, B:=“si
estrae esattamente una pallina bianca nelle prime due estrazioni” e C:=“nelle 4 estrazioni
si estraggono 2 palline bianche”. Allora
(a) sono indipendenti A1 e A4 ?
(b) sono indipendenti B e A4 ?
(c) sono indipendenti C e A4 ?
37. Si lancino contemporaneamente n monete eguali (n ≥ 3) per ognuna delle quali è p
la probabilità di testa. Qual è la probabilità che una moneta mostri una faccia diversa da
quella di tutte le altre? Se p = 1/2, qual è la distribuzione della v.a. T1 :=numero del primo
lancio nel quale si verifica la situazione della domanda precedente?
38. Un’urna contiene N palline delle quali b sono bianche; se ne estraggono in successione
n, con o senza restituzione. Si calcoli, nei due casi, la probabilità condizionata P(Bj | Ak ),
se B è l’evento “la j–esima pallina estratta è bianca”, mentre Ak è l’evento “si estraggono
k palline bianche”.
39. Un’urna contiene un egual numero di palline bianche e colorate. Si estraggono con
restituzione due palline. Si calcolino le probabilità condizionate che entrambe le palline
siano bianche sapendo:
62 CAPITOLO 1. PROBABILITÀ DISCRETE
51. In un processo di Bernoulli (Xn ) su (Ω, F, P), con P(X1 = 1) = p, siano T1 e T2 gli
istanti del primo e del secondo successo, rispettivamente. Si calcoli la probabilità di {T1 = k}
sapendo che {T2 = n}.
52. Si calcoli la costante λ in modo che
qn
pn = λ (q ∈ ]0, 1[)
n
(n ∈ N) sia una distribuzione di probabilità (distribuzione logaritmica). Si calcolino sper-
anza e varianza della distribuzione logaritmica.
53. La legge di Poisson troncata è una legge di probabilità su N, anziché su Z+ come la
legge di Poisson, data da
λn
P(X = n) := k (λ > 0, n ∈ N) .
n!
Si calcoli la costante k in modo che risulti cosı́ definita una legge di probabilità e se ne
calcolino media e varianza.
54. In un processo di Bernoulli (Xn ) su (Ω, F, P), con P(X1 = 1) = p, si calcoli la probabilità
condizionata di avere un successo all’i–esima prova (i = 1, 2, . . . , n) sapendo che in n prove
si hanno k successi, cioè P(Xi = 1 | Sn = k).
55. In un processo di Bernoulli (Xn ) su (Ω, F, P), con P(X1 = 1) = p, si calcoli
(a) per k = 0, 1, . . . , n, la probabilità (condizionata) di avere esattamente m+k successi se
si è avuto un successo in ognuna delle prime m prove, cioè P(Sm+n = m+k | Sm = m);
(b) la probabilità (condizionata) di avere m + k successi se nella serie di m + n prove si
sono ottenuti almeno m successi cioè
P(Sm+n = m + k | Sm+n ≥ m) .
56. (a) Per assegnati valori di n ∈ N e di p ∈ ]0, 1[, si studii il comportamento dei termini
della legge binomiale b(k; n, p) al variare di k in {k = 0, 1, . . . , n};
(b) perché risulti b(k; n, p) = b(k + 1; n, p), occorre e basta che (n + 1)p sia un numero
naturale, cioè (n + 1)p ∈ N;
(c) per assegnati valori di k in N e di p in ]0, 1[, si cerchi il massimo di b(k; n, p) al variare
di n (con n ≥ k).
57. Siano date nel medesimo spazio di probabilità (Ω, F, P) due v.a. X e Y , indipendenti ed
entrambe di legge geometrica, rispettivamente di parametro p1 e p2 . Si determini la legge
della v.a. Z := X ∨ Y = max{X, Y }.
58. Sia Sn una v.a. binomiale di parametro p. Quale che sia b > 0, è
lim P (Sn ≤ b) = 0 .
n→+∞
59. Si calcoli la probabilità che una v.a. binomiale Sn di parametro p assuma valore pari.
Si mostri che, quale che sia p ∈ ]0, 1[, tale probabilità tende a 1/2 al tendere di n a +∞.
60. Se X è una v.a. geometrica di parametro p si calcoli E(1/X).
61. Si calcoli la speranza
E [X (X − 1) . . . (X − k + 1)]
nei due casi:
(a) X è una v.a. con legge di Poisson di parametro λ, X ∼ P(λ);
64 CAPITOLO 1. PROBABILITÀ DISCRETE
63. Se X è una v.a. con legge di Poisson di parametro λ, con λ numero naturale, λ ∈ N, si
calcoli E (|X − λ|).
64. Sullo spazio di probabilità (Ω, F, P), si consideri un processo di Bernoulli (Xn ) e si
calcoli la probabilità che il primo successo avvenga ad un istante dispari.
Si mostri, inoltre, se p = 1/2, che per ogni x ∈ ]0, 1] si può trovare un sottoinsieme
Jx ⊂ N tale che sia eguale a x la probabilità che il primo successo avvenga in un tempo che
appartiene a Jx ; in simboli
65. Sullo stesso spazio di probabilità (Ω, F, P) si considerino due processi di Bernoulli in-
dipendenti (Xn0 ) e (Xn00 ) di parametri p1 e p2 rispettivamente. Siano T10 e T100 i del primo
successo nei due processi. Si calcoli la probabilità dell’evento {T10 < T100 } e si determini la
legge di T10 condizionata da questo, vale a dire si calcolino, per k ∈ N, le probabilità
66. Sullo spazio di probabilità (Ω, F, P) si consideri un processo di Bernoulli (Xn ) si calcoli
la probabilità condizionata di avere k fallimenti prima di avere n successi, subordinatamente
al sapere che vi sono k 0 successi prima di avere n + 1 successi.
67. Un giocatore lancia n volte una moneta con probabilità p di ottenere testa. Tutte le
volte che ottiene testa, un secondo giocatore lancia una moneta identica alla prima.
68. (a) Si consideri un processo di Bernoulli (Xn ) di parametro p e, sullo stesso spazio di
probabilità (Ω, F, P) la v.a. N indipendente da quelle della
Pnsuccessione (Xn ). N ha legge
di Poisson di parametro λ, N ∼ P(λ). Si ponga Sn := i=1 Xi per n ∈ N e S0 = 0, si
determinino le leggi delle v.a.
X
SN := Sn 1{N =n} ,
n∈Z+
che dà il numero di successi nelle N prove e della v.a. RN := N − SN che conta il numero
dei fallimenti nelle stesse N prove.
(b) Le v.a. SN e RN sono indipendenti.
69. (Il paradosso delle due buste). Ci è chiesto di scegliere una busta tra due, sapendo che
una delle due buste contiene il doppio del denaro dell’altra. Nella busta scelta vi sono 100
euro. Avendone la possibilià, conviene lasciare quella busta e scegliere invece l’altra?
La risposta è apparentemente affermativa: infatti il guadagno medio provocato dal
cambio è, poiché l’altra busta può contenere 50 o 200 euro,
− 12 50 + 1
2 100 = 50 − 25 = 25 > 0
dunque positivo.
1.16. ESERCIZÎ SUL CAPITOLO 1 65
Una risposta piú precisa è la seguente. Vi sono due buste A e B; la prima contiene x
euro, la seconda 2x. A noi è incognito il valore di x. Si indichi con px la probabilità che
in A vi siano x euro. Si scelga ora una busta, che sarà A con probabilità 1/2 e si guardi
il suo contenuto. Sia X la v.a. che indica questo numero e si denoti con qx la probabilità
condizionata P(A | X = x) che si sia scelta la busta A avendo osservato che X = x. Allora
P (A ∩ {X = x}) px
P(A | X = x) = = .
P(X = x) P(X = x)
Ora \ \
P(X = x) = P A {X = x} + P B {X = x} = px + px/2 .
Perciò
px
qx = .
px + px/2
Allora il valore medio del denaro contenuto nell’altra busta è
1
e = 2xqx + 2 x(1 − qx ) .
Si studii la diseguaglianza e > x, vale a dire 2xqx + 12 x(1 − qx ) > x, che dà come soluzione
px > 21 px/2 .
La risposta in effetti dipende dai parametri px e px/2 : poiché questi non sono dati, non
esiste una risposta “corretta”. Si veda a questo proposito Linzer (1994).
70. Una particella può muoversi lungo una retta occupando le posizioni con coordinate
intere. Ad ogni istante la particella si muove a destra o a sinistra secondo che il lancio di
una moneta dia testa (T ) o croce (C). Se P(T ) = P(C) = 1/2, qual è la probabilità che al
tempo t = 10 la particella sia
(a) al punto di partenza (l’origine delle coordinate)?
(b) al piú a distanza 1 dall’origine?
(c) a distanza 2 dall’origine?
Si risponda alle stesse domande se P(T ) = 0.51.
71. Con riferimento all’esercizio precedente, si supponga che in corrispondenza del risultato
C la particella non si muova.
(a) Qual è la probabilità Pn (k) che al tempo t = n la particella si trovi in x = k?
(b) Si mostri che Pn (k) = p Pn−1 (k − 1) + q Pn−1 (k), ove P(T ) = p e P(C) = q := 1 − p.
(c) Qual è la probabilità che la particella si trovi alla destra del punto x = 2 al tempo
t = 3 o al tempo t = 4?
(d) Qual è la speranza della posizione della particella al tempo t = 3?
(e) Se p = q = 1/2, qual è la posizione nella quale la particella ha maggior probabilità di
trovarsi al tempo t = 4?
72. Siano assegnate due urne U1 e U2 esteriormente indistinguibili. U1 contiene b1 palline
bianche e c1 palline colorate, mentre U2 ne contiene rispettivamente b2 e c2 . Si scelga a
caso un’urna e da questa si estragga con restituzione una successione di palline. Sia (Xn )
la successione di v.a. che dà il risultato dell’n–esima estrazione, in altre parole Xn = 1 se
all’n–esima estrazione si è estratta una pallina bianca, Xn = 0 se si è estratta una pallina
colorata.
(a) sono indipendenti le v.a. Xn ?
66 CAPITOLO 1. PROBABILITÀ DISCRETE
ciascuna delle quali conta quante volte le prime n v.a. della successione abbiano assunto
(n)
il valore sj , sicché Nj /n rappresenta la frequenza del risultato sj nelle prime n prove.
Allora, per ogni ε > 0, vale
( (n) )
r N
[ j
lim P − pj ≥ ε = 0 .
n
n→+∞
j=1
74. (Le scatole di fiammiferi di Banach) Un matematico distratto, Banach, teneva una
scatola di fiammiferi in ciascuna delle due tasche della giacca e quando aveva bisogno di
accendere la pipa sceglieva a caso la scatola da una delle due tasche. Se ciascunelle due
scatole inizialmente contiene N fiammiferi, si calcoli la probabilità
(a) pj che, quando Banach si accorge che una scatola è vuota, l’altra contenga j fiammiferi;
(b) qj che, quando una scatola è vuota, l’altra contenga j fiammiferi;
(c) che la scatola che per prima è stata trovata vuota non sia stata la prima a svuotarsi.
75. Si consideri un poligono convesso con N lati, ove N è una v.a. con legge
1
P(N = n) = (n ≥ 3) .
2n−2
Si calcolino E(N ) e la speranza E(D) del numero delle diagonali del poligono considerato.
76. Siano X e Y due v.a. isonome ed indipendenti tali che
1
P(X = n) = P(Y = n) = (n ∈ N) .
2n
Si calcolino:
(a) P (X ∧ Y ≤ n);
(b) P(X = Y );
(c) P(Y > X);
(d) P(X divide Y );
(e) P(X ≥ k Y ) con k ∈ N.
77. Un’urna contiene inizialmente b palline bianche e c palline colorate (b, c 6= 0). Si estrae
a caso una pallina: se questa è colorata, non si effettuano piú estrazioni, se invece è bianca la
si rimette nell’urna insieme ad un’altra pallina bianca e si procede ad una nuova estrazione
con le medesime regole. Si indichi con N la v.a. che conta il numero di estrazioni fino
all’estrazione della prima pallina colorata.
1.16. ESERCIZÎ SUL CAPITOLO 1 67
84. Siano X1 , X2 , X3 tre v.a. indipendenti, tutte di legge geometrica con parametri
rispettivamente eguali a p1 , p2 , e p3 .
(a) Si calcoli la probabilità P (X1 < X2 < X3 );
AB C AB C ...;
(1 + z 2 )n (1 + u)n
Z Z
1 1
dz = du ,
2πi C z 2k+1 2πi C uk+1
(1 + z 2 )n
Z
1 n
dz = .
2πi C z 2k+1 k
Quest’ultima relazione si trova usata, senza commento né derivazione, in un famoso articolo
di Kac del 1956.
Capitolo 2
Variabili Aleatorie
e, quindi,
\ 1
[ 1
[a, b] = a − ,b e [a, b[ = a, b −
n n
n∈N n∈N
Definizione 2.1.1. Dato lo spazio di probabilità (Ω, F, P) si dirà variabile aleatoria definita
in questo spazio ogni funzione X : Ω → R misurabile, vale a dire tale che, per ogni boreliano
B di R, risulti
X −1 (B) ∈ F .
{X ≤ t} = X −1 (]−∞, t]) ∈ F .
Si noti che in questo caso viene a cadere la restrizione card Ω ≤ ℵ0 che l’insieme Ω
sia finito o numerabile. Non ci porremo, nel seguito, in condizioni di massima generalità
perché ciò obbligherebbe ad impadronirsi di strumenti tecnici che è opportuno rimandare
ad un secondo momento. Introdurremo quindi le probabilità nello spazio misurabile (R, B)
mediante la nozione di densità di probabilità. Diremo che una funzione f : R → R+ è una
densità di probabilità se
(a) la funzione f è a valori positivi, ciò che è già stato messo in evidenza, scrivendo che f
assume valori in R+ ;
(b) f è integrabile in R;
69
70 CAPITOLO 2. VARIABILI ALEATORIE
Qui abbiamo scritto (a, b) per indicare uno qualsiasi dei quattro insiemi ]a, b], ]a, b[, [a, b],
[a, b[, vale a dire che non si specifica se ciascuno degli estremi a e b dell’intervallo in questione
appartenga oppure no all’intervallo stesso; per una probabilità definita da una densità questi
quattro insiemi hanno la stessa probabilità.
Si scriverà F , invece di FX , per la f.r. di una v.a. X tutte le volte che ciò non generi
confusione.
Due v.a. X e X 0 , non necessariamente definite sopra il medesimo spazio di probabilità, si
dicono isonome o identicamente distribuite, o, ancora somiglianti, se hanno la stessa legge,
cioè se PX = PX 0 . Si vedrà tra breve che due v.a. sono identicamente distribuite se, e solo
se, esse hanno la stessa f.r..
Piú esplicitamente, se X è una v.a. discrete che assume i valori xn con probabilità
pn := P(X = xn ), la sua f.r. si scrive
X
FX (t) = pn .
n:xn ≤t
La definizione (2.2.1) si applica anche a v.a. non del tipo considerato in queste lezioni.
Teorema 2.2.1. Se F : R → [0, 1] è la f.r. di una v.a. X, allora essa è isotona (t0 < t00 =⇒
F (t0 ) ≤ F (t00 )), è continua a destra (F (t+0) = F (t) per ogni t ∈ R), e soddisfà alle seguenti
condizioni
lim F (t) = 0 e lim F (t) = 1.
t→−∞ t→+∞
Sia ora (tn ) un’arbitraria successione crescente di numeri reali che tenda a +∞. La succes-
sione di insiemi ({X ≤ tn }) è crescente e si ha
[
{X ≤ tn } = Ω ,
n∈N
sicché
lim F (tn ) = lim P(X ≤ tn ) = P(X ≤ +∞) = 1 .
n→+∞ n→+∞
Se, invece, (sn ) è un’arbitraria successione decrescente tendente a −∞, allora la successione
di insiemi ({X ≤ sn }) è decrescente e si ha
\
{X ≤ sn } = ∅
n∈N
e
F (sn ) = P(X ≤ sn ) −−−−−→ P(∅) = 0 .
n→+∞
2.3 Esempı̂
Già sono incontrate alcune leggi di probabilità discrete che ricorrono nelle applicazioni; di
seguito si studiano, sia pur sommariamente, alcune notevoli leggi di probabilità definite da
una densità e che abbiamo chiamato assolutamente continue. Di alcune di esse si troverà
spiegata la “genesi” nel corso di queste lezioni. Molte sono importanti nella Statistica.
Esempio 2.3.1. (Distribuzione normale o gaussiana). Si dice che una v.a. X ha legge
normale o gaussiana di parametri 0 e 1 (normale standard o ridotta nel linguaggio della
Statistica) o, piú brevemente, che X è N (0, 1), ciò che spesso si indica mediante X ∼ N (0, 1),
se X è assolutamente continua con densità data da
1
ϕ(x) = √ exp(−x2 /2) (x ∈ R) . (2.3.1)
2π
Per riconoscere che la (2.3.1) definisce effettivamente una densità di probabilità, si osservi
intanto che ϕ(x) > 0 per ogni x ∈ R. Inoltre, si ricordi che è
√
Z
exp(−x2 ) dx = π. (2.3.2)
R
72 CAPITOLO 2. VARIABILI ALEATORIE
Si ha inoltre Z
E(X) = x f (x) dx = 0
R
resta cosı́chiarito che il significato dei due parametri in N (0, 1) è rispettivamente di speranza
e di varianza.
Si dice che una v.a. Y ha legge normale di parametri m e σ con m ∈ R e σ > 0, o che
Y è N (m, σ 2 ) (e si scriverà Y ∼ N (m, σ 2 )) se Y è assolutamente continua ed ha densità
(x − m)2
1
ϕN (m,σ2 ) (x) = √ exp − (x ∈ R) .
2π σ 2σ 2
L’importanza della legge normale deriva soprattutto dal teorema del limite centrale, il primo
esempio del quale, anche storicamente, è dato dal teorema di de Moivre–Laplace che si
incontrerà nella sezione 7. La legge normale trova innumerevoli applicazioni nella statistica
e in molte scienze sperimentali.
Esempio 2.3.2. (Legge uniforme). Una v.a. X ha legge uniforme su un boreliano A,
necessariamente limitato, della retta reale R se ha densità data da
1A (x)
f (x) = . (2.3.3)
λ(A)
Esempio 2.3.3. (Legge di Cauchy). Una v.a. X ha legge di Cauchy con parametri α e β
ove α ∈ R e β > 0, e si scrive X ∼ C(α, β), se ha densità
1
f (x) = " 2 # (x ∈ R) . (2.3.4)
x−α
πβ 1 +
β
Si controlla subito che la (2.3.4) è una densità di probabilità; infatti, è f (x) > 0 per ogni
x ∈ R, e
Z Z
1 dx
f dx = 2
πβ
x−α
R R 1+
β
Z
1 1 +∞
= (1 + t2 )−1 dt = [arctan t]−∞ = 1.
π π
R
La legge di Cauchy è spesso usata per fornire controesempı̂; il piú semplice è di fornire
l’esempio di una legge che non ammette speranza finita. Infatti, se α = 0 e β = 1, si ha
|x|
Z Z
1 1 x
E(|X|) = 2
dx = 2 dx
π 1+x π 1 + x2
R R
1 +∞
= ln(1 + x2 ) 0 = +∞ ,
π
sicché la speranza non esiste finita.
Esempio 2.3.4. (Leggi gamma). La funzione gamma di Eulero Γ : ]0, +∞[ → R è definita
da Z +∞
Γ(t) := xt−1 e−x dx (t > 0) .
0
Prima di introdurre le leggi gamma, è opportuno dare alcune delle proprieà della funzione
gamma che servono per la probabilità.
Z +∞
x=+∞
e−x dx = −e−x x=0 = 1 .
Γ(1) = (2.3.5)
0
√
Mediante il cambio di variabile t = x si calcola l’integrale
Z +∞ x Z +∞ Z +∞
1 e −t2 2 √
Γ = √ dx = 2 e dt = e−t dt = π . (2.3.6)
2 0 x 0 −∞
La piú importante , e piú famosa, proprietà della funzione gamma è data dalla seguente
relazione che si ottiene mediante integrazione per parti. Si supponga t > 1; allora
Z +∞ Z +∞
t−1 −x
t−1 −x x=+∞
Γ(t) = x e dx = −x e x=0
+ (t − 1) xt−2 e−x dx ,
0 0
e−θ (s+t)
P(X > s + t | X > s) = = e−θ t = P(X > t) ,
e−θ s
ciò che prova l’asserto.
Esempio 2.3.5. (Leggi beta). Se α e β sono numeri strettamente positivi e se la funzione
beta B è definita da
Z 1
B(α, β) := xα−1 (1 − x)β−1 dx (α, β > 0) .
0
2.3. ESEMPÎ 75
Come nell’esempio precedente è necessario disporre di alcune proprietà della funzione beta.
Mediante la sostituzione y = 1 − x si ha
Z 1 Z 1
B(α, β) := xα−1 (1 − x)β−1 dx = y β−1 (1 − y)α−1 dx = B(β, α) ,
0 0
sicché una funzione beta è simmetrica nei sui argomenti, B(α, β) = B(β, α).
La legge beta di parametri α e β è individuata dalla densità
xα−1 (1 − x)β−1
f (x) = 1(0,1) (x) .
B(a, b)
Se una v.a. X ha legge beta di parametri α e β si scrive X ∼ B(α, β).
Si ricorra alla sostituzione x = sin2 θ per ottenere la relazione
Z 1 Z π/2
B(α, β) := x α−1
(1 − x) β−1
dx = 2 sin2α−1 θ cos2β−1 θ dθ . (2.3.10)
0 0
Per il calcolo dei momenti della legge beta è ancora necessario disporre del legame tra la
funzione beta e le funzioni gamma. Per α > 0 e β > 0 si calcoli, mediante le sostituzioni
x = u2 e y = v 2 ,
Z +∞ Z +∞
α−1 −x
Γ(α) Γ(β) = x e dx y β−1 e−y dy
0 0
Z +∞ Z +∞
2α−1 −u2 2
=4 u u du v 2β−1 e−v dv
Z 0 0
2α−1 2β−1 −(u2 +v 2 )
= u v e du dv .
R2+
(α + 1) α α2
V (X) = E(X 2 ) − E2 (X) = −
(α + β + 1)(α + β) (α + β)2
αβ
= .
(α + β + 1)(α + β)2
Si noti che tutte le altre leggi di probabilità introdotte in questa sezione, e si tratta di
quelle piú frequenti nelle applicazioni, sono diverse da zero su un insieme illimitato, le
leggi beta e uniforme sono eguali a zero fuori di un insieme compatto. Che, poi, questo
insieme compatto sia l’intervallo unitario [0, 1] nel caso delle leggi beta è questione alla
quale si rimedia facilmente mediante un cambio di variabile. Per esempio, si controlla
immediatamente che la funzione f : (a, b) → R+ definita da
α−1 β−1
1 x−a b−x
f (x) = 1(a,b) (x)
B(α, β) (b − a) b−a b−a
Esempio 2.3.6. (Legge di Student). Una v.a. X ha legge t di Student di parametro n > 0
(e si dice allora che X ha n gradi di libertà) se ha densità
n+1
Γ − n+1
x2
1 2 2
Si noti che per n = 1 la legge di Student (2.3.11) coincide con la distribuzione di Cauchy di
parametri α = 0 e β = 1.
Esempio 2.3.7. (La legge del χ2 =chi quadro). Tale legge su R+ è individuata dalla densità
x
x(n/2)−1 exp − 2
f (x) = 2σ (x > 0) .
2n/2 σ n Γ(n/2)
Se una v.a. X ha legge del chi quadro si scrive che X ∼ χ2 (n, σ); si osservi che, allora, è
X ∼ Γ( 2σ1 2 , n2 ).
Esempio 2.3.8. (La legge χ). La legge χ(n, σ) di parametri n e σ > 0 ha densità
Esempio 2.4.1. (Il problema dell’ago di Buffon). Sopra un piano è tracciato un fascio di
rette parallele che distano 2a l’una dall’altra. Sul piano si lascia cadere “a caso” un ago,
che si suppone omogeneo, di lunghezza 2l. Si chiede di calcolare la probabilità p che l’ago
intersechi una delle rette tracciate sul piano. Per evitare la possibilità di piú intersezioni,
si suppone che sia l < a. L’espressione “a caso” ha sempre il significato di distribuzione
uniforme; mentre ciò è chiaro quando l’insieme Ω è finito, come nei giochi di carte o in una
serie finita di lanci di una moneta, nel caso in esame la dizione “a caso” ha bisogno di essere
precisata. Si può fissare la posizione dell’ago rispetto all’insieme delle rette anziché rispetto
ad una retta particolare, mediante due coordinate, la distanza x del punto medio dell’ago
dalla retta piú vicina e l’angolo acuto θ che la direzione dell’ago forma con quella della retta.
Lasciar cadere “a caso” l’ago significa supporre distribuzioni uniformi per x nell’intervallo
(0, a) e per θ nell’intervallo (0, π/2). L’ago interseca una retta quando, e solo allora che,
è verificata la diseguaglianza x ≤ l sin θ. Nel piano dei parametri (θ, x) che si suppongono
indipendenti, l’insieme dei punti ai quali corrisponde un’intersezione è quello situato sotto
la sinusoide di equazione x = l sin θ.
La probabilità p d’avere un’intersezione è dunque
Z π/2
2 2l π/2 2l
p= l sin θ dθ = [− cos θ]0 = .
πa 0 πa πa
I risultati di Fox e di Lazzarini sono poco affidabili. Infatti si consideri la differenza tra i
valori corrispondenti a m e m + 1 del numero di intersezioni
a(m + 1) am a l 1
− = > = > 0.0001
2ln 2ln 2ln 2ln 2n
se n < 5000.
Esempio 2.4.2. (Il paradosso di Bertrand). Nella seconda metà dell’Ottocento, quando il
Calcolo delle Probabilità non aveva ancora avuto una sistemazione soddisfacente, Bertrand
pose la seguente domanda: Qual è la probabilità che tracciando a caso una corda in una
circonferenza di raggio r, questa abbia lunghezza maggiore di quella del lato l del triangolo
equilatero inscritto nella circonferenza?
A questa domanda Bertrand dette risposte differenti.
Prima risposta: Per evidenti ragioni di simmetria si può fissare un estremo della corda
in un punto qualsiasi della circonferenza; la corda avrà lunghezza maggiore di l se cadrà
nell’angolo del triangolo equilatero che ha un vertice nell’estremo fissato. Poiché si traccia
una corda a caso, si supporrà una distribuzione uniforme degli angoli; la probabilità cercata
è dunque p1 = 1/3 (si veda la Fig. 2.2).
Seconda risposta: Poiché tutte le direzioni sono equivalenti si può immaginare che la
corda sia parallela ad uno dei lati del triangolo. La distanza di ogni lato di un triangolo
equilatero dal centro della circonferenza nella quale è inscritto è di r/2. Ora la lunghezza
della corda sarà maggiore di l se, e solo se, essa dista dal centro della circonferenza meno di
r/2
r/2. La probabilità cercata è dunque p2 = = 1/2 (si veda la Fig. 2.3).
r
Terza risposta: La lunghezza della corda sarà maggiore di l se il suo punto medio dista
dal centro meno di r/2, vale a dire, se il suo punto medio cade all’interno del cerchio di
raggio r/2 e centro coincidente con quello della cinconferenza data. La probabilità cercata
πr2 /4
è data allora dal rapporto tra le aree dei due cerchi ed è perciò p3 = = 1/4.
πr2
La dimostrazione dei punti (b) e (c) è del tutto analoga a quella del Teorema 2.2.1.
(d) Dal Lemma 2.5.1 si ha
e, analogamente
Si osservi che la condizione (d) del precedente Teorema è piú forte della condizione che
potrebbe sembrare la naturale generalizzazione della condizione di isotonia delle funzioni di
ripartizione semplici (cioè di una sola variabile aleatoria). Si supponga che sia a < a0 e sia
t ∈ R. La (d) del Teorema 2.5.1 assicura che, per ogni s < t, valga la diseguaglianza
È immediato controllare che ϕ soddisfà alle proprietà, (a), (b) e (c). Per mostrare che ϕ
non soddisfà alla (d), basta considerare un rettangolo con tre vertici posti nel semipiano
x + y ≥ 0 e uno nel semipiano x + y < 0 per trovare che la “probabilità” di tale rettangolo
è −1! Pertanto ϕ non può essere una funzione di ripartizione.
Le funzioni s 7→ F1 (s) := F (s, +∞) e t 7→ F2 (t) := F (+∞, t) sono le funzioni di
ripartizione delle v.a. X1 e X2 , rispettivamente, e si dicono funzioni di ripartizione marginali
di F .
Definizione 2.5.1. Due variabili aleatorie X1 e X2 definite sullo stesso spazio di probabilità
(Ω, F, P) si dicono (stocasticamente) indipendenti (rispetto alla probabilità P), se, comunque
si scelgano t1 e t2 in R, si ha
La (2.5.4) si può scrivere nella forma equivalente, valida per ogni s ∈ R e per ogni t ∈ R
Vale la pena osservare che le funzioni misurabili di variabili aleatorie indipendenti sono
ancora indipendenti. È questo il contenuto del prossimo teorema.
Teorema 2.5.2. Nello spazio di probabilità (Ω, F, P) siano X1 e X2 indipendenti e siano
misurabili le funzioni ϕ1 , ϕ2 : R → R. Sono allora indipendenti le variabili aleatorie ϕ1 ◦ X1
e ϕ2 ◦ X2 .
Dimostrazione. Siano A e B due boreliani; allora
= P X1−1 ϕ−1 −1
ϕ−1
1 (A) , X2 2 (B)
= P X1−1 ϕ−1
−1 −1
1 (A) P X2 ϕ2 (B)
= P (ϕ1 ◦ X1 )−1 (A) P (ϕ2 ◦ X2 )−1 (B) ;
In queste lezioni considereremo, oltre i vettori aleatorı̂ discreti, che sono stati studiati nel
precedente capitolo, i vettori assolutamente continui. Ci limiteremo, di solito, a considerare
il caso bidimensionale, anche se alcuni risultati si lasciano estendere facilmente.
Definizione 2.5.2. Si dice densità di probabilità congiunta ogni funzione f : R2 → R tale
che
(a) f sia positiva, ∀ x ∈ R2 f (x) ≥ 0;
(b) f sia integrabile;
(c) l’integrale di f esteso a tutto R2 sia eguale a 1:
Z
f (x) dx = 1 .
R
Il vettore aleatorio (X1 , X2 ) definito sullo spazio di probabilità (Ω, F, P) si dice assoluta-
mente continuo se esiste una densità di probabilità f tale che la funzione di ripartizione
congiunta F di (X1 , X2 ) possa essere espressa nella forma
Z s Z t Z t Z s
F (s, t) = dx f (x, y) dy = dy f (x, y) dx . (2.5.4)
−∞ −∞ −∞ −∞
ove si è posto Z +∞
f1 (x) := f (x, y) dy , (2.5.5)
−∞
che si dice densità marginale di X1 . Analogamente si ha
Z t Z +∞ Z t
F2 (t) = F (+∞, t) = dy f (x, y) dx = f2 (y) dy ,
−∞ −∞ −∞
con Z +∞
f2 (y) := f (x, y) dx , (2.5.6)
−∞
che è la densità marginale di X2 .
Data una funzione di ripartizione F della quale si sappia che è assolutamente continua, la
sua densità di probabilità f si può determinare mediante derivazione: si ha, con l’eccezione
di alcuni punti che hanno complessivamente misura nulla 1
∂ 2 F (s, t) ∂ 2 F (s, t)
f (s, t) = = . (2.5.7)
∂s∂t ∂t∂s
La natura delle funzioni che compaiono assicura che l’ordine nel quale si effettuano le
derivazioni è irrilevante.
Si supponga ora che di avere un vettore aleatorio X = (X1 , X2 ) assolutamente continuo
di densità f . Vale il seguente risultato.
1 Si vedrà in altri corsi il significato preciso di questa frase. Diremo nel seguito che la proprietà espressa
]−∞, x1 ] × ]−∞, x2 ]
x2 ρ2 x2
1
= exp − +
2 (1 − ρ2 ) 2 (1 − ρ2 )
p
2πσ1 1 − ρ2
Z
1 2
× exp − (y − ρ x) dy
R 2(1 − ρ2 )
2 !
(y − ρ x)2
Z
1 x 1
=√ exp − √ p exp − dy
2πσ1 2 2π 1 − ρ2 R 2(1 − ρ2 )
(x1 − m1 )2
1
=√ exp − ,
2πσ1 2σ12
ove abbiamo usato l’eguaglianza
(y − ρ x)2
Z
1
√ p exp − dy = 1 ,
2π 1 − ρ2 R 2(1 − ρ2 )
che scende dalla constatazione che si integra su tutto R la densità della legge N (ρ x, 1 − ρ2 ).
Abbiamo cosı́ trovato che la marginale di f è la densità della legge N (m1 , σ12 ). Per
la simmetria dell’espressione di f è ovvio che l’altra marginale è la densità della legge
N (m2 , σ22 ); sappiamo ora che la funzione data è una densità di probabilità, che si dice
normale doppia. Si noti anche che abbiamo trovato il significato dei parametri m1 , m2 , σ1
e σ2 . Rimane da stabilire il significato del parametro ρ, ciò che sarà fatto nella prossima
sezione.
Siano X1 e X2 v.a. indipendenti. Vale il seguente risultato, analogo del Teorema 1.6.3.
Teorema 2.5.3. Se le variabili aleatorie X1 e X2 sono assoultamente continue, indipendenti
e hanno entrambe speranza finita, anche la v.a. prodotto Z := X1 X2 ha speranza finta e
vale la relazione
E(Z) = E(X1 ) E(X2 ) .
Dimostrazione. La densità del vettore aleatorio (X1 , X2 ) è f = f1 ⊗ f2 . Perciò
Z Z
E(|Z|) = |x1 x2 | f (x1 , x2 ) dx1 dx2 = |x1 x2 | f1 (x1 ) f2 (x2 ) dx1 dx2
R2 R2
Z Z
= |x1 | f1 (x1 ) dx1 |x2 | f2 (x2 ) dx2 = E(|X1 |) E(|X2 |) < +∞ ;
R R
ciò dimostra che Z ha speranza finita. Basta ora ripetere il calcolo elimando i segni di valore
assoluto per ottenere
Z Z
E(Z) = x1 x2 f (x1 , x2 ) dx1 dx2 = x1 x2 f1 (x1 ) f2 (x2 ) dx1 dx2
2 R2
ZR Z
= x1 f1 (x1 ) dx1 x2 f2 (x2 ) dx2 = E(X1 ) E(X2 ) ,
R R
2.6. LA COVARIANZA 85
che è l’asserto.
2.6 La covarianza
La covarianza, e piú ancora il coefficiente di correlazione, misura la dipendenza lineare di
due v.a..
Definizione 2.6.1. Date due v.a. X e Y di con varianza finita, si dice covarianza di X e
Y la speranza
Cov(X, Y ) := E [{X − E(X)}{Y − E(Y )}] . (2.6.1)
Le v.a. X e Y si dicono incorrelate se Cov(X, Y ) = 0.
La diseguaglianza di Schwarz assicura che la covarianza di X e di Y è finita; infatti,
poiché X e Y hanno varianza finita,
2
(Cov(X, Y )) ≤ E {X − E(X)}2 E {Y − E(Y )}2
= V (X) V (Y ) < +∞ .
Dalla (2.6.1) scende la seguente espressione, utile per il calcolo effettivo della covarianza,
Dimostrazione. Non è restrittivo supporre che le v.a. Xi siano centrate, cioè che sia E(Xi ) =
0 per ogni indice i in {1, . . . , n}; se non lo fossero, basterebbe considerare le v.a. Xi0 :=
Xi − E(Xi ). Allora, E(Z) = 0 e
!2 ! n
X n Xn X
V (Z) = E ci Xi = E ci Xi cj Xj
i=1 i=1 j=1
n
X n
X
= ci cj E(Xi Xj ) = ci cj vij ,
i,j=1 i,j=1
cioè l’asserto.
Sono immediati i corolları̂
Corollario 2.6.1. La matrice di covarianza è semidefinita positiva.
Corollario 2.6.2. Si ha V (X + Y ) = V (X) + V (Y ) + 2 Cov(X, Y ).
Corollario 2.6.3. Per due v.a. X e Y che abbiano varianza finita sono equivalenti le
asserzioni:
(a) X e Y sono incorrelate;
(b) E(XY ) = E(X) E(Y );
86 CAPITOLO 2. VARIABILI ALEATORIE
(c) V (X + Y ) = V (X) + V (Y ).
È conseguenza immediata del Teorema 2.5.3 che v.a. indipendenti siano incorrelate. Non
è vero, in generale, che v.a. incorrelate siano indipendenti; si consideri l’esempio seguente.
Esempio 2.6.1. Sia X una v.a. con legge N (0, 1) e sia consideri la v.a. Y := X 2 . Queste
non sono indipendenti, poiché, se, ad esempio, X prende valori in (−1, 1) necessariamente
Y assume i valori dell’intervallo (0, 1); pertanto
P(X ∈ (−1, 1), Y ∈ (2, 4)) = 0 6= P(X ∈ (−1, 1)) P(Y ∈ (2, 4))
Z 1 Z 4
1 −x2 /2 2
= e dx y 2 e−y /2 dy > 0 .
2π −1 2
D’altro canto si ha
E(X) = 0 E(Y ) = E(X 2 ) = 1 ,
e Z
1 2
E(XY ) = E(X 3 ) = √ t3 et /2
dt = 0 ,
2π R
(y − ρ x)2
Z Z
1 1 2
√ p y exp − dy = ρ x e √ x2 ex /2
dx = 1 .
R 2π 1 − ρ2 2(1 − ρ2 ) 2π R
ρ(X1 , X2 ) = ρ .
2.7. TRASFORMAZIONI DI VARIABILI ALEATORIE 87
Resta cosı́ acquisito il significato del parametro ρ che compare nell’espressione della densità
della legge normale doppia: è il coefficiente di correlazione. Si osservi che, se X1 e X2 sono
incorrelate, vale a dire se ρ = 0, la densità della normale doppia si scrive
(x1 − m1 )2 (x2 − m2 )2
1
f (x1 , x2 ) = exp + ,
2πσ1 σ2 2σ12 2σ22
α := α ∧ β 0 ,
0
β := α0 ∨ β 0 .
dall’ambito di queste lezioni elementari. Basterà supporre che g sia continua, eventualmente con qualche
punto di discontinuità.
88 CAPITOLO 2. VARIABILI ALEATORIE
Se invece g è decrescente
Z t−x
Z 1 Z Zt
= dx1 f (x1 , x2 ) dx2 = dx1 f (x1 , s − x2 ) ds
R −∞ R −∞
Zt Z
= ds f (x, s − x) dx,
−∞ R
fX1 +X2 = f1 ∗ f2 .
f1 ∗ f2 = f2 ∗ f1 ,
f1 ∗ (f2 ∗ f3 ) = (f1 ∗ f2 ) ∗ f3 ,
Vale il seguente
Dimostrazione. (a) Si ricorra alla convoluzione delle due densità, sicché, per ogni t ∈ R si
ha
(t − m1 − x)2 (x − m2 )2
Z
1
fX1 +X2 (t) = exp − − dx
2π σ1 σ2 R 2 σ2 2 σ22
Z 1
1 1
= exp − A dx ,
2π σ1 σ2 R 2
90 CAPITOLO 2. VARIABILI ALEATORIE
ove si è posto
x2 − 2 (t − m1 ) x + (t − m1 )2 x2 − 2 m2 x + m22
A := 2 +
σ1 σ22
σ2 + σ2 (t − m1 ) σ22 + m2 σ12 (t − m1 )2 σ22 + m22 σ12
= x2 1 2 2 2 − 2 x 2 2 + .
σ1 σ2 σ1 σ2 σ12 σ22
Con le posizioni
si può scrivere
Pertanto
1 (x − m(t))2
Z
1
√ exp − dx = 1 ,
2π σ R 2 σ2
onde ( )
2
1 1 (t − (m1 + m2 ))
fX1 +X2 (t) = √ p 2 exp − ,
2π σ1 + σ22 2 σ12 + σ22
(b) Poiché X1 e X2 hanno entrambe legge binomiale con lo stesso parametro p, esse si
npossono esprimere nella forma
n1
X nX
1 +n2
X1 = Zj e X2 = Zj ,
j=1 j=n1 +1
X1 + X2 = Zj
j=1
j=0 j=0
j! (n − j)!
−(λ1 +λ2 ) n
e X n n (λ1 + λ2 )n
= λj1 λ2 j = e−(λ1 +λ2 ) .
n! j=0
j n!
f X1 +X2 (t)
θα1 θα2
Z
= (t − x)α1 −1 xα2 −1 e−θ (t−x) e−θ x 1(0,+∞) (t − x) 1(0,+∞) (x) dx
Γ(α1 ) Γ(α2 ) R
Z t
θα1 +α2
= e−θ t (t − x)α1 −1 xα2 −1 dx
Γ(α1 ) Γ(α2 ) 0
Z t
θα1 +α2 −θ t α1 −1 x α1 −1 α2 −1
= e t 1− x dx
Γ(α1 ) Γ(α2 ) 0 t
Z 1
θα1 +α2
= e−θ t tα1 −1 tα2 −1 t uα2 −1 (1 − u)α1 −1 du
Γ(α1 ) Γ(α2 ) 0
θα1 +α2 θα1 +α2
= tα1 +α2 −1 e−θ t B(α2 , α1 ) = tα1 +α2 −1 e−θ t ,
Γ(α1 ) Γ(α2 ) Γ(α1 + α2 )
sicché
θα1 +α2
fX1 +X2 (t) = tα1 +α2 −1 e−θ t 1(0,+∞) (t) ,
Γ(α1 + α2 )
vale a dire X1 + X2 ∼ Γ(θ, α1 + α2 ).
Con strumenti piú raffinati si può dimostrare inoltre che, se Xi ha legge di Cauchy con
parametri αi e βi (i = 1, 2), allora X1 + X2 ha legge di Cauchy con parametri α1 + α2 e
β1 + β2 .
È talvolta utile il seguente
con x0 ∈ B(y; ε). Dividendo per ε e facendo tendere ε a zero si ha f (x0 ) → ϕ(y), mentre
Vg (y + ε) − Vg (y)
→ D+ Vg (y) = Vg0 (y) .
ε
Consideriamo, infine, il caso di un vettore aleatorio che sia una funzione (misurabile) di
un altro vettore aleatorio. Siano g : Rn → Rn una funzione misurabile e X = (X1 , . . . , Xn )
un vettore aleatorio; si domanda quale sia la legge del vettore aleatorio Y = g ◦ X di
componenti Yj = gj (X1 , . . . , Xn ) (j = 1, . . . , n).
Esempio 2.7.3. (La “definizione” stocastica del numero e). Si consideri la successione (Un )
di v.a. indipendenti e tutte di legge uniforme in (0, 1), Un ∼ U(0, 1) (n ∈ N) e la v.a.
( n
)
X
V := min n ∈ N : Uk ≥ 1 .
k=1
2.8. LA FUNZIONE GENERATRICE DEI MOMENTI 93
La speranza di V è
∞ ∞ ∞
X X 1 X 1
E(V ) = P(V = n) n = = = e,
n=2 n=2
(n − 2)! k!
k=0
Consideriamo, infine, il caso di un vettore aleatorio che sia una funzione (misurabile) di
un altro vettore aleatorio. Siano g : Rn → Rn una funzione misurabile e X = (X1 , . . . , Xn )
un vettore aleatorio; si domanda quale sia la legge del vettore aleatorio Y = g ◦ X di
componenti Yj = gj (X1 , . . . , Xn ) (j = 1, . . . , n).
Definizione 2.8.1. Data una v.a. X con f.r. F si dice funzione generatrice dei momenti la
funzione ψX : R → R definita da
ψX (t) := E etX ,
(2.8.1)
In effetti la funzione generatrice dei momenti dipende dalla v.a. X solo attraverso al sua
legge, di modo che si parlerà indifferentemente della funzione genrtrice di X oppure della
sua legge.
Si controlla immediatemante che, per a e b in R, si ha
per t ≤ t0 /|a|.
Del seguente teorema che fornisce una delle motivazioni piú forti per l’introduzione della
funzione generatrice dei momenti non daremo la dimostrazione.
Teorema 2.8.1. Se le funzioni generatrici dei moneti di due v.a. X e Y sono eguali,
ψX (t) = ψY (t), per ogni t con |t| ≤ t0 , t0 > 0, allora esse hanno la stessa legge, FX (x) =
FY (x) per ogni x ∈ R.
È molto utile il seguente risultato
Teorema 2.8.2. Se esiste la funzione generatrice dei momenti di due v.a. indipendenti X
e Y , rispettivamente per |t| ≤ t1 e per |t| ≤ t2 , esiste anche la funzione generatrice della
loro somma per |t| ≤ t0 , ove t0 = min{t1 , t2 } e vale
in virtú dell’indipendenza.
La giustificazione del nome è, di fatto, contenuta nel seguente
Teorema 2.8.3. Se per |t| ≤ t0 esiste la funzione generatrice dei momenti della v.a. X,
esistono finiti i momenti di ogni ordine µn := E(X n ).
Dimostrazione. Poiché la funzione esponenziale è positiva si ha, per ogni y ∈ R,
Esempio 2.8.3. Per la legge geometrica di parametro p (Esempio 1.8.1) vale, per ogni
t∈R
∞ ∞
X X n−1 p et
ψ(t) = p q n−1 ent = p et q et = .
n=1 n=1
1 − q et
n
Esempio 2.8.4. Sia X una v.a. di Poisson, P(X = n) = e−θ θn! con θ > 0; allora, per ogni
t ∈ R,
∞ ∞ n
X θn tn X (θ et )
ψ(t) = e−θ e = e−θ = exp θ et − 1 ,
n=0
n! n=0
n!
è la sua funzione generatrice dei momenti.
Esempio 2.8.6. La funzione generatrice dei momenti della legge normale N (0, 1) si calcola
facilmente ricorrendo al metodo del “completamento del quadrato”; per ogni t ∈ R si ha:
Z Z 2
1 tx −x2 /2 1 x
ψ(t) = √ e e dx = √ exp − + tx dx
2π 2π 2
R R
t2
Z
1 1
=√ exp − (x2 − 2tx + t2 ) + dx
2π 2 2
R
t2 /2 Z
e 1 2
=√ exp − (x − t)2 dx = et /2 ,
2π 2
R
perché si riconosce nell’ultimo integrando la densità della legge normale N (t, 1).
96 CAPITOLO 2. VARIABILI ALEATORIE
È possibile definire la funzione generatrice dei momenti anche per un vettore aleatorio.
Il Teorema 2.8.2 e i risultati di questa sezione forniscono una dimostrazione del Teorema
2.7.2 piú facile di quella incontrata nella Sezione 2.7
2.9. LA FORMULA DI DE MOIVRE–STIRLING 97
Questa doppia diseguaglianza suggerisce di paragonare ln n! alla media aritmetica del primo
e dell’ultimo termine. Tale media è
1
An = [n ln n − n + (n + 1) ln(n + 1) − n]
2
1 1
= n ln n − 2n + (n + 1) ln n + (n + 1) ln 1 +
n
1
= n+ ln n − n + an ,
2
ove n
1 1 1 1
an := ln 1 + + ln 1 + ,
2 n 2 n
che tende a 1/2 al tendere di n a +∞. Si studierà cosı́ la differenza
1
sn := ln n! − n + ln n + n . (2.9.1)
2
Ora, è
1
sn − sn+1 = ln n! − n + ln n + n − ln(n + 1)!
2
1
+ n+ ln(n + 1) + ln(n + 1) − n − 1
2
1 n+1
= n+ ln − 1;
2 n
e poiché
1
n+1 1+
= 2n + 1 ,
n 1
1−
2n + 1
si ha
1
1 1+
sn − sn+1 = (2n + 1) ln 2n + 1 − 1. (2.9.2)
2 1
1−
2n + 1
Com’è noto, per |t| < 1 vale il seguente sviluppo in serie
1 1 X tn
ln(1 + t) = t − t2 + t3 + · · · = (−1)n+1 (2.9.3)
2 3 n
n∈N
98 CAPITOLO 2. VARIABILI ALEATORIE
I termini di quest’ultima serie sono maggiorati dai termini della serie geometrica di ragione
(2n + 1)−2 < 1 (per n > 2), onde scende dalla (2.9.5)
1 1
0 < sn − sn+1 <
3(2n + 1)2 1 − (2n + 1)−2
1 1
= (2.9.6)
3 (2n + 1)2 − 1
1 1 1
= = − .
12(n2 + n) 12n 12(n + 1)
Si vede, intanto, che la successione (sn ) è decrescente è, perciò, ammette limite ξ ≥ −∞;
d’altro canto, pure dalla (2.9.6), scende
1 1
sn − < sn+1 −
12n 12(n + 1)
n!
lim √ = 1,
n→+∞ (n/e)n eξ n
onde √
n! = eξ nn n e−n eθn . (2.9.7)
1
Dimostriamo ora che 0 < θn < 12n .
Si ricava dalla (2.9.5) che
1 1 1
sn − sn+1 > 2
> −
3(2n + 1) 12(n + 1) 12(n + 2)
1 1
e di qui che la successione (sn − 12(n+1) ) decresce. Poiché si è visto che (sn − 12n ) cresce,
si ha la doppia diseguaglianza
1 1
ξ+ < sn < ξ +
12(n + 1) 12n
2.9. LA FORMULA DI DE MOIVRE–STIRLING 99
sicché
1 1 1
|θ| < 1 + r + r .
12 n pq pq
p+a q−b
n n
2.10. I TEOREMI DI DE MOIVRE–LAPLACE 101
Dimostrazione. Si supponga dapprima che sia −∞ < a < b < +∞; Si indichino con
j − np
xn,j := √
npq
per la (2.10.1) è
2
e−xn,j /2
Sn − np
P √ = xn,j = P(Sn = j) ' √
npq 2 π npq
uniformente in [a, b]. Dato ε > 0, si ha, per n abbastanza grande, diciamo per n ≥ n0 , da
un lato 2 2
e−xn,j /2 e−xn,j /2
(1 − ε) √ ≤ P(Sn = j) ≤ (1 + ε) √ ,
2 π npq 2 π npq
per ogni xn,j , e d’altro canto,
Z b −x2n,j /2
1 2
−x /2
X e
√ e dx − √ < ε.
2π
a 2 π npq
j:xn,j ∈[a,b]
Poiché
Sn − np X
P a≤ √ ≤b = P (Sn = j) ,
npq
j:xn,j ∈[a,b]
si ha
2
e−xn,j /2
X Sn − np
(1 − ε) √ ≤P a≤ √ ≤b
2 π npq npq
j:xn,j ∈[a,b]
2
X e−xn,j /2
≤ (1 + ε) √
2 π npq
j:xn,j ∈[a,b]
e quindi
!
b
Sn − np
Z
1 2
−x /2
(1 − ε) √ e dx − ε ≤P a≤ √ ≤b
2π a npq
Z b !
1 −x2 /2
≤ (1 + ε) √ e dx + ε .
2π a
Perciò Z
1 2
lim P(|Un | > c) = √ e−x /2
dx < ε .
n→+∞ 2π
|x|>c
2.11. NOTE AL CAPITOLO 2 103
Esiste quindi n1 ∈ N tale che, per ogni n ≥ n1 , sia P(|Un | > c) < ε. Allora, per ogni n ≥ n1 ,
si ha
Z +∞
P(Un ≥ a) − √1 −x2 /2
e dx
2π a
Z c
1 2
e−x /2 dx + P(Un > c)
≤ P(a ≤ Un ≤ c) − √
2π a
Z +∞
1 2
+√ e−x /2 dx
2π c
Z c
1 −x2 /2
< 2 ε + P(a ≤ Un ≤ c) −
√ e dx .
2π a
In virtú della prima parte della dimostrazione, se n ≥ n0 ∨ n1 , anche l’ultimo termine è
minore di ε, sicché l’asserto è provato.
La dimostrazione del caso −∞ = a < b < +∞ è analoga a quella appena data; infine, il
caso a = −∞, b = +∞ discende immediatamente dagli ultimi due.
3. Si cerchi l’esempio di una v.a. per la quale nella diseguaglianza di Čebyšev valga il segno
d’eguaglianza.
4. Sia X una v.a.; g : R → R+ sia continua e sia B un insieme tale che g(x) > a > 0 per
ogni x ∈ B. Allora
E (g ◦ X)
P(X ∈ B) < .
a
È questa una generalizzazione della diseguaglianza di Čebyšev; quest’ultima si ottiene
2
prendendo g(x) = [x − E(X)] .
5. Siano X1 , X2 , . . . , Xn v.a. positive con speranza finita. Allora, per ogni c > 0, è
n
! n
X 1 X
P Xi > c ≤ E(Xi ) .
i=1
c i=1
6. Sia X una v.a. tale che E(X) = 0, V (X) = 1, |X| < K con K > 1. Allora vale, per ogni
λ < 1, la diseguaglianza
1 − λ2
P (|X| ≥ λ) ≥ 2 .
K − λ2
7. Sia ϕ : R → [0, α] una funzione continua positiva (limitata). Per ogni t ∈ [0, α[ si ha
E (ϕ ◦ X) − t
P (ϕ ◦ X ≥ t) ≥ .
α−t
t 7→ f (t) := E (X − t)2
si ha per t = E(X).
11. Si mostri che la funzione Γ definita dalla (2.9.9) soddisfà alle seguenti proprietà:
1 · 3 · 5 · · · · · (n − 1) √ (n − 1)!! √
n+1
(d) Γ = n/2
π= π (n pari) ;
2 2 2n/2
Γ(β)
xβ−1 exp(−αx) dx =
R
(e) (α, β > 0) ;
R+ αβ
Per la funzione gamma e le sue proprietà in un ambito piú vasto, si veda Whittaker &
Watson (1927).
Resta cosı́ definita una funzione B : ]0, +∞[ × ]0, +∞[ → R+ detta funzione beta. Si mostri
che B è simmetrica: B(r, s) = B(s, r) e che
π/2 +∞
ts−1
Z Z
B(r, s) = 2 sin2r−1 θ cos2s−1 θ dθ = dt .
0 0 (1 + t)r+s
Γ(r) Γ(s)
14. B(r, s) = (r, s > 0).
Γ(r + s)
16. Per la distribuzione di Student a n gradi di libertà, il momento di ordine k esiste se, e
solo se, k < n. In tal caso se k è dispari, si ha E(X k ) = 0, mentre, se k < n è pari, si calcoli
E(X k ).
17. Si controlli che sia la (2.3.12) sia la (2.3.13) definiscono densità di probabilità.
106 CAPITOLO 2. VARIABILI ALEATORIE
18. La f.r. di una v.a. X con legge Γ(λ, n) con n ∈ N è, per x > 0,
n−1
X (λ x)j −λ x
F (x) = 1 − e .
j=0
j!
λk
P(X = k) = e−λ (k ∈ Z; λ > 0)
k!
si ha √
2πλ P(X = j) j−λ
lim =1 se t := √ .
λ→+∞ exp(−t2 /2) λ
Si applichi questo risultato al calcolo del limite
n
X nj 1
lim e−n = .
n→+∞
j=0
j! 2
20. Sia N il numero di palline contenute in un’urna e sia θ ∈ ]0, 1[ la proporzione di palline
bianche. Se pk,n (N ) è la probabilità che, nell’estrazione senza restituzione di n palline
dall’urna, k siano bianche, si dimostri che, al tendere di N a +∞, pk,n (N ) tende all’analoga
probabilità in un’estrazione con restituzione. Tale fatto trova applicazione nella Statistica
Matematica quando si sostituisce alla legge ipergeometrica la legge binomiale. Come si vede
ciò è lecito quando la popolazione dalla quale si sta campionando è molto piú numerosa del
campione che si considera, vale a dire quando N è molto piú grande di n.
23. Se il vettore (X, Y ) ha una densità f , si determinino le leggi delle v.a. (a) X − Y , (b)
XY , (c) X/Y .
(a) Si controlli che fα,λ è effettivamente una densità di probabilità e se ne scriva la f.r.;
(b) sia T una v.a. con la legge di Weibull; si studii per quali valori di α e di λ la funzione
s 7→ P(T > s + t | T > s) sia crescente o decrescente;
(c) se X ha legge esponenziale di parametro λ > 0, X ∼ Γ(λ, 1), si calcoli, per β > 0,
E(X β ) e si trovi la legge di X β . Si usi tale risultato per calcolare la speranza della
v.a. T del punto (b).
Questa legge fu introdotta in Weibull (1951). Si veda, per maggiori informazioni Johnson
et al. (1994) che le dedica un capitolo.
G(x) := 1 − `− F (−x) (x ∈ R)
27. Si verifichi che le funzioni F, G : R → [0, 1] definite sotto soddisfanno alle condizioni
(a), (b) e (c) del Teorema 2.5.1 sono crescenti in ogni variabile, ma non sono f.r.
(
1, x + y ≥ 0,
F (x, y) :=
0, x + y < 0,
(
max{0, x + y + 1} , x + y < 0 ,
G(x, y) :=
1, x + y ≥ 0.
si calcolino le probabilità
(a) P(X1 ≤ 1, X2 ≤ 1);
(b) P(X1 + X2 ≤ 1);
(c) P(X1 + X2 ≥ 2);
(d) P(X1 < X2 );
(e) P(X1 > 1);
(f) P(X1 = X2 );
(g) P(X2 < 1|X1 ≤ 1);
108 CAPITOLO 2. VARIABILI ALEATORIE
30. Il vettore aleatorio (X1 , X2 ) assume i valori sotto indicati con le probabilità date dalla
seguente tabella (ove p = 1/60)
.
X2 \X1 .. 0
1 2
. . . . . . . . . . . . . . . . . . . . . . . .
..
0 . p 2p 3p
..
1 . 2p 4p 6p
2 ..
. 3p 6p 9p
3 ..
. 4p 8p 12p
31. Sia T il triangolo con vertici nei punti (0, 0), (0, 1), (1, 1).
(a) Si calcoli la costante k in modo che sia una densità di probabilità la funzione (x, y) 7→
k
f (x, y) := 1T (x, y), √ ;
xy
(b) si determinino le leggi marginali e si dica se siano indipendenti.
k
f (x, y) := .
(1 + x2 )(1 + y 2 )
(a) Si calcoli la costante k in modo che sia f sia la densità di probabilità di un vettore
aleatorio (X, Y );
(b) si calcoli la f.r. di (X, Y );
(c) si calcoli P [(X, Y ) ∈ Q] se Q = (0, 1) × (0, 1).
2.12. ESERCIZÎ SUL CAPITOLO 2 109
36. Se X e Y hanno varianza finita e se non sono costanti q.c., si mostri che ha minimo
assoluto la funzione (s, t) 7→ f (s, t) := E (Y − s − tX)2 e si trovino i valori si s e di t che
realizzano tale minimo.
37. Siano X e Y due v.a. con varianza finita, strettamente positiva e tale che V (X) = V (Y ).
Allora X + Y e X − Y sono incorrelate. Sono anche indipendenti?
Y := arctan X ?
p
41. Se X è assolutamente continua, quali sono le leggi di |X| e di |X|?
110 CAPITOLO 2. VARIABILI ALEATORIE
44. Se X p è distribuita uniformemente in (0, 1), si calcolino le leggi delle seguenti v.a. (a)
X 2 , (b) |X|, (c) eX , (d) − ln |X|, (e) cos πX.
48. Se α > 0 e X ∼ N (0, 1), qual è la legge della v.a. Y = X 1{|X|≤α} − X 1{|X|>α} ?
49. Si scrivano le f.r. della distribuzione uniforme sul quadrato unitario Q = (0, 1) × (0, 1)
e di quelle uniformi sulle diagonali di Q. Si mostri che le tre f.r. hanno le stesse marginali.
50. Siano X e Y due v.a. indipendenti, entrambe di legge uniforme sull’intervallo (0, 1).
Qual è la legge della v.a. X + Y ?
51. Siano X1 e X2 v.a. indipendenti definite sullo stesso spazio di probabilità, di legge
Γ(θ, p) e Γ(θ, q) rispettivamente. Definite le v.a.
X1
Y1 := X1 + X2 e Y2 :=
X1 + X2
si mostri che sono indipendenti e se ne determinino le leggi.
53. Siano X e Y due v.a. indipendenti e di legge uniforme in (0, 1); si trovi la densità del
vettore aletorio (X, Z), ove Z = X + Y .
56. Sono date due v.a. strettamente positive X e Y che hanno f come densità congiunta.
(a) Si trovi la densità congiunta del vettore (U, V ) ove U = X + Y e V = X/Y .
(b) Se inoltre X e Y sono indipendenti e hanno, rispettivamente, legge Γ(θ, α) e Γ(θ, β),
si mostri che U e V sono indipendenti e se ne trovino le leggi.
57. Sia X una v.a. strettamente positiva di densità f . Si trovi la legge della v.a. V = 1/U .
59. Siano O = (0, 0), A = (1, 1), B = (1/2, 1), C = (0, 1/2), D = (1, 0), E = (1, 1/2) e
F = (1/2, 0) punti del piano e sia f la densità di probabilità uniforme con supporto dato
dall’unione del quadrilatero OABC e del triangolo DEF . Se il vettore aleatorio (X, Y ) ha
densità f ,
(a) si trovino le leggi (marginali) di X e di Y ;
112 CAPITOLO 2. VARIABILI ALEATORIE
61. Sia ϕ : R+ → R una funzione di classe C1 , cioè derivabile e con derivata continua, tale
che ϕ(0) = 0. Se X è una v.a. a valori positivi vale
Z +∞ Z +∞
E (ϕ ◦ X) = ϕ0 (t) P(X ≥ t) dt = ϕ0 (t) P(X > t) dt .
0 0
Una v.a. X con f.r. F e densità f è integrabile se, e solo se, valgono le due diseguaglianze
Z +∞ Z 0
{1 − F (t)} dt < +∞ e F (t) dt < +∞ ;
0 −∞
Si interpreti questo risultato dal punto di vista geometrico. Se X hA speranza finita, allora
lim x {1 − F (x)} = 0 ,
x→+∞
lim x F (x) = 0 .
x→−∞
62. Se X è una v.a. che assume solo valori interi positivi, allora
X
E(X) = P(X ≥ n) .
n∈N
(a) f (0) = 0;
2.12. ESERCIZÎ SUL CAPITOLO 2 113
65. Se X è una v.a. con legge esponenziale e s e t sono numeri strettamente positivi, vale
Viceversa si supponga che una v.a. X verifichi quest’ultima relazione per ogni coppia s e t
di numeri reali. Si mostri, nell’ordine, che, se F è la f.r. di X,
(a) F (0) = 0, o, equivalentemente, P(X > 0) = 1;
(b) ∀ x > 0 0 < F (x) < 1;
(c) la v.a. X ha legge esponenziale.
Si mostri che la proprietà (∗), nota sotto il nome di mancanza di memoria, vale nel caso
delle distribuzioni discrete, per la legge geometrica se X rappresenta il tempo al quale si
ha il primo successo nel processo bernoulliano, cioè X := min{n ∈ N : Xn = 1}. Si veda
Nelsen (1987).
69. Siano U1 e U2 due v.a. definite sullo stesso spazio di probabilità ed indipendenti, en-
trambe con legge uniforme su (0, 1), Uj ∼ U(0, 1) (j = 1, 2). Se X := ln U2 /U1 , qual è la
legge di X?
70. Siano X e Y due v.a. definite sullo stesso spazio di probabilità ed indipendenti. X
assume i valori +1 e −1 entrambi con probabilità 1/2, mentre Y ha legge esponenziale di
parametro 1, Y ∼ Γ(1, 1). Se Z := X Y , qual è la legge di Z?
p
71. Sia X una v.a. con legge χ(n, σ 2 ); si trovi la legge di X/n. Se X1 ,. . . , Xn sono
indipendenti isonome con Xj ∼ N (0, σ 2 ) con (j = 1, 2, . . . , n), allora la v.a.
1/2
n
1 X
V := Xj2
n
j=1
X ∼ N (0, σ 2 ) e Y ∼ χ(n, σ) ;
allora la v.a. X/Y ha legge di Student di parametro n. Si osservi che la legge di Student
non dipende dal parametro σ.
73. Una serie di eventi indipendenti si realizza con legge di Poisson: il parametro λ > 0 è
il numero di eventi per unità di tempo. Il tempo d’attesa Tk sino a che non si verifica il
k–esimo evento ha legge Γ(λ, k).
74. La somma di r v.a. indipendenti, tutte con legge esponenziale di parametro λ > 0, ha
legge Γ(λ, r); in altre parole Γ(r, λ) è la convoluzione di r leggi esponenziali Γ(λ, 1).
X 00 := max{X1 , X2 , . . . , Xn } = ∨nj=1 Xj ,
X 0 := min{X1 , X2 , . . . , Xn } = ∧nj=1 Xj .
77. Siano X1 , . . . , Xn v.a. indipendenti ed isonome. Si ordinino le v.a. in modo che sia
n2 X1
78. Se X1 e X2 sono v.a. indipendenti e Xi ha legge χ2 (ni ) (i = 1, 2), allora T =
ha
n1 X2
legge F (n1 , n2 ), detta legge di Fisher–Snedecor. Se ne calcolino, quando esistano, la media
e la varianza.
81. Nello spazio di probabilità (Ω, F, P) sia (Xn ) una successione di v.a. indipendenti,
Pn tutte
di legge esponenziale di parametro λ > 0, Xn ∼ Γ(λ, 1). Si ponga, al solito, Sn := j=1 Xj .
Per t > 0, si definisca la v.a. X
Nt := 1{Sn ≤t} .
n∈N
Si mostri che
(a) è , per ogni n ∈ N,
{Nt = n} = {Sn ≤ t} \ {Sn−1 ≤ t};
82. Siano f1 e f2 due densità di probabilità e siano A > 0, [a1 , b1 ] e [a2 , b2 ] tali che risulti
fi (xi ) ≥ A per ogni xi ∈ [ai , bi ] (i = 1, 2). Si definisca ora ϕ : R2 → R mediante
π a1 + b1 π a2 + b2
ϕ(x, y) := A2 sin x1 − × sin x2 −
b1 − a1 2 b2 − a2 2
se (x, y) ∈ [a1 , b1 ] × [a2 , b2 ], ϕ := 0 altrove. Allora
S := X ∧ Y e T := |X − Y | .
116 CAPITOLO 2. VARIABILI ALEATORIE
85. Il problema dei momenti : Data una legge ne restano individuati, se esistono, i momenti
mk := E(X k ) (k ∈ N). Ci si può domandare se la successione
(mk )k∈Z+
individui la legge. La risposta è, in generale, negativa. Sia f la densità della legge
lognormale:
ln2 x
1
f (x) = √ exp − 1]0,+∞[ (x) ;
2π x 2
se a ∈ ]0, 1], si ponga fa (x) := f (x){1 + a sin(2π ln x)}. Allora:
(a) fa definisce una densità di probabilità su R;
(b) mk esiste per ogni k sia per la legge lognormale sia per quella di densità fa e le due
leggi hanno le stesse successioni di momenti.
Per il problema dei momenti in generale, si può consultare la monografia Shohat & Tamarkin
(1943).
86. L’estremo inferiore di una famiglia (non necessariamente numerabile) di f.r. è una f.r.?
e l’estremo superiore?
87. Sia X una v.a. con f.r. continua F ; allora la v.a. F ◦ X ha legge uniforme in [0, 1]. Cosa
accade se F non è continua?
Allora
(a) ∀ t ∈ ]0, 1] F [F̂ (t)] ≥ t; il segno d’eguaglianza vale se, e solo se, F è continua;
(b) ∀ x ∈ R F̂ [F (x)] ≤ x; il segno d’eguaglianza vale se, e solo se, F è strettamente
crescente.
89. Siano Y una v.a. di legge B(p, q) con p, q ∈ Z+ e p > 1 e X una v.a. di legge binomiale
di parametri p + q − 1 e θ ∈ ] 0, 1[. Allora P(Y ≤ θ) = P(X ≥ p).
90. Anziché usare la formula di Wallis (2.9.8) come nell’ultima parte della Sezione 2.9 si
usi il teorema di de Moivre–Laplace per calcolare il valore della costante c = eξ .
2.12. ESERCIZÎ SUL CAPITOLO 2 117
91. In una passeggiata aleatoria di Bernoulli, con p ∈ ]0, 1[, si dimostri che, usando la
notazione usuale, si ha
∀k ∈ Z lim P(Gn = k) = 0 .
n→+∞
92. Sia X una v.a. uniformemente distribuita nell’intervallo (0, 1). Si consideri lo sviluppo
di X in base 10: X xn
X=
10n
n∈N
con xn ∈ {0, 1, . . . , 9}. Qual è la probabilità che in tale sviluppo non compaia mai la cifra
5.
93. Le v.a. X1 , . . . , Xn si dicono scambiabili se la loro f.r. congiunta è una funzione simme-
trica, vale a dire se è invariante per permutazioni. Una successione di v.a. si dice scambiabile
se tale è ogni suo sottoinsieme finito.
(c) se (Xn ) è successione scambiabile nella quale tutte le v.a. hanno varianza finita,
ρ(Xj , Xk ) non dipende dagli indici j e k e ρ(X1 , X2 ) ≥ 0.
95. Sullo spazio di probabilità (Ω, F, P) si consideri la successione (Xn ) di v.a. indipendenti,
tutte di leggePesponenziale di parametro λ > 0, Xn ∼ Γ(λ, 1) per ogni n ∈ N. Posto, al
n
solito, Sn := j=1 Xj , si consideri, per t ≥ 0, la v.a.Nt : Ω → Z+ ∪ {+∞} definita da
X
Nt := 1{Sn ≤t} .
n∈N
96. Siano U una v.a. di legge uniforme su (0, 1) e X1 , X2 , . . . , Xn v.a. indipendenti e isonome
definite sullo stesso spazio di probabilità (Ω, F, P). Se, per j = 1, 2, . . . , n,
P (Xj = 1 | U = x) = x e P (Xj = −1 | U = x) = 1 − x
con x ∈ ]0, 1[ e se Yj := Xj Xj+1 (j = 1, 2, . . . , n − 1), si calcolino media e varianza della
v.a.
n−1
X
S := Yj .
j=1
98. Tre v.a. indipendenti X0 , X1 e X2 assumono ciascuna valori interi positivi. Si ponga
Y1 := X0 + X1 e Y2 := X0 + X2 .
Siano λ0 , λ1 e λ2 tre costanti strettamente positive. Si determinino le leggi delle tre v.a.
X0 , X1 e X2 , se la legge congiunta di Y1 e Y2 è data da
n∧s
X λk0 λn−k λ2s−k
P(Y1 = n, Y2 = s) = 1
e−(λ0 +λ1 +λ2 ) .
k! (n − k)! (s − k)!
k=0
100. Sopra un segmento, che si può supporre di lunghezza unitaria, si segnino a caso ed
indipendentemente due punti. Qual è la probabilità che i tre segmenti cosı́ ottenuti siano i
lati di un triangolo?
101. Siano X e Y due v.a. indipendenti, entrambe di legge N (0, 1). Si determinino:
(a) la legge della v.a. X − Y ;
√
(b) la legge del vettore (X, 2 Y );
(c) la legge del vettore (X, X − Y );
(d) la legge del vettore aleatorio (X + Y, X − Y ); sono indipendenti le componenti X + Y
e X − Y di tale vettore?
[1] D. André, Solution directe du problème résolu par M. Bertrand, C.R. Acad. Sci. Paris
105, 436–437 (1887).
[2] K. Baclawski, M. Cerasoli, G.C. Rota, Introduzione alla probabilità, Monografie
dell’Unione Matematica Italiana, Pitagora, Bologna, 1984.
[3] P. Baldi, Calcolo delle probabilità e statistica, McGraw–Hill, Milano, 1992.
[4] P. Baldi, R. Giuliano, L. Ladelli, Laboratorio di statistica e probabilità, McGraw–Hill,
Milano, 1995.
[5] D.R Bellhouse, Abraham de Moivre: setting the stage for classical probability and its
applications, CRC Press, Boca Raton FL, 2011.
[6] S. Bernstein, Démonstration du théorème de Weierstrass fondée sur le calcul des
probabilités, Soob. Charkov Mat. Obs. 13, 1–2 (1912).
[7] I.J. Bienaymé, Considérations à l’appui de la découverte de Laplace sur la loi des
probabilité dans la méthode des moindres carrés, C.R. Acad. Sci. Paris 37, 309–324
(1853).
[8] I.J. Bienaymé, Considérations à l’appui de la découverte de Laplace sur la loi des
probabilité dans la méthode des moindres carrés, J. Math. Pures Appl. (2) 12, 158–176
(1867).
[9] P. Billingsley, Probability and Measure, Wiley, New York, 1979; terza edizione, 1995.
[10] R.P. Boas jr., A primer of real functions, Mathematical Association of America,
Washington 1960.
[11] É. Borel, Mécanique statistique et irréversibilité, J. Phys. 5e série 3, 189-196 (1913).
[12] C.B. Boyer, A history of mathematics, Wiley, New York, 1968; traduzione italiana
“Storia della matematica”, Arnoldo Mondadori, Milano, 1980.
[13] R.A. Brualdi, Introductory Combinatorics, Elsevier North–Holland, New York 1977.
[14] A. Buonocore, A. Di Crescenzo, L.M. Ricciardi, Appunti di probabilità, Liguori,
Napoli, 2011.
[15] T. Cacoullos, Exercises in probability, Springer, New York, 1989.
[16] G. Castelnuovo, Calcolo delle Probabilità, Zanichelli, Bologna, 1926 (ristampa del
1976).
[17] P.L. Čebyšev, Des valeurs moyennes, J. Math. Pures Appl. (2) 12, 177– 184 (1867);
traduzione inglese in Smith (1929).
[18] M. Cerasoli, Problemi Risolti di Calcolo delle Probabilità, Ambrosiana, Milano, 1991.
119
120 BIBLIOGRAFIA
[21] H. Cramér, Half a century with probability theory: some personal recollections, Ann.
Probab. 4, 509–546 (1976); anche in Cramér (1994), pp. 1352–1389.
[22] N. Cufaro Petroni, Lezioni di Calcolo delle Probabilità, Edizioni dal Sud, Modugno
(Bari) (1996).
[24] J.W. Dauben, The history of mathematics from antiquity to the present. A selective
bibliography, Garland, New York–London, 1985.
[26] B. de Finetti, Probabilità, voce del vol. 10 dell’Enciclopedia Einaudi, Torino, 1980.
[27] J. Dieudonné, Abrégé d’histoire des mathématiques 1700–1900, Vol. II, Hermann,
Pari, 1978.
[28] W. Feller, An Introduction to Probability Theory and Its Applications. vol. I, Wiley,
New York, 1950; terza ed., 1968.
[30] B.V. Gnedenko, The Theory of probability, Mir, Moscow, 1968; traduzione italiana
Teoria delle Probabilità, Editori Riuniti, Roma, 1985.
[32] C.C. Heyde, E. Seneta, I.J. Bienaymé: statistical theory anticipated, Springer, New
York, 1977.
[33] C.C. Heyde, E. Seneta, Statistician of the centuries, Springer, New York, 2001.
[34] N.L. Johnson, S. Kotz, A.W. Kemp, Univariate Discrete Distributions, Wiley, New
York (2nd ed.), 1993.
[35] M. Kline, Mathematical thought from ancient to modern times, Oxford University
Press, New York, 1972; traduzione italiana, Einaudi, Torino.
[38] S. Kotz, N.L Johnson, Encyclopedia of Statistical Sciences, Wiley, New York, 1982–
1988.
[39] L. Le Cam, The central limit theorem around 1935, Statistical Science 1, 78-91, 1986.
[41] M. Loève, Probability Theory, Van Nostrand, New York, 1963; quarta edizione in due
volumi Probability Theory I, II, Springer, New York–Heidelberg–Berlin, 1977– 78.
BIBLIOGRAFIA 121
[43] G. Loria, Storia della matematiche dall’alba della civiltà al tramonto del XIX secolo,
Hoepli, Milano, 1950; ristampa, Cisalpino–Goliardica, Modena, 1982.
[44] L. E. Maistrov, Probability Theory. A Historical Sketch, Academic Press, New York,
1974.
[45] A.A. Markov, Izv. Fiz.–Matem. Obsch. Kazan Univ. (2) 8, 110–128 (1906); anche in
(Markov, 1951).
[46] A.A. Markov, Ischishenie Veroiatnostei (Calcolo delle Probabilità), Gosizdat, Mosca,
1913.
[48] R. von Mises, Über Auftellungs und Besetzungswahrscheinlichkeiten, Rev. Fac. Sci.
Istanbul, 4, 145–163 (1932); reprinted in Selected Papers of R. Von Mises, Vol. 2,
Amer. Math. Soc., Providence, RI, pp. 313–331.
[49] E. Parzen, Modern probability theory and its applications, Wiley, New York, 1960;
traduzione italiana, La moderna teoria della probabilità e le sue applicazioni, Franco
Angeli, Milano, 1976.
[50] N. Pintacuda, Coupons collectors via the martingales, Bull. Un. Mat. Ital. A (5) 17,
174–177 (1980).
[52] G. Pólya, Über den zentralen Grenzwertsatz der Wahrscheinlichkeitsrechnung und das
Momentenproblem, Math. Zeit. 8, 171–181 (1920).
[53] G. Pólya, Über eine Aufgabe der Wahrscheinlichkeitsrechnung betreffend die Infahrt
in Straßenretz, Math. Ann. 84, 149–160 (1921).
[54] N.L. Rabinovitch, Probability in the Talmud, Biometrika 56, 437–441 (1969).
[55] H. Robbins, A remark on Stirling’s formula, Amer. Math. Monthly 62, 26–29 (1962).
[56] J.P. Romano, A.F. Siegel, Counterexamples in probability and statistics, Wadsworth
& Brooks/Cole, Monterey CA, 1986.
[59] O.B. Sheynin, Poisson’s work on probability, Arch. Hist. Exact Sci. 18, 245–300
(1978).
[60] D.E. Smith, A source book in mathematics, McGraw–Hill, New York, 1929; ristampa
in due volumi, Dover, New York, 1959.
[62] D. Struik, A concise history of mathematics, Dover, New York, 1947; traduzione
italiana, Matematica: un profilo storico, Il Mulino, Bologna, 1981.
[63] G.J. Székely, Paradoxes in probability theory and mathematical statistics, Reidel, Dor-
drecht, 1986.
122 BIBLIOGRAFIA