Probabilità (Laurea Triennale)

Introduzione alla Probabilità
A.A. 2016–2017
Prof. Carlo Sempi

Dipartimento di Matematica
“Ennio De Giorgi”
Università del Salento
carlo.sempi@unisalento.it
22 novembre 2017
ii
Indice
Prefazione 1
1 Probabilità discrete 1
1.1 Che cos’è la probabilità? . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1
1.2 Operazioni sugli insiemi . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.3 Probabilità discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
1.4 Alcuni problemi d’urna . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1.5 Probabilità condizionata e indipendenza . . . . . . . . . . . . . . . . . . . . . 17
1.6 Variabili aletorie discrete . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.7 La diseguaglianza di Čebyšev . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.8 Alcune distribuzioni di probabilità discrete . . . . . . . . . . . . . . . . . . . 28
1.9 Probabilità di un assegnato numero di eventi . . . . . . . . . . . . . . . . . . 33
1.10 Alcuni problemi classici di probabilità . . . . . . . . . . . . . . . . . . . . . . 35
1.11 Passeggiata aleatoria di Bernoulli . . . . . . . . . . . . . . . . . . . . . . . . . 39
1.12 La funzione generatrice delle probabilità . . . . . . . . . . . . . . . . . . . . . 49
1.13 Passeggiata aleatoria in Zd . . . . . . . . . . . . . . . . . . . . . . . . . . . . 51
1.14 La definizione soggettiva della probabilità . . . . . . . . . . . . . . . . . . . . 53
1.15 Note al Capitolo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
1.16 Esercizı̂ sul Capitolo 1 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 57
2 Variabili Aleatorie 69
2.1 Variabili aleatorie assolutamente continue . . . . . . . . . . . . . . . . . . . . 69
2.2 Le funzioni di ripartizione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 70
2.3 Esempı̂ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 71
2.4 Probabilità geometriche . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 77
2.5 Vettori aleatorı̂ . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 80
2.6 La covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 85
2.7 Trasformazioni di variabili aleatorie . . . . . . . . . . . . . . . . . . . . . . . . 87
2.8 La funzione generatrice dei momenti . . . . . . . . . . . . . . . . . . . . . . . 93
2.9 La formula di de Moivre–Stirling . . . . . . . . . . . . . . . . . . . . . . . . . 97
2.10 I teoremi di de Moivre–Laplace . . . . . . . . . . . . . . . . . . . . . . . . . . 100
2.11 Note al Capitolo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
2.12 Esercizı̂ sul Capitolo 2 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 103
iii
iv INDICE
Prefazione
Queste lezioni riproducono, con qualche ampliamento, l’argomento del corso introduttivo
di Probabilità che, oramai da molti anni, tengo presso l’Università di Lecce, prima e del
Salento poi. Esse non sono un trattato di Probabilità e sono state scritte al solo scopo di
facilitare il compito dello studente che, per la prima volta, si avvicini a questa disciplina.
Quanto è qui presentato corrisponde al programma che è possibile svolgere in un corso di
durata trimestrale; mi pare però giusto lasciare intravvedere agli studenti, almeno quelli
dotati di maggiore curiosità intellettuale, che esistono orizzonti piú ampı̂. Ad ogni capitolo
ho fatto seguire brevi note con un duplice intento,
– fornire una guida bibliografica alla letteratura per chi volesse approfondire qualche
argomento e dare traccia di approcci alternativi;
– dare lo scheletro di una storia della disciplina, sia pur estremamente sintetica.
Spero che queste lezioni, se non lo avranno annoiato troppo, inducano qualche studente
alla lettura di qualcuno dei testi citati in bibliografia e a proseguire, approfondire ed esten-
dere lo studio della probabilità. Desidero, infine, ringraziare tutti i colleghi (e sono numerosi)
dai quali ho imparato qualcosa e gli studenti che, con osservazioni e domande, mi hanno
obbligato ad uno sforzo di chiarezza del quale mi posso solo augurare che si veda il segno.
Un ringraziamento particolare va a Giorgio Metafune, Gianfausto Salvadori e a Angela Al-
banese per l’aiuto datomi nel corso degli anni, tenendo le esercitazioni e partecipando agli
esami, e, soprattutto, per avermi obbligato a ripensare alcuni degli argomenti e la maniera
di presentarli agli studenti. Naturalmente, non v’è ragione perché debbano dividere con me
le critiche o la responsabilità per gli errori, che, inevitabilmente saranno rimasti; questa è
interamente mia.
Carlo Sempi
Lecce, 22 novembre 2017
1
2 PREFAZIONE
Capitolo 1
Probabilità discrete
1.1 Che cos’è la probabilità?

Il Calcolo delle Probabilità sorge alla fine del Rinascimento per rispondere a domande che si
ponevano spontaneamente nei giochi d’azzardo, almeno alla mente di giocatori che avevano
un’inclinazione matematica. La prima raccolta di problemi, si sarebbe tentati di dire, il
primo libro di Probabilità, fu scritto da Gerolamo Cardano nel Cinquecento. Il libro non
fu pubblicato che nell’Ottocento, ma ebbe diffusione tra i cultori di matematica all’epoca
nella quale fu scritto. Inoltre, nel Talmud , quindi in tempi ancora precedenti, si hanno brevi
cenni a questioni che oggi diremmo di probabilità; tuttavia, la conoscenza del Talmud era
in Europa limitata ai dotti delle comunità ebraiche, sicché non si può affermare che le ques-
tioni alle quali si è accennato abbiano avuto risonanza nella comunità scientifica. Anche nei
testi religiosi indiani si trovano considerazioni che, dal punto di vista qualitativo, possono
essere interpretate come probabilistiche. Queste sono riscoperte oggi piú come antiquariato
storico che come vero germe del moderno Calcolo delle Probabilità. È tradizione far in-
cominciare la storia “ufficiale” del calcolo delle probabilità un poco piú tardi, precisamente,
dalla corrispodenza intercorsa nel Seicento, tra Pascal e Fermat a proposito della soluzione
di alcuni problemi posti a Pascal dal cavaliere de Meré. In seguito, numerosi matematici
si sono occupati di probabilità, anche se il primo libro che trattava in maniera profonda
di questa disciplina dovette attendere l’inizio del Settecento per essere stampato: il libro
di Jacques Bernoulli Ars Conjectandi pubblicato postumo a Basilea nel 1713 a cura e con
contributi del nipote Nicola Bernoulli; la prima delle quattro parti del libro riproduce il testo
del manoscritto di Huyghens De Ludo Aleae. I problemi con i quali si confronta la nuova
disciplina sono quelli che piú immediatamente si presentano all’attenzione degli osservatori
attenti: i giochi d’azzardo. Non deve sorpendere che sia stato cosı́; il dominio del Calcolo
delle Probabilità è infatti costituito da tutti i fenomeni nei quali viene meno il legame tra
causa ed effetto e nei quali le stesse condizioni, almeno per ciò che rientra nel controllo e
nelle conoscenze dell’osservatore, possono produrre esiti differenti. Nulla di piú naturale che
ciò sia stato avvertito per la prima volta nel lancio di una moneta, nel lancio di un dado,
nell’osservazione di un gioco di carte.
All’incirca nello stesso periodo che vide la nascita del calcolo delle probabilità, anzi con
Newton, che è attivo nella seconda metà del Seicento, addirittura leggermente piú tardi
rispetto alla corrispondenza tra Pascal e Fermat, nasceva la moderna meccanica razionale
che vedeva subito un sensazionale sviluppo segnato da applicazioni importantissime all’as-
tronomia, alla meccanica dei solidi, alla teoria dei fluidi. La meccanica razionale nasceva già
fornita dei suoi strumenti — l’analisi matematica messa a punto all’uopo da Newton stesso
— e, in un certo senso, in una forma definitiva, tanto da non essere molto differente, per
esempio, da quella che si insegna ancora oggi nei primi bienni delle nostre Università.
Al contrario, per lungo tempo, il Calcolo delle Probabilità fu semplicemente una raccolta
di risultati sparsi, talvolta profondi, ma non unificati da una teoria che fosse il nucleo di un
1
2 CAPITOLO 1. PROBABILITÀ DISCRETE
modello matematico della classe di fenomeni in esame, quelli ai quali si è accennato sopra
e che oggi, con un nome di chiara derivazione dal primo campo di applicazione nei giochi
d’azzardo, chiamiamo aleatorı̂.
Da allora, la letteratura sulle probabilità è venuta aumentando sino ad essere ai giorni
nostri piú vasta di quanto una sola persona riesca a padroneggiare. Tuttavia lo sviluppo del
Calcolo delle Probabilità è relativamente recente e data dagli anni Trenta del secolo scorso;
per rendersi conto di quanto sia stato radicale il cambiamento basta consultare il libro di
Calcolo delle Probabilità di G. Castelnuovo del 1926 e confrontarlo con un libro moderno
(per esempio uno di quelli citati in bibliografia). Le righe che precedono non portano alcuna
risposta alla domanda che costituisce il titolo di questa sezione, che cosa sia la probabilità.
In quelle che seguono, cercherò di tratteggiare assai brevemente alcune visioni sul significato
della probabilità. Il dominio di applicazione del calcolo delle probabilità è costituito da
tutti quei fenomeni dei quali non si sappia prevedere o calcolare l’esito, o per mancanza
d’informazione o per la difficoltà (o addirittura l’impossibilità) di eseguire i calcoli; è cosı́
evidente perché le prime considerazioni di probabilità siano storicamente state collegate con
i giochi d’azzardo. Tuttavia, l’impulso decisivo allo sviluppo di questa disciplina è venuto
con il sorgere, nel secolo scorso, della teoria cinetica dei gas e della Meccanica Statistica.
L’apparire di campi nei quali era spontaneo usare concetti probabilistici ha obbligato i mate-
matici ad uno sforzo di formalizzazione per porre su solide basi scientifiche quelli che prima
erano stati risultati interessanti, talvolta profondi, ma sparsi e senza una teoria coerente che
li sostenesse e li ponesse in un quadro unitario. A cavallo tra la seconda metà dell’Ottocento
e l’inizio del Novecento si compie il lavoro di preparazione, nel quale svolgono un ruolo
importante le scuole francesi (Poincaré, Borel, Lebesgue, Fréchet, . . . ) e russa (Čebyšev,
Markov, Lyapunov, . . . ). Ancora nel 1919, von Mises poteva dichiarare che “la teoria
delle probabilità non è una disciplina matematica”; nello stesso articolo esprimeva però la
convinzione che la probabilità fosse “una scienza naturale dello stesso genere della geometria
o della meccanica” e che dovesse essere considerata il modello matematico di una certa classe
di fenomeni. Come si vede si tratta di un punto di vista molto moderno. In un articolo del
1926, alla vigilia della sistemazione definitiva della probabilità, Cramér scriveva:
Il concetto di probabilità dovrebbe essere introdotto mediante una definizione pura-

mente matematica, dalla quale le sue proprietà fondamentali ed i teoremi classici si
deducono per via puramente matematica. . . . D’altro canto occorre sottolineare che la
teoria matematica non prova alcunché sugli eventi reali. Le formule della probabilità
sono altrettanto incapaci di dettare lo svolgersi degli eventi reali quanto le formule
della meccanica classica lo sono di prescrivere che le stelle si debbano attrarre secondo
le leggi di Newton. Solo l’esperienza ci può guidare e mostrare se il nostro modello
matematico fornisca un’approssimazione accettabile delle nostre osservazioni.
Il lavoro di preparazione culmina, dopo la sistemazione definitiva della Teoria della Misura,
nella sintesi di Kolmogorov del 1933. Oggi, le considerazioni probabilistiche si incontrano
spesso nelle applicazioni, sicché il modo di ragionare probabilistico costituisce un ingrediente
importante della formazione scientifica matematica. Si tenga presente che considerazioni di
probabilità sono alla base della Meccanica Quantistica.
Esempı̂ tipici, e molto semplici, di situazioni nelle quali vi è incertezza sull’esito di un
fenomeno, sono il lancio di un dado o di una moneta, ma anche la previsione del tempo
di domani. Si osservi che nel lancio di una moneta, per esempio, non vi sarebbe alcuna
incertezza sull’esito se si conoscessero le condizioni iniziali (posizione al momento del lancio,
velocità e forza con la quale si lancia la moneta, etc.) e la struttura del sistema (peso,
forma, dimensioni della moneta, etc.); in queste condizioni, con un po’ di pazienza (e buone
conoscenze di Meccanica) si potrebbero risolvere le equazioni del moto e prevedere quale
faccia della moneta sarà rivolta verso l’alto. In effetti, nessuno userà un approccio simile,
che, evidentemente, non è facilmente estendibile a sistemi piú complicati della semplice
moneta. La prima definizione della probabilità è dovuta a Laplace all’inizio dell’Ottocento
1.1. CHE COS’È LA PROBABILITÀ? 3
ed è riassunta nella formula

N (A)
P(A) = , (1.1.1)
N (Ω)
che si interpreta, tradizionalmente, dicendo che la probabilità di un evento A è il rapporto
tra il numero N (A) dei casi favorevoli al realizzarsi dell’evento A ed il numero N (Ω) dei casi
possibili, se (e si tratta di un’ipotesi cruciale) questi sono egualmente possibili (ritorneremo
su quest’espressione). Mentre, da un lato, questa definizione trova vasta applicazione in
molte situazioni, essa presenta alcune pecche che non paiono facilmente eliminabili: intanto
è restrittivo dover considerare solo fenomeni che presentino un numero finito di risultati,
perché è evidente che la (1.1.1) perde significato se N (Ω) e/o N (A) sono infiniti. Non
è, inoltre, immediato che, in tutti i fenomeni che si vogliono studiare, i possibili risultati
abbiano la stessa probabilità. Ma è piú grave che la definizione dipenda dalla condizione
che i possibili risultati debbano essere egualmente possibili; anche se Laplace diceva che
non vi dovesse essere ragione per ritenere che uno fosse piú probabile dei rimanenti, la
definizione viene a dipendere da un’idea non precisata del concetto di probabilità che si
voleva per l’appunto definire. Perciò la (1.1.1), benché utile, non può servire come base per
la definizione di probabilità. Un approccio che ha incontrato notevole successo, in ispecie
nelle discipline sperimentali, è la cosiddetta interpretazione delle probabilità come frequenze.
In questo approccio si immagina di ripetere lo stesso esperimento n volte e si considera la
frequenza con la quale l’evento in esame si manifesta; tale frequenza è, per definizione, il
rapporto n(A)/n, essendo n(A) il numero di volte nelle quali l’evento A si è realizzato nel
corso delle n ripetizioni dell’esperimento. Si definisce ora come probabilità dell’evento A il
limite
n(A)
P(A) := lim . (1.1.2)
n→+∞ n
Questa definizione pone almeno due difficoltà, una di carattere tecnico, l’altra di natura
concettuale: la prima è che non è chiaro in quale senso si debba intendere il limite. Sono,
infatti, numerosi i tipi di limite che si considerano in probabilità; scegliere uno di questi modi
di convergenza appianerebbe questa difficoltà, ma porrebbe subito il problema di giustificare
la scelta fatta. Quanto alla difficoltà concettuale, appare evidente come la (1.1.2) limiti la
definizione di probabilità a quei fenomeni che siano riproducibili indefinitamente: mentre
questo può ben adattarsi ad alcune discipline sperimentali, nelle quali, in condizioni di
laboratorio, un esperimento può essere ripetuto, almeno in linea di principio, un numero
infinito di volte, non sembra costituire un buon modello per tutte le situazioni alle quali si
potrebbe pensare di applicare considerazioni di tipo probabilistico. Cosı́, per esempio, nel
lancio di un dado, il limite (1.1.2) non dà alcuna informazione sul risultato del lancio che
si sta per eseguire, benché, naturalmente, dica qualcosa sul comportamento delle frequenze
in una serie (infinita) di lanci. Inoltre la definizione (1.1.2) esclude tutti gli eventi che
si considerino nella loro individualità, sicché diviene, a rigore, privo di significato porsi la
domanda: qual è la probabilità che domani piova? è infatti il domani un evento unico e
irripetibile. Si osservi che la definizione (1.1.2) rende la probabilità una proprietà intrinseca
del fenomeno, come sono, per esempio, la temperatura, il peso, la velocità di un corpo.
L’approccio che evita gli inconvenienti di quelli che abbiamo sommariamente abbozzato
sopra, è quello di considerare la probabilità di un evento come il grado di fiducia nel realiz-
zarsi dell’evento da parte dell’osservatore. Tale approccio è stato illustrato con semplicità e
profondità, in numerosi scritti, da Bruno de Finetti. Si consideri l’esempio di una partita tra
due giocatori, uno dei quali sia un baro: è evidente che in queste condizioni le previsioni dei
due giocatori saranno differenti. Se, per esempio, essi stanno giocando a dadi, il giocatore
“onesto” sarà portato, in mancanza di altre informazioni, ad attribuire probabilità 1/6
ad ogni faccia del dado (in accordo con la (1.1.1)), mentre il baro darà una valutazione
differente della probabilità di ogni faccia, valutazione che terrà conto della sua conoscenza
della struttura del dado truccato (per esempio, della posizione del suo baricentro). Si può
dire, anticipando sviluppi futuri, che ogni probabilità è una probabilità condizionata (per le
probabilità condizionate si veda, oltre, la sezione 1.6). In questo approccio è ovvio che la
probabilità non è una proprietà intrinseca dell’evento, ma dipende dalla valutazione che ne
fa l’osservatore: per questa ragione si parla di probabilità soggettive. A chi scrive sembra che
questo approccio sia il solo valido. Lo studente potrà conoscerlo nel libro di de Finetti Teoria
delle Probabilità, citato in bibliografia. La trattazione di questi appunti prescinderà, tuttavia
dall’interpretazione che si dà alla probabilità per adottare un’impostazione assiomatica,
quella formulata da Kolmogorov nel 1933, e alla quale si è fatto cenno sopra. In questa
formulazione, come del resto in tutte le formulazioni assiomatiche, si evitano le polemiche
riguardanti il significato delle probabilità.
Gli eventi saranno rappresentati da sottoinsiemi di un insieme non vuoto Ω(6= ∅). La
scelta dell’insieme Ω può non essere unica, e la teoria non dà regole per la costruzione dello
spazio Ω che si chiama solitamente spazio dei risultati o spazio dei campioni o, ancora,
spazio campionario. È bene che lo studente, nell’avvicinarsi per la prima volta al Calcolo
delle Probabilità, si abitui, in ogni esercizio, a scrivere esplicitamente che cosa sia l’insieme
Ω; con un po’ di pratica, non dovrebbe essere difficile costruirlo. Lo spazio Ω è, cosı́, parte del
modello che si costruisce per rappresentare un fenomeno. La condizione piú importante alla
quale deve ottemperare Ω è che contenga tutti i possibili risultati che ci possano attendere
dal fenomeno del quale si vuole costruire il modello.
Esempio 1.1.1. Se si lancia una moneta lo spazio dei risultati può essere rappresentato
come Ω = {C, T } con ovvio significato dei simboli. Rappresentazioni equivalenti sono Ω =
{0, 1} oppure Ω = {s, f } ove s indica, convenzionalemente, il “successo” e f il “fallimento”.
Le denominazioni di “successo” e “fallimento” sono convenzionali e possono essere scambiate
tra loro. Nella sua semplicità questo modello è fondamentale e riccore ogni qual volta
si sia interessati alla partizione dei risultati, che possono essere anche piú d’uno, in due
sottoinsiemi.
Se si ha il dubbio che la moneta possa rimanere in bilico sul bordo si può ampiare Ω e
prendere Ω = {C, T, B}; al piú si attribuirà probabilità nulla all’esito B.
Esempio 1.1.2. Si supponga di lanciare un dado; in questo caso si può scrivere Ω =

{1, . . . , 6}. La roulette è un gioco d’azzardo nel quale si lancia una pallina su un piatto
orizzontale diviso in 37 spicchi di egual ampiezza numerati da 0 a 37 (nei casinò americani
le caselle sono 38 perché si aggiunge il doppio zero 00). Lo spazio dei risultati è Ω =
{0, 1, . . . , 36}.
Esempio 1.1.3. Come ultimo esempio si prenda in considerazione la misura dell’altezza

degli individui di una popolazione. Se le altezze si misurano in centimetri è ragionevole
porre Ω = {50, 51, . . . , 300}; se la misura è effettuata in mezzi centimetri, come si faceva
mediante l’antropometro durante la visita militare di leva, si adotterà
Ω = {50, 50.5, 51, 51.5, . . . , 299.5, 300} .
Infine, se uno strumento consentisse di misurare le altezze nel continuo, si adotterebbe

Ω = [50, 300].
Nel seguito parleremo senza fare distinzioni degli eventi o degli insiemi che li rappre-
sentano. Ad operazioni logiche sugli eventi corrispondono operazioni sugli insiemi che li
rappresentano: cosı́, dati gli eventi A e B (che, per una volta, si rappresenteranno con sim-
boli diversi da quelli usati per gli insiemi) ad essi si faranno corrispondere gli insiemi A e
B; all’evento A ∧ B (è questo l’evento “si realizzano tanto A quanto B”) si fa corrispondere
l’insieme A ∩ B. Analogamente, all’evento A ∨ B (=“si realizza uno almeno degli eventi A
o B”) si fa corrispondere l’insieme A ∪ B. All’opposto, ¬A, di un evento A corrisponde il
complementare Ac dell’insieme A. Altre corrispondenze tra operazioni logiche sugli eventi
e operazioni sugli insiemi che li rappresentano si vedranno nel seguito.
1.2. OPERAZIONI SUGLI INSIEMI 5
1.2 Operazioni sugli insiemi

Il complementare di un insieme A sarà indicato con Ac . Valgono le note leggi di De Morgan:
!c !c
[ \ \ [
Aι = Acι , Aι = Acι
ι∈I ι∈I ι∈I ι∈I
ove I è un’arbitraria famiglia di indici (in particolare, non si fa alcuna ipotesi sulla car-
dinalità di I); vale, inoltre, la relazione (Ac )c = A, che mostra come l’operazione di
complementazione sia involutoria.
È opportuno ricordare le relazioni, valide per ogni insieme A,
\ [ [ \
A ∅ = ∅, A ∅ = A, A Ω = Ω, A Ω = A.
La differenza di due insiemi A, B ⊂ Ω è definita da
A \ B := {ω ∈ Ω : ω ∈ A, ω ∈
/ B}.
Due insiemi A, B ⊂ Ω si dicono disgiunti se accade che essi non abbiano punti in comune,
A ∩ B = ∅; riferendosi ad eventi, si dice che essi si escludono mutuamente. Si osservi che le
relazioni \ [
A⊂B A B=B A B=B
sono equivalenti e si leggono “A è incluso in B” o “B include A” o, ancora “A implica B”;
in quest’ultima espressione si fa riferimento agli insiemi A e B come eventi. Si osservi che
il simbolo d’inclusione ⊂ è inteso in senso debole, vale a dire che scrivendo A ⊂ B, si lascia
la possibilità che i due insiemi A e B siano eguali, A = B. Non sarà mai usato in queste
lezioni il simbolo ⊆.
Valgono le relazioni:
\
A \ B = A Bc,
[ [
A = (A ∩ B) (A ∩ B c ) = (A ∩ B) (A \ B)
(si tratta di un’unione disgiunta),
[ [ [
A B=A (B \ A) = B (A \ B) (unioni disgiunte),
\ [
A ⊂ B ⇐⇒ A B = A ⇐⇒ A B = B.
La differenza simmetrica di due insiemi è definita da

[
A∆B := (A \ B) (B \ A) ;
essa corrisponde all’evento “si realizza esattamente uno tra i due eventi A e B”. Le proprietà
della differenza simmetrica, come pure i rapporti con le altre operazioni sugli insiemi, si
troveranno negli esercizı̂.
Si indicherà con P(Ω) la famiglia costituita da tutti i sottoinsiemi dell’insieme non vuoto
Ω, P(Ω) := {A ⊂ Ω}; essa si chiama famiglia delle parti di Ω o potenza di Ω.
Dato un insieme non vuoto Ω (Ω 6= ∅), per ogni sottoinsieme A di Ω si definisce la
funzione indicatrice di A, 1A : Ω → {0, 1} mediante
(
1, se ω ∈ A,
1A (ω) :=
0, se ω ∈/ A.
Ovviamente, 1Ω = 1 e 1∅ = 0 (le funzioni identicamente eguali a 1 e 0, rispettivamente). Nei

corsi di Analisi Matematica si usa spesso, in luogo del nome funzione indicatrice, quello di
funzione caratteristica; quest’ultimo è però riservato, nel Calcolo delle Probabilità, ad una
diversa funzione che però non costituisce argomento di queste lezioni introduttive. Inoltre
si usano anche i simboli χA e |A|.
Si incontrano difficoltà a considerare come eventi tutti i sottoinsiemi di un insieme Ω.
Occorrerà restringere l’attenzione a particolari famiglie di sottoinsiemi. L’opportunità, intui-
tivamente necessaria, di considerare, accanto all’insieme A, anche il suo complementare Ac
e, oltre agli eventi A e B, anche la loro unione e la loro intersezione, giustifica l’introduzione
della seguente
Definizione 1.2.1. Dato un insieme non vuoto Ω, si chiama algebra di sottoinsiemi di Ω,
ogni famiglia A ⊂ P(Ω), non vuota, che sia stabile per la complementazione, per l’unione
finita e tale che l’insieme vuoto appartenga ad A; cioè:
(a) Ω ∈ A;
(b) A ∈ A =⇒ Ac ∈ A;
S
(c) A, B ∈ A =⇒ A B ∈ A.
Ricordiamo che un’operazione binaria ∗ sopra un dato insieme E, si dice stabile se il

risultato è ancora in E, vale a dire
∀ x, y ∈ E x∗y ∈E.
Naturalmente, se A è un’algebra (di sottoinsiemi di Ω) e se A e B sono in A, allora vi

appartengono anche A ∩ B, A \ B, A∆B; infatti
\ [ c \
A B = Ac Bc , A\B =A Bc ,
[
A∆B = (A \ B) (B \ A) .
Definizione 1.2.2. Si chiama tribú, o σ–algebra, una famiglia F di sottoinsiemi di Ω,

F ⊂ P(Ω), che goda delle seguenti proprietà:
(a) Ω ∈ F;
(b) A ∈ F =⇒ Ac ∈ F;
S
(c) ∀ n ∈ N An ∈ F =⇒ n∈N An ∈ F.
Una tribú è dunque stabile rispetto all’operazione di unione numerabile. Usando le leggi
di de Morgan è immediato dimostrare il seguente
1.2. OPERAZIONI SUGLI INSIEMI 7
Teorema 1.2.1. Sia F una tribú di sottoinsiemi di Ω. Allora
(a) F è stabile per le unioni finite:

n
[
Ai ∈ F(i = 1, . . . , n) =⇒ Ai ∈ F ;
i=1
(b) F è stabile rispetto alle intersezioni numerabili:

\
∀n ∈ N An ∈ F =⇒ An ∈ F ,
n∈N
(c) F è stabile rispetto alle intersezioni finite:

n
\
Ai ∈ F (i = 1, 2, . . . , n) =⇒ Ai ∈ F .
i=1
Si osservi che una tribú è anche un’algebra. Naturalmente, come si vedrà, non tutte le
algebre sono anche tribú.
La classe delle tribú di sottoinsiemi di un insieme non vuoto Ω è ordinata, parzialmente,
rispetto all’inclusione e contiene una piú piccola tribú, la tribú banale, N := {∅, Ω} ed
una piú grande tribú, che è la famiglia delle parti P(Ω), sicché, per ogni tribú F, si ha
N ⊂ F ⊂ P(Ω).
Sia A un sottoinsieme proprio e non vuoto di Ω, cioè A 6= ∅ e A 6= Ω; la famiglia
F(A) := {∅, A, Ac , Ω} è un’algebra; è anzi, una tribú, poiché ogni algebra finita è anche una
tribú, dato che ogni successione è necessariamente composta da un numero finito di insiemi
distinti, sicché ogni unione numerabile è, di fatto, un’unione finita; essa è la piú piccola tribú
che contenga A (e si dice generata da A). Infatti se G è una tribú che contiene A, risulta,
per definizione,
A ∈ G , Ac ∈ G , ∅ ∈ G , Ω ∈ G ,
onde F(A) ⊂ G. Si noti che se i sottoinsiemi A e B sono differenti, le tribú F(A) e F(B)
non sono paragonabili.
Il teorema seguente è di dimostrazione banale.
Teorema 1.2.2. Se {Fι : ι ∈ I} è un’arbitraria famiglia di tribú di sottoinsiemi di Ω, è

una tribú anche ∩ι∈I Fι .
Quest’ultimo risultato consente di risolvere il problema dell’esistenza della piú piccola

tribú che contenga un’assegnata famiglia C di sottoinsiemi di Ω. Tale tribú si indica con
F(C) e si dice generata da C; essa è eguale all’intersezione di tutte le tribú in P(Ω) che
contengano C. Si noti che la famiglia della quale si considera l’intersezione non è vuota
perché vi appartiene almeno P(Ω). Un esempio fondamentale di tale situazione è fornito
dalla famiglia I degli intervalli aperti della retta reale R, I := {]a, b[: a, b ∈ R, a ≤ b}; si
osservi che la condizione a ≤ b, in luogo di quella piú naturale a < b, fa sı́ che l’insieme
vuoto ∅ sia considerato come un particolare intervallo, ciò che è comodo. I non è un’algebra
(e pertanto neanche una tribú), poiché se, ad esempio, a < b < c < d, l’unione ]a, b[ ∪ ]c, d[
non è un intervallo. La tribú generata da I si chiama tribú di Borel e la si denota con B(R)
o, se non sorgono ambiguità, semplicemente con B; i suoi insiemi si chiamano boreliani. Vale
il seguente utile
Teorema 1.2.3. La tribú di Borel B(R) è generata da una qualsiasi delle seguenti famiglie:
(a) le semirette del tipo ] − ∞, x] (x ∈ R);
(b) gli insiemi aperti di R;

(c) gli insiemi chiusi di R.
Dimostrazione. Sia B = B(R) e si indichi con B1 la tribú generata dalla famiglia indicata in
(a). Si osservi che anche gli intervalli aperti a sinistra e chiusi a destra, cioè del tipo ]a, b],
con a e b in R, appartengono a B. Infatti
\ 1

]a, b] = a, b + .
n
n∈N
Ora ]x, +∞[ = ∪n∈N ]x, x + n] che appartiene a B onde

c
]−∞, x] = ]x, +∞[ ∈ B,
c
e perciò B1 ⊂ B. D’altra parte, ]x, +∞[ = ]−∞, x] ∈ B1 onde, se x < y,
\
]x, y] = ]−∞, y] ]x, +∞[ ∈ B1 .
Infine ]x, y[ = ∪n∈N ]x, y − 1/n] ∈ B1 . Dunque B ⊂ B1 e quindi B1 = B.

Si indichi con B2 la tribú generata dagli aperti. Poiché l’intervallo ]x, y[ è esso stesso un
aperto, si ha B ⊂ B2 . Se A ⊂ R è aperto, esiste, com’è noto, una successione (]xn , yn [) di
intervalli aperti tale che si possa rappresentare A nella forma A = ∪n∈N ]xn , yn [ onde A ∈ B
e quindi B2 ⊂ B. Che B sia generata anche dagli insiemi chiusi è ora immediato.
Se F è la tribú generata dalla famiglia C, non si può, in generale, dare una descrizione
costruttiva degli elementi di F partendo dagli elementi di C.
Nel seguito si diranno misurabili (o, ove vi sia possibilità di confusione, F–misurabili )
gli insiemi appartenenti ad una prefissata tribú F. Si dirà spazio misurabile la coppia (Ω, F)
costituita da un insieme non vuoto Ω e da una tribú F di suoi sottoinsiemi.
1.3 Probabilità discrete

Diamo ora la definizione di probabilità in una forma equivalente a quella proposta da
Kolmogorov nel 1933.
Definizione 1.3.1. Dato uno spazio misurabile (Ω, F) — vale a dire un insieme non vuoto
Ω ed una tribú F di suoi sottoinsiemi — si dice (misura di) probabilità su (Ω, F) ogni
funzione P : F → R che soddisfaccia alle seguenti condizioni:
(P.1) P(A) ≥ 0 per ogni insieme A ∈ F;
(P.2) P(Ω) = 1;
(P.3) per ogni successione (An )n∈N di insiemi misurabili disgiunti (An ∈ F, per ogni n ∈ N,
con Aj ∩ Ak = ∅ (j 6= k)), vale la proprietà di additività numerabile o σ–additività:
!
[ X
P An = P(An ) .
n∈N n∈N
Una terna (Ω, F, P) formata da uno spazio misurabile e da una misura di probabilità su
F si dice spazio di probabilità.
Diamo ora alcune conseguenze elementari della definizione appena data, avvertendo che
tutti gli insiemi che compaiono si intendono appartenere all’assegnata tribú F.
P(∅) = 0. (1.3.1)
1.3. PROBABILITÀ DISCRETE 9
Si consideri una successione (An ) tale che A1 = Ω e An = ∅ per n ≥ 2; si tratta, eviden-

temente, di una successione di insiemi disgiunti, alla quale è quindi possibile applicare la
(P.3), ottenendo cosı́
∞
!
[ X
1 = P(Ω) = P An = 1 + P(∅) ;
n∈N n=2
l’ultima serie scritta è convergente ed ha i termini tutti eguali a P(∅); l’unica serie a termini
costanti che risulti convergente è quella con i termini tutti nulli; dunque P(∅) = 0, come
asserito.
Siano ora A e B due insiemi misurabili disgiunti (A ∩ B = ∅). Si consideri la successione
(An )n∈N cosı́ definita: A1 = A, A2 = B, An = ∅ per n ≥ 3. Per questa successione è
∪n∈N An = A ∪ B; la (P.3) e la (1.3.1) danno
[
P A B = P(A) + P(B) , (1.3.2)
proprietà che si dice di additività semplice. Si è quindi visto che l’additività semplice (1.3.2)
vale in ogni spazio di probabilità. Esistono esempı̂ nei quali vale la (1.3.2) senza che valga
la (P.3); quest’ultima è dunque una proprietà piú forte. Inoltre si vede facilmente per
induzione finita che la proprietà di additività semplice si estende ad un numero finito di
insiemi disgiunti: se A1 , . . . , An sono insiemi a due a due disgiunti, Aj ∩ Ak = ∅ per j 6= k,
allora  
[n Xn
P Aj  = P(Aj ) .
j=1 j=1
In un insieme finito risulta impossibile considerare una successione di insiemi disgiunti

che siano contemporaneamente distinti e differenti dall’insieme vuoto. In tal caso sarà
possibile sostituire all’assioma di additività numerabile (P.3) quello di additività semplice
(1.3.2).
La differenza di due insiemi è
\ \
P (B \ A) = P B Ac = P(B) − P A B . (1.3.3)
Infatti, per la distributività delle operazioni di unione e intersezione, si ha

\ \ [ \ [ \
B=B Ω=B A Ac = B A B Ac ,
che è un’unione disgiunta, onde P(B) = P(B ∩ A) + P(B ∩ Ac ).
P(Ac ) = 1 − P(A) . (1.3.4)

Basta porre B = Ω nella (1.3.3).
Se i due insiemi considerati non sono necessariamente disgiunti la proprietà (1.3.2) si
sostituisce con la seguente
[ \
P A B = P(A) + P(B) − P A B : (1.3.5)
basta scrivere A ∪ B come un’unione disgiunta A ∪ B = A ∪ (B \ A); l’asserto segue ora dalla
(P.3) e dalla (1.3.3).
A⊂B =⇒ P(A) ≤ P(B) . (1.3.6)

Segue infatti dalla (P.1) e dalla (1.3.3) che
\
0 ≤ P(B \ A) = P(B) − P A B = P(B) − P(A) .
La (1.3.6) si esprime dicendo che le probabilità sono isotone (o crescenti) rispetto all’inclu-
sione.
∀A ∈ F 0 ≤ P(A) ≤ 1 . (1.3.7)
Per quest’ultima relazione basta osservare che ∅ ⊂ A ⊂ Ω ed usare la (1.3.6), la (1.3.1) e la
(P.2).
È notevole la diseguaglianza di Boole
[
P(A) + P(B) ≥ P A B . (1.3.8)
Questa è conseguenza della (1.3.5) e della (P.1). Per induzione la (1.3.8) si estende al caso
di un numero finito di insiemi.
n
! n
[ X
P Ai ≤ P(Ai ) . (1.3.9)
i=1 i=1
Vale per le probabilità il seguente risultato che si potrebbe chiamare “di passaggio al
limite lungo le successioni monotone di insiemi”.
Teorema 1.3.1. (a) Nello spazio di probabilità (Ω, F, P) sia (An ) una successione crescente
di insiemi di F, An ∈ F per ogni n ∈ N,
A1 ⊂ A2 ⊂ · · · ⊂ An ⊂ . . . ;
allora, posto A := ∪n∈N An , è

P(A) = lim P(An ) . (1.3.10)
n→+∞
(b) Se (An ) è una successione decrescente di insiemi di F, An ∈ F per ogni n ∈ N,
A1 ⊃ A2 ⊃ · · · ⊃ An ⊃ . . . ;
allora, posto A := ∩n∈N An , è

P(A) = lim P(An ) . (1.3.11)
n→+∞
Dimostrazione. (a) Sia data una successione crescente (An ) di insiemi misurabili e si definis-
ca, a partire da questa, una nuova successione (Bn ) cosı́ definita
\
B1 := A1 , Bn := An \ An−1 = An Acn−1 , . . . .
La nuova successione è costituita da insiemi disgiunti, Bk ∩ Bn = ∅ se k = 6 n; infatti,

supposto, k < n, si ha, per definizione, Bk ⊂ Ak , mentre Bn ⊂ Acn−1 ⊂ · · · ⊂ Ack , poiché
l’inclusione Ak ⊂ An equivale all’altra Acn ⊂ Ack .
Per ogni n ∈ N vale l’eguaglianza
n
[
An = Bj . (1.3.12)
j=1
Se j ≤ n, si ha Bj ⊂ Aj ⊂ An , sicché vale l’inclusione

n
[
B j ⊂ An .
j=1
Per dimostrare l’inclusione inversa, si consideri un qualsiasi punto ω di An e si introduca
k = k(ω) := min{j ∈ {1, 2, . . . , n} : ω ∈ Bj } ,

1.3. PROBABILITÀ DISCRETE 11
il minimo indice j per il quale ω appartiene a Bj . È ora evidente che vale l’inclusione
n
[
An ⊂ Bj .
j=1
Ciò stabilisce la (1.3.12).

In maniera del tutto analoga si dimostra che vale l’eguaglianza
[
A= Bn .
n∈N
Dalla (1.3.12) e dalla proprietà di additività finita si ottiene, per ogni n ∈ N,

n
X
P(An ) = P(Bj ) ;
j=1
d’altro canto, segue dalla definizione di somma di una serie che

X n
X
P(A) = P(Bj ) = lim P(Bj ) = lim P(An ) ,
n→+∞ n→+∞
j∈N j=1
vale a dire la (1.3.10).

(b) Se si ha una successione decrescente A1 ⊃ A2 ⊃ · · · ⊃ An ⊃ . . . , si consideri la
successione dei complementari, per la quale l’inclusione inversa
Ac1 ⊂ Ac2 ⊂ · · · ⊂ Acn ⊂ . . . .
Sfruttando quanto dimostrato in (a), si ha
! !
\ [
P(A) = P An = 1 − P(Ac ) = 1 − P Acn = 1 − lim P(Acn )
n→+∞
n∈N n∈N
= 1 − lim {1 − P(An )} = lim P(An ) ,
n→+∞ n→+∞
ciò che dimostra la (1.3.11).
Sia Ω un insieme finito o numerabile, con Ω = {ω1 , . . . , ωn , . . . }. È naturale supporre che

la tribú sulla quale è definita la probabilità contenga i singoletti {ωn }; risultano cosı́ definiti
i numeri positivi pn := P({ωn }) per n ∈ N. Ma è ora possibile calcolare la probabilità di
un qualsiasi sottoinsieme A di Ω; infatti, in virtú della (P.3), è
X
P(A) = P({ωn }).
ωn ∈A
P
Dalla (P.2) segue che n pn = 1; si tratterà di una somma finita o di una serie secondo che
Ω sia finito o numerabile, rispettivamente. P
Viceversa, dati i numeri positivi pn ≥ 0 (n ∈ N) con n pn = 1, resta P individuata una
probabilità P sulla famiglia delle parti P(Ω) definita mediante P(A) := ωi ∈A pi .
Si vede cosı́ che non è restrittivo, quando l’insieme Ω sia finito o numerabile, supporre
che la probabilità sia definita sulla famiglia delle parti P(Ω); nel seguito di questo capitolo,
si supporrà sempre di porsi in queste condizioni. Una probabilità definita sulla famiglia
delle parti di un insieme Ω finito o numerabile, card(Ω) ≤ ℵ0 , si dirà discreta.
Se Ω è finito e se ragioni di simmetria, o l’informazione a disposizione, portano a ritenere
equiprobabili gli eventi {ωi } (detti elementari ), si avrà p = 1/n (in tal caso si parlerà di
legge, o distribuzione uniforme) e quindi per ogni sottoinsieme A di Ω
N (A)
P(A) = (1.3.13)
N (Ω)
ove, per semplicità, si è posto N (A) := card(A). La (1.3.13) è, essenzialmente, la definizione
classica di probabilità dovuta a Laplace che abbiamo già incontrato. I problemi di proba-
bilità basati sulla (1.3.13), e ve ne sono molti ed importanti per le applicazioni, sono quindi di
fatto problemi di calcolo combinatorio. Riterremo noti gli elementi del calcolo combinatorio,
limitandoci a richiamarli nelle sezioni successive, quando necessario.
Nel seguito di questo capitolo tratteremo solo di probabilità discrete.
1.4 Alcuni problemi d’urna

Molti problemi di probabilità discreta possono essere ricondotti al caso dell’estrazione di
palline da un’urna, o da piú urne, o al collocamento di palline in piú urne; in probabilità
si indica con il nome urna una scatola che contenga un certo numero di palline. Questo
genere di problemi va sotto il nome di problemi o schemi d’urna. Questi schematizzano
efficacemente un gran numero di situazioni apparentemente diverse.
Quando si tratta di estrazioni di palline da un’urna, occorrerà, in primo luogo, distinguere
se l’estrazione avvenga con restituzione (o sostituzione o reimbussolamento, o, ancora, rimes-
sa, rimpiazzo) o senza restituzione, vale a dire, se ogni pallina estratta sia, o non sia, posta
nuovamente nell’urna dopo ogni estrazione e prima dell’estrazione successiva. Quando si
estragga una sola pallina, non vi è alcuna differenza tra le due modalità d’estrazione; ma,
già estraendo due palline, si vede che, nell’estrazione con sostituzione, la seconda pallina è
estratta da un’urna di composizione identica a quella dell’urna dalla quale è stata estratta la
prima pallina, mentre, nell’estrazione senza restituzione, l’urna contiene un diverso numero
di palline al momento della seconda estrazione.
Esempio 1.4.1. Un’urna contiene n palline, delle quali b sono bianche e c sono colorate
(b + c = n). Qual è la probabilità che, nell’estrazione di due palline,
(a) la prima pallina estratta sia bianca?
(b) la seconda pallina estratta sia bianca?
(c) entrambe le palline estratte siano bianche?
Si può fare l’ipotesi che le palline contenute nell’urna siano distinguibili; per esempio, e
per semplicità, le si potranno supporre numerate da 1 a n, le palline bianche portando i
numeri da 1 a b. Detti B1 e B2 gli eventi “estrazione di una pallina bianca alla prima
(rispettivamente seconda) estrazione”si chiede di calcolare le probabilità degli eventi B1 , B2
e B1 ∩ B2 . Scrivendo cosı́, si commette in effetti un abuso di notazione perché, a rigore, si
dovrebbero indicare con simboli differenti insiemi con lo stesso significato ma presi in ispazı̂
diversi.
Estrazione con restituzione. Si può costruire un modello prendendo
Ω = {(x1 , x2 ) : xi = 1, 2, . . . , n (i = 1, 2)}.
Con x1 e x2 si indicano i numeri delle palline estratte rispettivamente alla prima e alla
seconda estrazione. Poiché l’urna ha la medesima composizione nelle due estrazioni, risulta
N (Ω) = n2 ; e N (B1 ) = bn, N (B2 ) = nb, N (B1 ∩ B2 ) = b2 , sicché la (1.3.13) dà P(B1 ) =
b/n = P(B2 ) e P(B1 ∩B2 ) = b2 /n2 . Si osservi che, in questo caso, P(B1 ∩B2 ) = P(B1 ) P(B2 ).
Estrazione senza restituzione. In questo caso si può prendere come spazio dei risultati
l’insieme Ω1 = {(x1 , x2 ) : x1 6= x2 }. La condizione x1 6= x2 è imposta dall’ipotesi (“senza
restituzione”) che una pallina già estratta non possa essere estratta nuovamente. Si osservi
che lo spazio dei risultati appena introdotto, Ω1 è un sottoinsieme proprio dello spazio dei
risultati Ω usato per descrivere l’estrazione con restituzione di due palline. Se si indica
con Dn,k il numero delle disposizioni semplici di n oggetti a k a k, o ciò che è lo stesso, il
1.4. ALCUNI PROBLEMI D’URNA 13
numero delle funzioni iniettive da un insieme di cardinalità k ad uno di cardinalità n, si ha,

evidentemente, N (Ω1 ) = Dn,2 = n(n − 1), N (B1 ) = b(n − 1) sicché, se si indica con P1 la
probabilità su Ω1 , P1 (B1 ) = b/n, come nel caso dell’estrazione con restituzione. Per calcolare
P1 (B2 ), si osservi che si ha B2 = (B1 ∩B2 )∪(B1c ∩B2 ), onde P1 (B2 ) = P(B1 ∩B2 )+P(B1c ∩B2 );
ma N (B1 ∩ B2 ) = b(b − 1) e N (B1c ∩ B2 ) = (n − b)b, sicché
b(b − 1) + (n − b)b b
P1 (B2 ) = = .
n(n − 1) n
Non deve sembrare paradossale che sia P1 (B1 ) = P1 (B2 ), cioè che la probabilità di estrarre
una pallina bianca sia la stessa per la seconda estrazione che per la prima. Ciò è dovuto al
fatto che nel calcolare la probabilità di B non si sa, perché non è detto, se la prima pallina
estratta sia bianca (evento B1 ∩ B2 ) oppure colorata (evento B1c ∩ B2 ). La probabilità di
B2 avrebbe un valore diverso da quello trovato se si conoscesse il colore della prima pallina
estratta; si vedrà nel seguito, nello studiare le probabilità condizionate, come calcolare questo
nuovo valore. Si ha qui conferma dell’affermazione che la probabilità non è una proprietà
intrinseca degli eventi ma dipende dall’informazione che si possiede circa l’evento stesso.
Infine P1 (B1 ∩ B2 ) = b(b − 1)/(n(n − 1)). Al contrario dell’estrazione con restituzione,
è ora P1 (B1 ∩ B2 ) 6= P1 (B1 ) P1 (B2 ).
Esempio 1.4.2. (Ripetizioni in un’estrazione con restituzione). Si estraggono con resti-
tuzione k palline da un’urna che ne contiene n, numerate da 1 a n. Qual è la probabilità
che non si estraggano palline con lo stesso numero?
Evidentemente,
Ωk = {(x1 , x2 , . . . , xk ) : xi = 1, 2, . . . , n, (i = 1, 2, . . . , k)}
rappresenta tutti i possibili risultati nell’estrazione delle r palline. Si chiede di calcolare la

probabilità dell’evento
Ak := {(x1 , x2 , . . . , xn ) : xi 6= xj (i 6= j)} .
Si ha N (Ωk ) = nk (che è il numero delle disposizioni con ripetizione di n oggetti a k a k,

o, ciò che è equivalente, il numero delle funzioni da un insieme di cardinalità k in uno di
cardinalità n); N (Ak ) = Dn,k se k ≤ n, N (Ak ) = 0 se k > n, sicché, se k ≤ n,

1 2 k−1
P(Ak ) = 1 − 1− ... 1 − .
n n n
Si può anche calcolare la probabilità di avere almeno una ripetizione, cioè che almeno due
delle palline estratte portino lo stesso numero: è P(Ack ) = 1 − P(Ak ).
Questo esempio è anche la formalizzazione del celebre problema dei compleanni, in-
trodotto da von Mises: Se in una stanza sono presenti k persone, qual è la probabilità che
almeno due tra i presenti abbiano il compleanno nello stesso giorno? Per rispondere a ques-
ta domanda si costruisce un modello nel quale i compleanni possibili sono 365, trascurando
cosı́ la possibilità che un compleanno possa cadere il 29 febbraio; si eliminano cioè gli anni
bisestili. Allora si ha n = 365. Con semplici calcoli si vede anche che il minimo numero k
di presenti per il quale, nella notazione di sopra è P(Ak ) > 1/2 è dato da k = 23:
min {k ∈ N : P(Ack ) > 1/2} = 23 .
Il fatto che tale numero sia molto minore del numero 365 dei possibili compleanni fa spesso
parlare del paradosso dei compleanni.
Esempio 1.4.3. (Probabilità di una coincidenza). Si abbiano n urne numerate da 1 a n e

n palline pure numerate da 1 a n. Si pone una pallina in ogni urna e si dice che si ha una
coincidenza nell’i–esima urna se in questa si è posta la pallina che porta lo stesso numero.
In seguito si calcolerà la probabilità di avere k coincidenze (si veda la sezione 1.11); per ora,
si può rispondere alla domanda piú semplice: qual è la probabilità dell’evento A che si abbia
una coincidenza nella i–esima urna?
Se xj designa il numero della pallina che è stata posta nella j–esima urna, si pone
Ω = {(x1 , x2 , . . . , xn ) : xi = 1, 2, . . . , xn (xi 6= xj ) (i 6= j)}.
Allora,
Ai = {(x1 , . . . , xi−1 , i, xi+1 , . . . , xn ) ∈ Ω}
sicché N (Ω) = n! e N (Ai ) = (n − 1)!. Perciò P(Ai ) = 1/n. Si osservi che P(Ai ) non dipende
da i.
Esempio 1.4.4. Si estraggono, con o senza restituzione, n palline da un’urna che ne contiene
b bianche e c colorate. Se l’estrazione avviene senza restituzione, si dovranno imporre l’ovvia
condizioni n ≤ b + c. Per k = 0, 1, . . . , n, qual è la probabilità di estrarre esattamente k
palline bianche?
Se Ak è l’evento del quale si vuole calcolare la probabilità, risulta
c n−k
n b c
P(Ak ) = (estrazione con restituzione). (1.4.1)
k (b + c)n

n Db,k Dc,n−k
P1 (Ak ) = (estrazione senza restituzione) (1.4.2)
k Db+c,n
Basterà stabilire una sola delle ultime due eguaglianze, per esempio la seconda, perché l’altra
si ottiene da questa con lo stesso procedimento, a meno di ovvie modifiche. Al solito si può
supporre che le palline siano numerate da 1 a b + c e che le prime b siano bianche. Nel caso
dell’estrazione senza restituzione sarà, ovviamente k ≤ b.
Nel caso dell’estrazione con restituzione, lo spazio dei risultati si può rappresentare
mediante Ω = {(x1 , x2 , . . . , xn )}, ove xi è il numero della i–esima pallina estratta. Se
l’estrazione avviene senza restituzione, allora si può prendere come spazio dei risultati
Ω1 = {(x1 , x2 , . . . , xn ) : xi 6= xj (i 6= j)};
N (Ω1 ) = Db+c,n . L’evento Ak è costituito dalle n–ple (x1 , x2 , . . . , xn ) di Ω1 con k compo-
nenti comprese tra 1 e b; per calcolare la probabilità di Ak si può procedere come segue. Sia
J = {j1 , j2 , . . . , jk } ⊂ {1, 2, . . . , n} un sottoinsieme di k numeri estratti da {1, 2, . . . , n} e sia
BJ l’evento “si estrae una pallina bianca in tutte le estrazioni che hanno il numero d’ordine
compreso in J e solo in quelle”. Evidentemente, è BJ ⊂ Ak , quale che sia J e Ak = ∪J BJ ;
quest’ultima è un’unione disgiunta eseguita sopra tutti gli nj sottoinsiemi J di k numeri

estratti da {1, 2, . . . , n}. Ora N (BJ ) = Db,k Dc,n−k , sicché

Db,k Dc,n−k
P1 (BJ ) = ,
Db+c,n
espressione che non dipende da J. Perciò

X n Db,k Dc,n−k
P1 (Ak ) = P(BJ ) = ,
k Db+c,n
J
cioè la (1.4.2).
Nell’estrazione con restituzione si ha N (BJ ) = bk cn−k .
La (1.4.2) si può porre, con facili calcoli, nella forma piú intuitiva

b c
k n−k
P1 (Ak ) = , (j = 0, 1, . . . , n)
b+c
n
1.4. ALCUNI PROBLEMI D’URNA 15
che si interpreta dicendo che vi sono b+c

n modi di scegliere n palline tra le b+c a disposizione,
b c

k modi di scegliere j palline bianche tra le b a disposizione, e, infine, n−k modi di scegliere
n − 1 palline colorate tra le c a disposizione.
Posto p := b/(b + c), la (1.4.1) si può porre nella forma, che si incontrerà frequentemente
nel seguito,
n j
P(Aj ) = p (1 − p)n−j (j = 0, 1, . . . , n).
j

Esempio 1.4.5. (Campioni non ordinati o estrazione in blocco). Si può pensare di estrarre
n palline da un’urna che ne contiene N , anziché una alla volta, in modo che si possa parlare
di prima, seconda pallina estratta e cosı́ via, tutte insieme, o, come si suol dire, in blocco.
Il risultato di una tale estrazione, che si può pensare anche ottenuta estraendo le palline ad
una ad una, senza tuttavia registrare in quale ordine le palline siano state estratte, sarà rap-
presentato da n–ple (x1 , . . . , xn ) con xi = 1, . . . , N , n–ple che si possono pensare ordinate in
guisa che risulti x1 ≤ x2 ≤ · · · ≤ xn (tale ordinamento è solo opportuno, ma non necessario;
altri sono possibili); la condizione xi 6= xj se i 6= j sarà, o no, richiesta, secondo che si tratti
di un’estrazione senza o con restituzione.
Nell’estrazione senza restituzione, è N (Ω) = N

n che è, com’è noto, il numero delle
combinazioni semplici di N oggetti a n a n. Se, invece, l’estrazione è con restituzione, è

N +n−1
N (Ω) = .
n
È questo il numero delle combinazioni con ripetizione di N oggetti a n a n. La dimostrazione

si svolge per induzione su N . Se n = 1 è, evidentemente, N (Ω) = N = N1 . Si supponga
ora che, per ogni k ≤ N , sia

k+n−1
N (Ω) = V (k, n) := ;
n
si vuole dimostrare che il risultato è valido anche per n + 1. Ordinate le (n + 1)–ple nel
modo indicato sopra, si osservi che vi sono V (N, n) (n + 1)–ple con il primo numero eguale
a 1, ve ne sono V (N − 1, n) con il primo numero eguale a 2 e cosı́ via. Vi saranno, infine,
V (1, n) (n + 1)–ple con la prima componente eguale a N . Pertanto
N
X
V (N, n + 1) = V (N, n) + V (N − 1, n) + · · · + V (1, n) = V (i, n) ;
i=1
ma
k+n−1 k+n k+n−1
V (k, n) = = − ,
n n+1 n+1
sicché

N +n N +n−1 N −1+n
V (N, n + 1) = − +
n+1 n+1 n+1

N +n−2 n+1 n N +n
− + ··· − + = ,
n+1 n+1 n n+1
ciò che conclude la dimostrazione.

Sia ora, come nell’esempio precedente, Aj l’evento “nell’estrazione di un campione non
ordinato (o a blocchi) di n palline si estraggono esattamente j palline bianche, se sono
bianche b delle N palline”. Nell’estrazione senza restituzione è, ovviamente, N (Aj ) =
b c

j sicché P1 (Aj ) è data ancora dalla (1.4.2), mentre nell’estrazione con restituzione,
n−j
è
b+j−1 c+n−j−1
j n−j
P2 (Aj ) = ,
N +n−1
n
che invece non coincide con la (1.4.1).
Esempio 1.4.6. (Alcune distribuzioni della Meccanica Statistica). Siano date N urne
numerate da 1 a N , nelle quali si collocano n palline (n < N ). Si domanda, nei varı̂ casi
possibili, quale sia la probabilità dell’evento A che ognuna delle urne numerate da 1 a n
contenga esattamente una pallina.
La risposta dipende dalle ipotesi su due aspetti:
(a) l’essere, o no, le palline distinguibili (ricordiamo che in Meccanica classica le particelle
sono distinguibili, mentre non lo sono in Meccanica quantistica);
(b) porre, o no, limitazioni al numero di palline che ciascuna urna può contenere (in
Meccanica quantistica esistono particelle, i cosiddetti fermioni , per i quali non esiste
la possibilità che uno stato ne contenga piú di una, mentre tale limitazione non sussiste
per le particelle che sono chiamate bosoni ).
Se le palline sono distinguibili, si possono, senz’altro, pensare numerate da 1 a n; il risultato
dell’esperimento consistente nel porre le palline nelle urne può essere rappresentato mediante
n–ple (x1 , . . . , xn ), nelle quali xi designa il numero dell’urna nella quale è stata posta l’i–
esima pallina. Se, invece, le palline sono indistinguibili, si può ricorrere agli insiemi di
n elementi {y1 , y2 , . . . , yn }, gli elementi dei quali indicano i numeri delle urne nelle quali
sono state poste le palline. In quest’ultimo caso vi possono essere ripetizioni, se piú di una
pallina è stata posta nella stessa urna. Supponiamo, poi, che si possa imporre una regola di
esclusione che vieti di porre piú di una pallina per urna (il principio di esclusione di Pauli,
valido, appunto, per i fermioni). Imponendo tale regola, in ciascuno dei due casi appena
esaminati, si avrà la condizione xi 6= xj oppure yi 6= yj se i 6= j. Ora, N (Ω) è dato, nei
quattro casi possibili, dai valori che seguono.
Se non vale il principio d’esclusione, si ha

n
N , palline distinguibili,
N (Ω) = N +n−1
 , palline indistinguibili.
n
Si hanno, cosı́, rispettivamente le statistiche di Maxwell–Boltzmann e di Bose–Einstein.
Se vale invece il principio d’esclusione, si ha

D N,n, palline distinguibili,
N (Ω) = N
 , palline indistinguibili.
n
Quest’ulima corisponde alla statistica di Fermi–Dirac. Tanto in presenza quanto in assenza
della regola di esclusione, risulta
N (A) = n!,
se le palline sono distinguibili; si ha, perciò,

N
P(A) = n!/DN,n = 1/ e P(A) = n!/N n ,
n
rispettivamente. Se, invece, le palline
sono indistinguibili, è N (A) = 1 in entrambi i casi,
onde, rispettivamente, P(A) = 1/ N n e P(A) = 1/
N +n−1
n . Si osservi che, imponendo la
regola di esclusione, P(A) ha lo stesso valore sia che le palline siano distinguibili sia che esse
siano indistinguibili.
1.5. PROBABILITÀ CONDIZIONATA E INDIPENDENZA 17
1.5 Probabilità condizionata e indipendenza

Sia (Ω, F) uno spazio misurabile. Nel caso delle probabilità discrete, si può pensare che sia
F = P(Ω). Un evento B ∈ F si dirà trascurabile se P(B) = 0.
Si supponga che l’evento A sia tale che P(A) > 0 (dunque, A non è trascurabile); se è
noto che si è realizzato l’evento A, questa informazione può essere utilizzata per valutare
diversamente la probabilità di altri eventi.
Esempio 1.5.1. Si torni all’esempio 1.4.1, nel caso dell’estrazione senza restituzione. Se si
sa che la prima pallina estratta è bianca (e quindi in questo caso, A = B1 ), la probabilità
che la seconda pallina estratta sia pure bianca, è (b − 1)/(n − 1) anziché b/n.
Considerazioni elementari giustificano la seguente
Definizione 1.5.1. Sia P una probabilità definita sugli insiemi di una tribú F di un insieme
Ω e sia A ∈ F un insieme tale che P(A) > 0; si dice probabilità condizionata (o subordinata
o condizionale) da A la funzione
P(· | A) : F → [0, 1]
definita da T
P (A B)
P(B | A) := . (1.5.1)
P(A)

Il risultato seguente è evidente
Proposizione 1.5.1. Una probabilità condizionata P(· | A) è una probabilità tale che
P(A | A) = P(Ω | A) = 1.
Proposizione 1.5.2. Se A1 , . . . , An sono tali che P (∩ni=1 Ai ) > 0, vale la formula delle
probabilità composte:
n
!
\ \
Ai = P(A1 ) P(A2 | A1 ) P A3 A1 A2 × . . .

P
i=1
\ \
× P An A1 ··· An−1 . (1.5.2)

Dimostrazione. Poiché P (∩ni=1 Ai ) > 0, e

n
\ n−1
\ \
Ai ⊂ Ai ⊂ · · · ⊂ A1 A2 ⊂ A1 ,
i=1 i=1
tutte le probabilità condizionate che compaiono nella (1.5.2) sono ben definite.
Si dice che una famiglia {An }, finita o numerabile, di eventi è un sistema di costituenti
se sono verificate le due condizioni:
(a) P(An ) > 0 per ogni indice n;
(b) An è una partizione misurabile di Ω, vale a dire che An ∈ F per ogni indice n, che
Ω = ∪n An e che gli insiemi An sono a due a due disgiunti (Ai ∩ Aj = ∅ se i 6= j).
Proposizione 1.5.3. Se {An } è un sistema di costituenti, vale il teorema delle probabilità

totali: X
P(B) = P(B | An ) P(An ). (1.5.3)
n
Dimostrazione. L’asserto segue dall’osservazione

!
\ \ [ [ \
B=B Ω=B An = B An ,
n n
che è un’unione disgiunta.
Teorema 1.5.1. (di Bayes). Nelle ipotesi della proposizione 1.5.3, se P(B) > 0, vale
P(B | Ai ) P(Ai )
P(Ai | B) = P . (1.5.4)
n P(B | An ) P(An )
Dimostrazione. Segue dalla (1.5.1) che

T
P (Ai B) P (B | Ai ) P(Ai )
P (Ai | B) = =
P(B) P(B)
e perciò, mediante la (1.5.3), si ha l’asserto.
Il teorema di Bayes è solitamente usato per calcolare la probabilità delle cause; se è noto
che piú cause, A1 , . . . , An , . . . , possono provocare lo stesso effetto B e se sono note tanto le
probabilità P(An ) delle cause (probabilità che sono dette a priori ) quanto le probabilità con-
dizionate P(B | An ) (che sono dette probative) la (1.5.4) consente di calcolare la probabilità
delle cause avendo osservato l’effetto B.
Il concetto di indipendenza è fondamentale nel Calcolo delle Probabilità. Siano A e
B eventi e sia P(B) ∈ ]0, 1[, sicché restano definite entrambe le probabilità condizionate
α := P(A | B) e β := P(A | B c ). Se α > β l’evento A ha maggior probabilità di manifestarsi
se si realizza B piuttosto che il suo complementare B c ; il realizzarsi di B “favorisce” il
realizzarsi di A. Il contrario accade se α < β. Se si presume che il realizzarsi di A non
dipenda da quello di B, occorre richiedere che sia α = β. In tal caso si ha:
P(A) = P (A | B) P(B) + P (A | B c ) P(B c ) = α P(B) + β P(B c ) = α
cioè P(A) = P (A | B), onde P(A ∩ B) = P(A) P(B). Quanto precede giustifica la seguente
Definizione 1.5.2. Due eventi A e B si dicono (stocasticamente) indipendenti rispetto alla

probabilità P se verificano \
P A B = P(A) P(B). (1.5.5)

La nozione di indipendenza è legata alla particolare misura di probabilità P. Due even-

ti indipendenti rispetto ad una probabilità possono non esserlo piú rispetto ad un’altra
probabilità.
Due eventi disgiunti A ∩ B = ∅ sono indipendenti se, e solo se, almeno uno di essi è
trascurabile.
Vedremo di seguito che il concetto di indipendenza può essere esteso ad ambiti piú
generali.
1.5. PROBABILITÀ CONDIZIONATA E INDIPENDENZA 19
Definizione 1.5.3. Sia P una probabilità definita in F, tribú di sottoinsiemi di Ω, e siano

F1 , . . . , Fn tribú contenute in F; queste si dicono indipendenti se, per ogni scelta di eventi
Ai ∈ Fi (i = 1, . . . , n) è
n
! n
\ Y
P Ai = P(Ai ) . (1.5.6)
i=1 i=1
Le ultime due definizioni sono legate dal seguente teorema
Teorema 1.5.2. Due eventi A e B sono indipendenti se, e solo se, tali sono le tribú F(A)
e F(B) che essi generano.
Dimostrazione. Se F(A) e F(B) sono indipendenti, basta scegliere A ∈ F(A) e B ∈ F(B)

nella (1.5.6) per avere la (1.5.5). Viceversa, se A e B sono indipendenti, occorre stabilire
la (1.5.6) per ogni possibile scelta di due insiemi uno dei quali appartenga a F(A) e l’altro
a F(B). Basta, evidentemente, eseguire le verifiche per le coppie (A, B c ), (Ac , B c ), (A, Ω),
(A, ∅); ora,
\ \
P A B c = P(A) − P A B = P(A) − P(A) P(B)
= P(A) [1 − P(B)] = P(A) P(B c );
\ [ c [
P Ac Bc = P A B =1−P A B
\
= 1 − P(A) − P(B) + P A B
= 1 − P(A) − P(B) + P(A) P(B)
= (1 − P(A)) (1 − P(B)) = P(Ac )P(B c ) ;
\
P A Ω = P(A) = P(A) · 1 = P(A) P (Ω) ;
\
P A ∅ = 0 = P(A) P(∅) ,
che cosı́ stabiliscono l’asserto.
Definizione 1.5.4. Si dice che n eventi A1 , . . . , An sono indipendenti se sono tali le

tribú F(A1 ), . . . ,F(An ) che essi generano. Gli eventi di una successione (An )n∈N si dicono
indipendenti se, per ogni scelta di n in N, sono indipendenti gli eventi A1 , A2 , . . . , An .
Secondo la (1.5.6), per verificare

Qn che A1 , A2 , . . . , An siano indipendenti occorre control-
lare che risulti P ∩ni=1 Ai = i=1 P(Ai ), ove, per ogni indice i, Ai può essere uno degli
insiemi Ai , Aci , Ω (non vi è nulla da verificare se Ai = ∅).
Teorema 1.5.3. Dati n eventi A1 , A2 , . . . , An sono equivalenti le condizioni:
(a) essi sono indipendenti;
(b) per ogni numero naturale k ≤ n e per ogni scelta di k numeri i1 , . . . , ik in {1, . . . , n}
si ha  
\k Yk
P Ai j  = P(Aij ).
j=1 j=1
Dimostrazione. L’implicazione (a) ⇒ (b) è ovvia perché nella (1.5.6) basta prendere As = Ω
se s 6= ij (j = 1, . . . , k).
(b) ⇒ (a) Si ha, ad esempio,
n−1
!
\ \ \ Y
c
P A1 ··· An−1 An = P(Ai ) P(Acn )
i=1
perché \ \
\ \ \ \
n−1
A1 A2 ... An−1 Acn = i=1 Ai \ n
i=1 Ai
sicché
h \ \ i \ \
n−1 n−1
P i=1 Ai Acn = P i=1 A i − P n
i=1 Ai
(n−1 )
Y
= P(Ai ) P(Acn ) .
i=1
Le altre relazioni si dimostrano in maniera analoga.
Le verifiche da eseguire per controllare che n eventi A1 , . . . , An siano indipendenti sono

2n − n − 1, si osservi che il numero di verifiche da eseguire cresce esponenzialmente con
n. Si vedrà nella prossima sezione come, di solito, si eviti di eseguire tali verifiche e si
cerchi, invece, di costruire il modello in maniera che opportune classi di eventi risultino
indipendenti.
Se si hanno tre eventi, occorre compiere 4 verifiche; tre eventi possono essere a due a
due indipendenti senza che siano globalmente indipendenti.
Esempio 1.5.2. Sia Ω = {ω1 , ω2 , ω3 , ω4 } con P({ωi }) = 1/4; se A = {ω1 , ω2 }, B = {ω1 , ω3 }

e C = {ω1 , ω4 }, si ha P(A) = P(B) = P(C) = 1/2 e
\ \ \ 1
P A B =P A C =P B C = P ({ω1 }) = ,
4
sicché gli eventi A, B, C a due a due indipendenti, senza però essere indipendenti perché
\ \ 1 1
P A B C = P({ω1 }) = =6 = P(A) P(B) P(C).
4 8

1.6 Variabili aletorie discrete

Lo spazio dei risultati Ω non è, di per sé, sempre lo strumento ideale per trattare tutti i
problemi del Calcolo delle Probabilità; uno strumento assai piú flessibile è costituito dalle
variabili aleatorie. Per esempio, se si lanciano due dadi, è piú semplice considerare la
funzione somma del punteggio dei due dadi, anziché scrivere la tabella dei 36 risultati possibili
nel lancio dei due dadi; ciò sarebbe facile in questo caso, ma sarebbe già assai piú lungo
e complicato se i dadi fossero icosaedri regolari ed avessero perciò 20 facce ognuno. Ciò
giustifica la seguente definizione che, al solito, è data, per il momento, nel caso particolare
degli spazı̂ con un numero finito o numerabile di punti.
Definizione 1.6.1. Dato uno spazio misurabile (Ω, F) si chiama variabile aleatoria discreta
ogni funzione X definita in Ω che assuma un numero finito o un’infinità numerabile di valori
{xn } e tale che, per ogni valore xn , il sottoinsieme di Ω nel quale X assume il valore xn ,
{X = xn } = X −1 ({xn }) sia misurabile, appartenga cioè alla tribú F.
1.6. VARIABILI ALETORIE DISCRETE 21
Se poi Ω è esso stesso finito o numerabile una variabile aleatoria discreta sarà una
qualsiasi funzione a valori in R definita in Ω. Una variabile aleatoria è dunque, in realtà,
una funzione. Si scriverà spesso v.a.. è tradizionale indicare le v.a. mediante le ultime lettere
maiuscole dell’alfabeto.
Dalle proprietà di una tribú si vede poi che sono misurabili, per ogni indice n, anche gli
insiemi {X ≤ xn }, {X > xn }, {X 6= xn }.
Se è assegnata una probabilità P su Ω, un problema tipico del Calcolo delle Probabilità
(anzi il problema tipico) è di rispondere alla domanda: Qual è la probabilità che una v.a.
X assuma valori nell’insieme A? Si vedrà che, nel caso generale, si richiederà all’insieme
A di essere boreliano. Si tratta quindi di calcolare la probabilità dell’insieme, contenuto
in Ω, X −1 (A). A questo proposito occorre avvertire che si usa in maniera sistematica la
notazione piú espressiva {X ∈ A} invece di X −1 (A); analogamente si scrive, per esempio,
{a < X < b} o {X = x} in luogo di X −1 (]a, b[) o di X −1 ({x}), rispettivamente.
Dato uno spazio di probabilità (Ω, F, P) si parlerà di v.a. discreta, anche quando Ω non
sia finito o numerabile, se la funzione X : Ω → R assume un numero finito o un’infinità
numerabile di valori distinti, purché, per ognuno di tali valori xn appartenga a F l’insieme
{X = xn } = X −1 ({xn }). Si può rappresentare una v.a. discreta X nella forma
X
X= xi 1Ai ,
i
ove gli xi sono i valori che essa assume e Ai è l’insieme di Ω nel quale X assume il valore
xi . Gli insiemi Ai costituiscono una partizione (misurabile) di Ω. Spesso, nell’assegnare
una v.a., si fa riferimento ai valori che essa assume e alle probabilità con le quali li assume,
tacendo lo spazio Ω sul quale è definita.
I tre esempı̂ che seguono sono fondamentali.
Esempio 1.6.1. (v.a. di Bernoulli), Si consideri la v.a. che assume i valori 1 e 0 con
probabilità p e q := 1 − p, rispettivamente; è ovvio che p ∈ [0, 1]. X descrive i risultati del
lancio di una moneta, ponendo X(T ) = 1 e X(C) = 0.
Le v.a. bernoulliane si incontrano tutte le volte che si è interessati al realizzarsi di
un evento E. È in tal caso naturale considerare la partizione di Ω data da E e dal suo
complementare E c ; quindi X = 1E con p = P(E) e q = P(E c ). La coppia (p, 1 − p) = (p, q)
si dice legge o distribuzione di Bernoulli.
Esempio 1.6.2. (v.a. binomiale). Si considerino n prove indipendenti, ciascuna delle quali
abbia due soli risultati possibili; questi sono denominati, per convenzione, successo s e
fallimento f , oppure 1 e 0 (il successo può essere il risultato testa nel lancio di una moneta,
l’estrazione di una pallina bianca da un’urna che ne contiene di diversi colori, l’uscita di un
certo numero nel gioco della roulette,...). In generale, sia P(s) = p e P(f ) = q(= 1 − p) e
sia Sn la v.a. che conta il numero dei successi in n prove. Nella stessa maniera dell’esempio
1.4.4, si mostra che

n j n−j
P(Sn = j) = b(j; n, p) := p q (j = 0, 1, . . . , n).
j
Una v.a. binomiale è legata alle v.a. Xi (i = P 1, 2, . . . , n), ove Xi si riferisce al risultato
n
della i–esima prova, mediante la relazione Sn = i=1 Xi . Si noti che ciascuna delle v.a. Xi
è una v.a. di Bernoulli. Se una v.a. X è binomiale con parametri n ∈ N e p ∈ [0, 1], si scrive
X ∼ Bi(n, p) e si dice che X ha legge o distribuzione binomiale.
Esempio 1.6.3. (v.a. di Poisson). Una v.a. X di Poisson dipende da un parametro λ > 0
e assume i valori 0, 1, . . . , n, . . . con probabilità
λn
P(X = n) := e−λ (n ∈ Z+ ).
n!
Se X è una v.a. di Poisson di parametro λ, si scrive X ∼ P(λ) e si dice che X ha legge o
distribuzione di Poisson.
Definizione 1.6.2. Nello spazio di probabilità (Ω, F, P), sia X una v.a. discreta; se converge
la serie X
|xn | P(X = xn ), (1.6.1)
n
si dice speranza (matematica) o valor medio o media di X, la somma

!
X X X
E(X) = E xi 1Ai = xi P(Ai ) = xj P(X = xj ).
i i j

Qualche volta si attribuisce significato alla speranza di una v.a. discreta, anche quando
la serie (1.6.1) non sia convergente, ma la v.a. sia positiva X ≥ 0 o negativa X ≤ 0; in tal
caso si ha E(X) = +∞ oppure E(X) = −∞.
Se X è la funzione indicatrice di un insieme A, X = 1A , essa è, ovviamente, una v.a.
bernoulliana, poiché assume solo i valori 1 e 0, con probabilità date rispettivamente da P(A)
e P(Ac ); per la sua speranza si ha
E (1A ) = P(A) .
Se invece X è costante, X = c, si ha
E(c) = c .
Se f : R → R è una funzione, si ha
X
f ◦X = f (xi ) 1Ai
i
e X X
E (f ◦ X) = f (xi ) P(Ai ) = f (xi ) P(X = xi ) ,
i i
se è assolutamente convergente la serie in questione, vale a dire se

X
E(|f ◦ X|) = |f (xn )| P(X = xn ) < +∞ .
n
Poiché segue immediatamente dalla definizione che se la v.a. discreta X ha speranza finita
e se α è un numero reale anche la v.a. α X ha speranza finita e vale
E(α X) = α E(X) ,
si può dire che le speranze delle v.a. discrete sono lineari, anche se non abbiamo ancora
specificato l’insieme nel quale le speranze sono definite.
Segue immediatamente dalla definizione di speranza che, se X è una v.a. positiva, vale
a dire, se xn ≥ 0 per ogni indice n, allora anche la speranza di X è positiva, E(X) ≥ 0.
Si osservi che se X e Y sono v.a. discrete con X ≥ Y , ed entrambe con speranza finita,
si ha anche E(X) ≥ E(Y ), proprietà che si dice di isotonı́a delle speranze. Basta infatti
notare che la v.a. discreta X − Y è positiva; dunque
E(X) − E(Y ) = E(X − Y ) ≥ 0 .
Si definiscono altresı́, per una v.a. X:

(a) il momento r–esimo (o di ordine r),
X
E (X r ) := xrj P(X = xj ) ,
j
(b) il momento centrale r–esimo,

r
X r
E [(X − E(X)) ] := (xj − E(X)) P(X = xj ),
j
(c) il momento assoluto r–esimo,

X
E (|X|r ) := |xj |r P(X = xj );
j
s’intende che, se X assume un’infinità numerabile di valori, occorre verificare che le serie in
esame convergano assolutamente, prima di affermare che esistono i rispettivi momenti.
Siano ora X e Y due v.a. discrete; ponendo Ai := {X = xi } e Bj := {Y = yj }, esse si
possono scrivere nella forma
X X
X= xi 1Ai e Y = yj 1Bj ,
i j
o anche, facendo riferimento alla stessa partizione di Ω,

X X
X= xi 1Ai ∩Bj e Y = yj 1Ai ∩Bj .
i,j i,j
Per il seguito è importante sottolineare che, date due v.a. X e Y sul medesimo spazio di
probabilità (Ω, F, P), le probabilità
pij := P (X = xi , Y = yj )
definiscono al variare degli indici i e j la legge congiunta delle v.a. X e Y . Questa contiene
l’informazione completa sulle due v.a. considerate nelle loro individualità; infatti le leggi di
X e di Y , che si dicono marginali si ricavano facilmente dalla legge congiunta {pij }:
X
pi := P(Ai ) = P(X = xi ) = pij
j
X
qj := P(Bj ) = P(Y = yj ) = pij .
i
Si noti che, in genere, se sono note le leggi marginali {pi } di X e {qj } di Y non è possibile
ricostruire la legge congiunta {pij }.
Vogliamo dimostrare due proprietà importanti dei momenti.
Teorema 1.6.1. (a) Sia s un reale positivo, s > 1. Se la v.a. X ha finito il momento di
ordine s, E(|X|s ) < +∞, allora, per ogni r ∈ [1, s], esiste finito il momento di ordine r,
E(|X|r ) < +∞.
(b) Se due v.a. X e Y hanno entrambe finito il momento di ordine s, con s ≥ 1, allora
è finito anche il momento di ordine s della v.a. X + Y , vale a dire E (|X + Y |s ) < +∞ se
E(|X|s ) < +∞ e E(|Y |s ) < +∞.
Dim. (a) Occorre dimostrare che è convergente la serie
X r
|xn | pn ,
n
r
ove si è posto pn := P(X = xn ). Ora se |xn | ≤ 1 si ha |xn | ≤ 1, mentre, se |xn | > 1, allora
r s
|xn | ≤ |xn | . Pertanto
X r
X s
X X s
|xn | pn ≤ (1 + |xn | ) pn = pn + |xn | pn
n n n n
= 1 + E (|X|s ) < +∞ ,
sicché X ha finito il momento di ordine r per ogni r ∈ [1, s].

(b) Facendo riferimento alla notazione introdotta sopra, per mostrare che X +Y ha finito
il momento s–esimo, occorre, e basta, mostrare che è convergente la serie
X s
|xi + yj | pij .
ij
Dalla convessità della funzione t 7→ ts , con t ≥ 0 si ricava immediatamente la diseguaglianza

s
|x + y| ≤ 2s−1 (|x|s + |y|s ) ,
sicché
X s
X
|xi + yj | pij ≤ 2s−1 (|xi |s + |yj |s ) pij
ij ij
X X
= 2s−1 |xi |s pij + 2s−1 |yj |s pij
ij ij
X X
= 2s−1 |xi |s pi + 2s−1 |yj |s qj
i j
= 2s−1 {E (|X|s ) + E (|X|s )} < +∞ ,

ciò che conclude la dimostrazione.
In particolare, se X e Y sono v.a. discrete entrambe con speranza finita esiste finita
anche la speranza della v.a. somma X + Y . Si può ora calcolare
X
E(X + Y ) = (xi + yj ) P (Ai ∩ Bj )
i,j
X X X X
= xi P (Ai ∩ Bj ) + yj P (Ai ∩ Bj )
i j j i
X X
= xi P(Ai ) + yj P(Bj ) = E(X) + E(Y ) .
i j
Ha particolare importanza il momento centrale di ordine 2 che si chiama varianza di X

(se esiste) e si denota con V (X). Si ha
h i X
2 2
V (X) := E (X − E(X)) = (xj − E(X)) P(X = xj )
j
X
x2j − 2xj E(X) + E 2 (X) P(X = xj )

=
j
= E(X 2 ) − 2 E2 (X) + E 2 (X) = E(X 2 ) − E 2 (X) .

Quest’ultima relazione avrà validità generale quando esiste la varianza. Il significato della
varianza sarà studiato nella prossima sezione.
Esempio 1.6.4. (Speranza e varianza della v.a. di Bernoulli).

E(X) = 1 · p + 0 · q = p, V (X) = 12 · p − p2 = pq.

Esempio 1.6.5. (Speranza e varianza della v.a. binomiale).
n n
X n j n−j X (n − 1)!
E(X) = j p q = np pj−1 q n−j
j=0
j j=1
(j − 1)! (n − k)!
n−1
X
n − 1 j n−j
= np p q = np(p + q)n−1 = np .
j=0
j
Per calcolare la varianza è opportuno ricorrere all’identità

E(X 2 ) = E [X(X − 1)] + E(X) .
n
X n j n−j
E [X(X − 1)] = j(j − 1) p q
j=0
j
n
X (n − 2)!
= n(n − 1)p2 pj−2 q n−j
j=2
(j − 2)!(n − j)!
n−2
X
2 n − 2 k n−2−k
= n(n − 1)p p q = n(n − 1)p2 ,
k
k=0
sicché segue dalla (1.6.1) che

V (X) = n(n − 1)p2 + np − n2 p2 = np − n2 p2 = np(1 − p) = npq .

Esempio 1.6.6. (Speranza e varianza della v.a. di Poisson).
∞ ∞
X λn X λn−1
E(X) = e−λ n = e−λ λ = λ.
n=0
n! n=1
(n − 1)!
Procedendo come nell’esempio precedente, si ha

∞ ∞
X λn X λn−2
E [X(X − 1)] = e−λ n(n − 1) = e−λ λ2 = λ2 ,
n=0
n! n=2
(n − 2)!
2 2
sicché V (X) = λ + λ − λ = λ. Il parametro λ che compare nei termini della distribuzione
di Poisson dà, quindi, sia la speranza sia la varianza.
Sullo spazio di probabilità (Ω, F, P), si consideri una v.a. discreta X che assume i valori
x1 , . . . , xn ,. . . . Si indichi con S il sottoinsieme di N definito da
S := {n ∈ N : P(X = xn ) > 0} .
Per ogni indice n ∈ S è possibile definire la probabilità condizionata
T
P (A {X = xn })
Qn (A) := (A ∈ F).
P(X = xn )
Sia Y una v.a. discreta, X
Y = yj 1Bj ;
n
è possibile definire la speranza En (Y ) di Y rispetto alla misura di probabilità Qn , ottenendo
X X P (Bj ∩ {X = xn })
En (Y ) = yj Qn (Bj ) = yj .
j j
P(X = xn )
Di qui si ottiene
X X X
E(Y ) = yj P(Bj ) = yj P (Bj ∩ {X = xn })
j j n∈S
XX
= yj P (Bj ∩ {X = xn })
n∈S j
X X X
= P(X = xn ) yj Qn (Bj ) = P(X = xn ) En (Y ) .
n∈S j n∈S
nota come formula di disintegrazione per le speranze.

Definizione 1.6.3. Sia P una probabilità sull’insieme finito o numerabile Ω e siano X e

Y due v.a. su Ω; si dice che esse sono indipendenti (rispetto a P) se sono indipendenti gli
eventi {X = xk } e {Y = yj } per ogni possibile scelta dei valori xk e yj .
Teorema 1.6.2. Se le v.a. X e Y sono discrete e ammettono speranza finita e sono
indipendenti, ha speranza finita anche la v.a. prodotto Z = XY e si ha
E(XY ) = E(X) E(Y ) .
Dimostrazione. Se Z assume i valori zn (anche Z è una v.a. discreta), è
[ \
{Z = zn } = {X = xr } {Y = ys } ,
r,s:xr ys =zn
onde, poiché l’unione è disgiunta,

X
P(Z = zn ) = P(X = xr ) P(Y = ys ) .
r,s:xr ys =zn
Pertanto, poiché tutte le serie sono assolutamente convergenti, si ha

X
E(|XY |) = E(|Z|) = |zn | P(Z = zn )
n
X X
= |zn | P(X = xr ) P(Y = ys )
n r,s:xr ys =zn
X
= |xr | |ys | P(X = xr ) P(Y = ys )
r,s
! !
X X
= |xr | P(X = xr ) |ys | P(Y = ys ) = E(|X|) E(|Y |) < +∞ ,
r s
ciò che mostra che il prodotto ha, anch’esso, speranza finita; questa è ora data dallo stesso
calcolo nel quale sono state eliminati i segni di valore assoluto:
X
E(XY ) = E(Z) = zn P(Z = zn )
n
X X
= zn P(X = xr ) P(Y = ys )
n r,s:xr ys =zn
X
= xr ys P(X = xr ) P(Y = ys )
r,s
! !
X X
= xr P(X = xr ) |ys | P(Y = ys ) = E(X) E(Y ) ,
r s
ciò che stabilisce l’asserto.
1.7 La diseguaglianza di Čebyšev

La dimostrazione che segue è scritta usando le proprietà formali delle speranze. Poiché
le proprietà alle quali faremo ricorso continueranno a valere anche nel caso generale, la
dimostrazione e, quindi, il risultato varranno immutati anche nel caso generale; basterà solo
tenere conto del diverso significato dei simboli.
Teorema 1.7.1 (Diseguaglianza di Markov). Sia X una v.a. discreta su Ω; se X è positiva
(X ≥ 0) si ha, quale che sia il numero reale b > 0,
1
P(X ≥ b) ≤ E(X) .
b
1.7. LA DISEGUAGLIANZA DI ČEBYŠEV 27
Dimostrazione. Poiché la somma, o serie, che definisce la speranza è a termini positivi, si

ha 0 ≤ E(X) ≤ +∞. Se E(X) = +∞, non vi è nulla da dimostrare. Si supponga, perciò,
che sia E(X) < +∞ e si ponga A(b) := {X > b}. Poiché è evidente che X ≥ X · 1A(b) ,
risulta, dalla definizione di speranza, che
E(X) ≥ E(X · 1A(b) ) ≥ E(b · 1A(b) )

= b E(1A(b) ) = b P(A(b)) = b P(X ≥ b) ,
col che la diseguaglianza di Markov è provata.
Corollario 1.7.1. Siano X una v.a. discreta, c un numero reale, ε > 0 e n ∈ N. Allora
E (|X − c|n )
P (|X − c| ≥ ε) ≤ . (1.7.1)
εn
Se la v.a. X ammette speranza e varianza finite si ha, per ogni numero reale k > 0,
p 1
P |X − E(X)| ≥ k V (X) ≤ 2 (1.7.2)
k
come subito si vede ponendo c = E(X) e ε = V (X) nella (1.7.1). La (1.7.2) è nota con il
nome di diseguaglianza di Čebyšev e consente di interpretare la varianza come misura della
dispersione dei valori assunti dalla v.a. X attorno alla sua speranza E(X). La diseguaglianza
di Čebyšev si può scrivere in una delle forme equivalenti
V (X)
P (|X − E(X)| ≥ ε) ≤ , (1.7.3)
ε2
oppure
V (X)
P (|X − E(X)| < ε) ≥ 1 − .
ε2
Usando la diseguaglianza di Čebyšev, si può dimostrare il seguente celebre risultato, che è
anche il primo esempio di Legge dei Grandi Numeri (LGN).
Teorema 1.7.2 (LGN di Bernoulli). Sia Sn (n ∈ N) una v.a. binomiale, essendo p la

probabilità di un successo. Posta Tn := Sn /n la frequenza dei successi in n prove, risulta,
per ogni ε > 0,
lim P (|Tn − p| < ε) = 1 .
n→+∞
Dimostrazione. Poiché E(Sn ) = np e V (Sn ) = np(1 − p), è E(Tn ) = p e

E (Sn − np)2 V (Sn ) p(1 − p)
V (Tn ) = E (Tn − p)2 =

= = .
n2 n2 n
Scende ora dalla (1.7.3) che
p(1 − p) 1
P (|Tn − p| ≥ ε) ≤ ≤
nε2 4nε2
per ogni p ∈ [0, 1] e per ogni ε > 0.
Ci si può servire di strumenti e di idee puramente probabilistici per dimostrare risultati

puramente analitici; di seguito è riportata la dimostrazione probabilistica di un teorema
classico, quello di Weierstrass sull’approssimazione uniforme di funzioni continue mediante
polinomı̂. Lo spazio lineare delle funzioni continue a valori reali definite in un intervallo
chiuso [a, b] sarà indicato con C[a, b].
Teorema 1.7.3. Ogni funzione f continua nell’intervallo chiuso e limitato [a, b], f ∈
C[a, b], è il limite uniforme di una successione di polinomı̂.
Dimostrazione. Ponendo x = a+(b−a)z, ci si può ricondurre al caso di una funzione definita

e continua nell’intervallo chiuso [0, 1]. Si consideri, allora, una serie di prove bernoulliane
indipendenti di parametro x ∈ [0, 1], vale a dire con probabilità x di successo. Per ogni
n ∈ N, si definiscano i polinomı̂ di Bernstein pn : [0, 1] → R mediante
n
X k n k
pn (x) := f x (1 − x)n−k .
n k
k=0
Poiché f è limitata, esiste una costante C > 0 tale che |f (x)| ≤ C per ogni x ∈ [0, 1]; e
poiché f è uniformemente continua, fissato ε > 0, esiste δ > 0 tale che |x − x0 | < δ implichi
|f (x) − f (x0 )| < ε. Perciò, se Sn ha lo stesso significato che nel teorema precedente, si ha

Sn
|f (x) − pn (x)| = E f (x) − f
n
X n
≤ |f (x) − f (k/n)| b(k; n, p)
k=0
X X
≤ |. . . | + |f (x) − f (k/n)| b(k; n, p) .
|k−nx|<nδ |k−nx|≥nδ
Pn
La prima delle due somme è limitata da ε k=0 b(k; n, p) = ε. Per la seconda risulta, in
virtú della diseguaglianza di Čebyšev,
X
|f (x) − f (k/n)| b(k; n, p)
|k−nx|≥nδ
X
≤ 2C b(k; n, p) = 2 C P (|Sn − E(Sn )| ≥ nδ)
|k−nx|≥nδ
V (Sn ) 2 C x(1 − x) C
≤ 2C = ≤ .
n2 δ 2 nδ 2 2nδ 2
Perciò, pur di prendere n > C/(δ 2 ε), si ha
ε C ε ε
|f (x) − pn (x)| ≤ + < + = ε,
2 2nδ 2 2 2
che conclude la dimostrazione.
1.8 Alcune distribuzioni di probabilità discrete

Il significato del termine distribuzione si può dare in un contesto piú generale di quello
delle presenti Lezioni. Lo si può però già usare senza pericolo parlando delle distribuzioni
discrete. Se una v.a. X assume i valori x1 , . . . , xn , . . . , si dirà distribuzione di X l’insieme
delle probabilità {P(X = xn ) = pn }. Spesso si omette di far riferimento ad una v.a. ed
allora per distribuzione (discreta)
P si intende un insieme finito o numerabile {pn } di numeri
positivi (pn ≥ 0) tali che n pn = 1.
Esiste il seguente legame tra la distribuzione binomiale e quella di Poisson.
Teorema 1.8.1. Se, per ogni n ∈ N, si ha pn n = λ, allora è
λk
lim b(k; n, pn ) = e−λ (k ∈ Z+ ) .
n→+∞ k!
1.8. ALCUNE DISTRIBUZIONI DI PROBABILITÀ DISCRETE 29
Dimostrazione.
k n−k
n λ λ
b(k; n, pn ) = 1−
k n n
k
n−k k
λ λ n(n − 1) . . . (n − k + 1) −λ λ
= 1− → e ,
k! n nk k!
che dà l’asserto.
Gli esempı̂ che seguono danno altri importanti distribuzioni di probabilità.
Esempio 1.8.1. (La distribuzione geometrica). Si consideri una sequenza, a priori infinita,
di prove bernoulliane indipendenti, tutte con probabilità di successo eguale a p. Ci si
domanda quanto “tempo” occorra aspettare perché si abbia il primo successo; l’espressione
“tempo” equivale a “numero di prove”, ma è piú intuitiva. Si consideri la v.a. discreta T1 :=
“tempo al quale si ha il primo successo”, definita sull’insieme Ω = {0, 1}N , cioè l’insieme
delle successioni costituite di 0 e di 1. È noto che tale insieme ha la cardinalità del continuo
sicché, a rigore, tale esempio esce dalla schema che abbiamo costruito sin qui. Tuttavia, non
sarà difficile nel seguito rendere preciso quanto abbiamo appena detto. Facendo riferimento
alle v.a. indipendenti {Xn } con P(Xn = 1) = p e P(Xn = 0) = q per ogni naturale n, si
ottiene \ \
n−1
{T1 = n} = j=1 {X j = 0} {Xn = 1},
sicché P(T1 = n) = p q n−1 . Si chiama distribuzione geometrica quella i cui termini sono dati
da pn = p q n−1 (n ∈ N) con p ∈ ]0, 1[. Si controlla subito che
∞
X X 1
pn = p (1 − p)n−1 = p = 1.
n=1
1 − (1 − p)
n∈N
Poiché è facile controllare che E(T1 ) esiste finita, si può calcolare in modo indiretto come
segue,
∞
X ∞
X
E(T1 ) = p n q n−1 = (k + 1)q k
n=1 k=0
X∞ ∞
X
=p kq k + p qk
k=0 k=0
∞
X
= 1 + pq kq k−1 = 1 + q E(T1 ) ,
k=0
sicché E(T1 ) è soluzione dell’equazione E(T1 ) = 1 + q E(T1 ); perciò E(X) = 1/p. È questa
la risposta alla domanda iniziale: in media occorre aspettare un tempo 1/p prima di avere
un successo.
Questo risultato risolve il cosiddetto paradosso di Borel, che consiste in questo. Si osservi
che, in una serie di prove bernoulliane indipendenti con probabilità non nulla p > 0, è
certo che prima, o poi, si realizzerà un successo. Infatti, la probabilità che in n prove
non si realizzi alcun successo è data da q n , che, al tendere di n all’infinito, tende a 0.
Il paradosso di Borel consiste nel fatto che, pur di aspettare abbastanza a lungo, anche
un evento con probabilità piccola si realizzerà; per esempio, una scimmia che estraesse,
con restituzione, lettere da un sacchetto che contiene tutte le lettere dell’alfabeto italiano,
minuscole e maiuscole, la punteggiatura, lo spazio tra una parola e la successiva (dunque in
tutto 50 simboli), prima o poi estrarrà in successione il primo verso della Divina Commedia.
Tuttavia, perché ciò accada, occorre attendere un tempo eguale al reciproco della probabilità
dell’evento in questione. Nell’esempio appena dato, se si suppone che la scimmia estragga
una lettera al secondo, occorre aspettare in media 5035 secondi prima che la scimmia estragga
in successione le lettere che compongono il primo verso. Ora 5035 > 1035×1.69 > 1059 e,
poiché un anno contiene meno di 109 secondi, occorrerà aspettare, in media, piú di 1050
anni prima di veder comparire
Nel mezzo del cammin di nostra vita;
si tenga presente che la vita dell’Universo è stimata in 1010 anni.

Per la varianza di T1 si ha
X ∞
X
E(T12 ) = p n2 q n−1 = p (k + 1)2 q k
n∈N k=0
X∞ ∞
X ∞
X
2 k k
=p k q +p q + 2p kq k
k=0 k=0 k=0
= q E(T12 ) + 1 + 2q E(T1 ) ,
sicché

1 2q 1+q 2−p
E(T12 ) = +1 = 2
=
p p p p2
2−p 1 q
V (T1 ) = − 2 = 2.
p2 p p
Una proprietà importante della legge geometrica è la cosiddetta mancanza di memoria.

Sapendo che non si è realizzato un successo sino al tempo n, cioè sapendo che T1 > n, la
probabilità condizionata che non si realizzi un successo sino al tempo n + j, con n e j numeri
naturali, non dipende da n. Infatti, dovendo calcolare P(T1 > n + j | T1 > n), si ha, per
k ∈ N,
X∞ X∞ ∞
X
P(T1 > k) = pq s−1 = pq k q s−(k+1) = pq k qh = qk
s=k+1 s=k+1 h=0
e dunque
P (T1 > n + j) q n+j
P (T1 > n + j | T1 > n) = = n = qj .
P (T1 > n) q

Esempio 1.8.2. (La distribuzione ipergeometrica). Sia N un numero naturale e sia n un

altro numero naturale tale che n ≤ N . Se p è uno dei numeri
0, 1/N, 2/N, . . . , 1 ,
la distribuzione ipergeometrica di parametri N , n e p è data da

Np Nq
k n−k
pk = (k = 0, 1, ..., n) ;
N
n
pk è, come si è già visto, la probabilità di estrarre k palline bianche in un’estrazione senza
restituzione di n palline da un’urna che ne contiene N p bianche.
1.8. ALCUNE DISTRIBUZIONI DI PROBABILITÀ DISCRETE 31
Esempio 1.8.3. (La distribuzione binomiale negativa). Se si domanda quanti siano i fal-
limenti Fk che, in una serie di prove bernoulliane indipendenti, si hanno prima di avere k
successi si ottiene per n = 0, 1, . . .

k+n−1 k n −k k
pn := P(Fk = n) = p q = p (−q)n , (1.8.1)
n n
ove l’ultima espressione si ottiene ricordando che

−k −k(−k − 1) . . . (−k − n + 1)
=
n n!

k(k + 1) . . . (k + n − 1) k+n−1
= (−1)n = (−1)n .
n! n
Si dice binomiale negativa la distribuzione i cui termini sono dati dalla (1.8.1).
Alla legge binomiale negativa è legata la legge di Pascal ; questa è la legge della v.a.
Tk (=istante del k–esimo successo in un processo di Bernoulli). La v.a. Tk è discreta a
valori nell’insieme {n ∈ N : n ≥ k} ∪ {+∞} ed è quasi certamente finita, vale a dire
P(T = +∞) = 0. Si osservi che Tk = Fk + k. Perciò, per n ≥ k,

n − 1 k n−k n − 1 k n−k
P(Tk = n) = P(Fk = n − k) = p q = p q .
n−k k−1
Nell’esempio seguente si otterrà un (celeberrimo) risultato di teoria dei numeri con

elementari metodi probabilistici.
Esempio 1.8.4. Si consideri una variabile X che assume come valori i numeri naturali e
sia, per n ∈ N,
k
P(X = n) = s (s > 1) . (1.8.2)
n
Com’è noto la serie
X 1
ns
n∈N
converge per s > 1. Si ponga eguale a ζ(s) la sua somma

X 1
ζ(s) := ;
ns
n∈N
È questa la funzione zeta di Riemann ben nota in teoria dei numeri. Si determina cosı́ il
valore della costante k nell’eq. (1.8.2), sicché la legge della v.a. X è
1 1
P(X = n) = .
ζ(s) ns
Consideriamo l’evento Dk “la v.a. X è divisibile per k”, sicché

[
Dk := {X = nk} ,
n∈N
che è un’unione disgiunta. Pertanto

X 1 1 X 1 1
P(Dk ) = P(X = nk) = s s
= s.
ζ(s) k n k
n∈N n∈N
Siano ora j e k due numeri primi tra loro, (j, k) = 1 (qui (a, b) indica il massimo comun
divisore dei numeri naturali a e b). L’evento Dj ∩ Dk indica l’insieme dei numeri naturali
che sono divisibili al contempo per j e per k:
\ [
Dj Dk = {X = njk} ,
n∈N
che è nuovamente un’unione disgiunta, sicché

1 1 X 1 1
P(Dj ∩ Dk ) = s s s
= s s = P(Dj ) P(Dk ) .
ζ(s) j k n j k
n∈N
I due eventi Dj e Dk sono dunque indipendenti se j e k sono primi tra loro.

Supponiamo ora che j e k non siano primi tra loro, (j, k) = i 6= 1; esistono allora due
naturali h e m tali che j = hi e k = mi. In questo caso è
\ [
Dj Dk = {X = nhmi} ;
n∈N
di qui si ricava
\ 1 is is 1
P Dj Dk = s s s
= s s 2s
= s s
6= s s = P(Dj ) P(Dk ) .
h m i h m i j k j k
Gli eventi Dj e Dk sono quindi indipendenti se, e solo se, j e k sono primi tra loro.
Si consideri infine l’insieme P dei numeri primi. La successione
(Dp )p∈P
è costituita da eventi indipendenti. Infatti, se si indica con pj il j–esimo numero primo, per
ogni n ∈ N, l’insieme
\n
Dpj
j=1
è costituito da tutti i punti nei quali X assume un valore divisibile per il prodotto p1 . . . pn ,
sicché
\n [
Dpj = {X = k p1 . . . pn } .
j=1 k∈N
Di qui  
n n
\ 1 Y
P D pj  = = P Dpj ,
j=1
ps1 ps2 . . . psn j=1
onde l’asserto.
I punti dell’intersezione \
Dpc
p∈P
sono quelli nei quali la v.a. X non è divisibile per alcun numero primo, vale a dire i punti nei
quali X assume il valore 1, l’unico numero naturale non divisibile per alcun numero primo;
dunque \
{X = 1} = Dpc .
p∈P
In virtú dell’indipendenza degli insiemi della successione (Dp )p∈P , si può calcolare
1 Y 1

= P(X = 1) = 1− s , (1.8.3)
ζ(s) p
p∈P
1.9. PROBABILITÀ DI UN ASSEGNATO NUMERO DI EVENTI 33
o, equivalentemente
Y −1
1
ζ(s) = 1− ,
ps
p∈P
che è la formula di Eulero limitata al caso di valori reali della variabile s.
1.9 Probabilità di un assegnato numero di eventi

Nel considerare il problema delle coincidenze (esempio 1.4.3), ci si può domandare quale sia la
probabilità che si realizzino esattamente k coincidenze. Il problema può essere schematizzato
in generale come segue. Siano dati n eventi
A1 , . . . , A n ;
qual è la probabilità che se ne realizzino k con k = 0, 1, ..., n?

Il risultato che segue è basato sull’osservazione, già piú volte usata, che, se A è un evento,
allora E(1A ) = P(A).
Teorema 1.9.1. Dati n eventi A1 , . . . , An , la probabilità dell’evento Bk , “si realizzano
esattamente k degli n eventi dati” con k = 0, 1, . . . , n è
n
j−k j
X
P(Bk ) = (−1) Sj , (1.9.1)
k
j=k
ove si è posto, per j = 0, 1, . . . , n,

X \ \ \
Sj := P Ak(1) Ak(2) ... Ak(j)
k(1),k(2),...,k(n)
n
X n
X n
X
:= P Ak(1) ∩ Ak(2) ∩ · · · ∩ Ak(j) ,
k(1)=1 k(2)=k(1)+1 k(j)=k(j−1)+1
n

e ove si intende che la somma si esegua sopra tutti gli j sottoinsiemi di j numeri,
{k(1), k(2), ..., k(j)},
scelti in {1, . . . , n}.

La (1.9.1) va sotto il nome di principio di inclusione–esclusione.
Dimostrazione. Si può scrivere
[ \ \ \ \ \
Bk = Ai(1) Ai(2) ... Ai(k) Aci(k+1) . . . Ani(n)
J(k)
ove {i(1), i(2), . . . , i(n)} è una permutazione di {1, 2, . . . , n} e J(k) indica il generico sottoin-
sieme {i(1), i(2), . . ., i(k)} di k elementi scelti da {1, 2, . . . , n}. Bk resta, quindi, espresso
come l’unione di nk insiemi. Operando con le funzioni indicatrici, anziché con gli insiemi,
si ha X
1Bk = 1Ai(1) 1Ai(2) . . . 1Ai(k) 1 − 1Ai(k+1) . . . 1 − 1Ai(n) . (1.9.2)
J(k)
Ogni termine di quest’ultima somma si può scrivere nella forma che segue, ottenuta molti-
plicando i fattori contenuti nelle parentesi,
1Ai(1) . . . 1Ai(k) {1 − H1 (J(k)) + H2 (J(k)) + · · · +

+ (−1)r Hr (J(k)) + · · · + (−1)n−k Hn−k (J(k))} , (1.9.3)
P
ove Hr (J(k)) := 1Aj(1) 1Aj(2) . . . 1Aj(r) , espressione nella quale la somma deve
J(n−k,r)
essere eseguita sopra tutti i n−k

r sottoinsiemi J(n − k, r) di r elementi scelti nell’insieme
{i(k + 1), i(k + 2), . . . , i(n)}. Sostituendo nella (1.9.2), si ha
n−k
X X
1Bk = (−1)r 1Ai(1) 1Ai(2) . . . 1Ai(k) Hr (J(k)) .
r=0 J(k)
Ora,
X
1Ai(1) 1Ai(2) . . . 1Ai(k) Hr (J(k)
J(k)
X X
= 1Ai(1) 1Ai(2) . . . 1Ai(k) 1Aj(1) 1Aj(2) . . . 1Aj(r) . (1.9.4)
J(k) J(n−k,r)
Si introduca X
Hr+k := 1∩r+k Aj(i) , (1.9.5)
i=1
J(n,k+r)
n

ove la somma è eseguita sopra tutti i k+r sottoinsiemi J(n, k + r) di k + r indici scelti tra
{1, 2, . . . , n}. Alle somme (1.9.4) e (1.9.5) contribuiscono termini che possono assumere solo
n

i valori 0 e 1. Si è già detto che nella somma (1.9.5) compaiono k+r termini; i termini
della somma (1.9.4) sono invece nk n−k

r . Poiché

n n−k

k r (n − k)!n!(k + r)!(n − k − r)! k+r
= = .
n r!(n − k − r)!k!(n − k)!n! k
k+r
scende dalle (1.9.3), (1.9.4) e (1.9.5) che
n−k n
X k+r X j
1 Bk = (−1)r Hk+r = (−1)j−k Hj ,
r=0
k k
j=k
dalla quale segue, considerando la speranza,

n n
j−k j j−k j
X X
P(Bk ) = E(1Bk ) = (−1) E(Hj ) = (−1) Sj ,
k k
j=k j=k

Corollario 1.9.1. Dati gli eventi A1 , . . . , An , la probabilità che non se ne realizzi alcuno
è
Xn
P(B0 ) = (−1)j Sj .
j=0
Corollario 1.9.2. Dati gli eventi A1 , A2 , . . . , An , la probabilità che se ne realizzino almeno

k è
n
X j−1
P(Bk ) + P(Bk+1 ) + · · · + P(Bn ) = (−1)j−k Sj .
k−1
j=k
Dimostrazione.
n n X
n j
n X
X X j X j
P(Br ) = (−1)j−r Sj = (−1)j−r Sj
r r
r=k r=k j=r j=k r=k
n j
X X j
= (−1)j Sj (−1)−r .
r
j=k r=k
1.10. ALCUNI PROBLEMI CLASSICI DI PROBABILITÀ 35
Ora, si ha, tenendo presente che (−1)−r = (−1)r ,

j
X
r j k j j j j−k j
(−1) = (−1) − + + · · · + (−1)
r k k+1 k+2 j
r=k

j−1 j−1 j−1 j
= (−1)k + − + · · · + (−1)j−k
k−1 k k j

j−1
= (−1)k ,
k−1
Esempio 1.9.1. Ritornando all’esempio 1.4.3 si ha

j
!
\ (n − j)!
P Ak(r) = ,
r=1
n!
sicché si può calcolare

n (n − j)! 1
Sj = = .
j n! j!
Pertanto la probabilità cercata, se n − k è grande, è
n n−k
j−k j 1 1 X 1 1 −1
X
P(Bk ) = (−1) = (−1)r ' e .
k j! k! r=0 r! k!
j=k
La probabilità di avere almeno una coincidenza è, per n grande,

n n
j−1 j − 1 1 1
X X
(−1) = (−1)j−1
j=1
0 j! j=1
j!
∞
X 1
' (−1)j−1 + 1 = 1 − e−1 ' 0.63212 .
j=0
j!
1.10 Alcuni problemi classici di probabilità

Esempio 1.10.1. Si esamina il sangue di nk donatori per scoprire se sia presente una
malattia che si riscontra con probabilità p nella popolazione. Si suddividono i flaconi in k
sottoinsiemi di n e in ogni sottoinsieme si mescolano piccoli campioni di ogni flacone. Se
l’esito dell’esame su tutto il sottoinsieme è negativo, tutti i flaconi possono essere usati per
le trasfusioni; si procede invece alle analisi individuali quando l’esame di un sottoinsieme ha
dato esito positivo. Quanti esami si eseguono in media?
Sia Ai l’evento “l’analisi dell’i–esimo sottoinsieme ha dato esito positivo”. Il numero X
di analisi che si compiono è dato da
k
X
X =k+n 1Ai ,
i=1
onde
k
X
E(X) = k + n P(Ai ) = k + kn P(A1 ) ,
i=1
poiché ogni sottoinsieme ha la stessa probabilità di dare esito positivo. Supponiamo che
gli individui che compongono ogni sottoinsieme siano indipendenti; è questa l’ipotesi piú
forte che si faccia, ma non è possibile altrimenti perché è, di solito, impossibile compiere
un’indagine sui legami dei donatori. In condizioni d’indipendenza, risulta, se q = 1 − p,
P(A1 ) = 1 − P(Ac1 ) = 1 − q n , onde
E(X) = k + nk − nkq n = kn + k(1 − n q n ) .
Se q n > 1/n, allora E(X) è minore di nk, che è il numero di esami che si dovrebbero eseguire
se si analizzassero i flaconi di sangue ad uno ad uno. Per esempio, se n = 10, k = 100 e
p = 1/100, si ha E(X) = 195.6 < 1000 e q = 0.99, onde q 10 ' 0.904 > 0.1.
Non è impossibile risolvere numericamente con l’aiuto di un calcolatore il seguente prob-
lema di ottimizzazione: dati il numero N di donatori e la probabilita p, qual è il numero n
di donatori per gruppo che rende minimo il numero di esami da eseguire?
Esempio 1.10.2. (Il paradosso delle urne). Due urne contengono, entrambe, palline
bianche e palline nere. Si estraggano due palline seguendo una delle due strategie:
(a) si sceglie a caso un’urna, si estrae una pallina che quindi si reintroduce nell’urna dalla
quale è stata estratta, si sceglie di nuovo a caso un’urna dalla quale si estrae un’altra
pallina;
(b) si procede come nella strategia (a), per la scelta della prima pallina, la si reintroduce
nell’urna, ma si estrae la seconda pallina dalla stessa urna.
Con quale delle due strategie è maggiore la probabilità di estrarre due palline bianche?
Siano b0 e n0 il numero delle palline bianche e quello delle palline nere, rispettivamente,
nella prima urna e b00 e n00 i corrispondenti numeri per la seconda urna. Perciò la probabilità
di estrarre una pallina bianca è p0 = b0 /(b0 + n0 ) per la prima urna e p00 = b00 /(b00 + n00 ) per
la seconda. La probabilità che la prima pallina estratta sia bianca è dunque, in entrambe le
strategie p1 = (p0 +p00 )/2. Poiché in entrambe le strategie le due estrazioni sono indipendenti,
la probabilità di estrarre due palline bianche è, con la strategia (a),
2
1 0 1 00
pa = p + p
2 2
e, con la seconda strategia,

1 0 2 1 00 2
pb = p + p .
2 2
Ora
2
1 2 1 00 2 1 0 1 00
pb − pa = p0 + p − p + p
2 2 2 2
1 2 1 00 2 1 0 00 1
= p0 + p − p p = (p0 − p00 )2 ,
4 4 2 4
sicché la strategia (b) è preferibile. Si osservi che se p0 6= p00 si ha pb > pa e che la strategia
(b) è preferibile quale che sia la composizione delle urne (che può essere incognita).
Esempio 1.10.3. (Il raccoglitore di figurine). Un bambino vuole riempire un album con N
figurine. Se le figurine si comprano una alla volta, quante figurine dovrà comprare in media
per completare l’album?
Si supporrà che le figurine siano poste in vendita in maniera casuale. La prima figurina
acquistata troverà senz’altro posto nell’album. La seconda figurina che si compra sarà
collocata nell’album se è differente dalla prima, cioè se è una delle N − 1 figurine non ancora
1.10. ALCUNI PROBLEMI CLASSICI DI PROBABILITÀ 37
collocate nell’album. La probabilità che la seconda figurina acquistata non sia già posseduta
è p2 = (N − 1)/N . Pertanto, ricordando i risultati riguardanti la distribuzione geometrica,
e tenendo presente che, se per contare il tempo, si usano gli acquisti delle figurine, occorre
acquistare in media 1/p2 = N/(N − 1) figurine prima di collocare la seconda figurina; per
sistemare la terza, bisognerà comprarne 1/p3 = N/(N − 2) e cosı́ via. In generale, per
collocare la r–esima figurina sarà necessario acquistare N/(N − r + 1) figurine. Perciò, il
numero medio eN di acquisti necessarı̂ per completare l’album è

N N N 1 1 1
eN = 1 + + + ··· + = N 1 + + + ··· + .
N −1 N −2 1 2 3 N
Si riconosce facilmente che l’espressione tra parentesi è la somma parziale N –esima, sN della
serie armonica che, notoriamente, diverge. Si ha, a titolo d’esempio,
e10 = 29.29 , e20 = 71.95 , e40 = 171.14 ,

e100 = 518.74 , e340 = 2178.59 .
Si voglia ora stabilire quante figurine vi saranno in un secondo album, identico al primo,
se nel secondo si raccolgono solo le figurine non utilizzate per il primo: in altre parole, il
bimbo di prima passa i “doppioni” al fratellino minore.
Si possono trascurare le figurine che non servono per alcuno dei due album, perché
già presenti in entrambi. È comodo rispondere alla domanda preliminare: quante figurine
conterrà il secondo album quando il primo ne contiene r? Per la risposta alla domanda
originale basterà porre r = N . Una figurina α sarà collocata nel secondo album solo se è
una delle prime r − 1 figurine; ciò accade con probabilità (r − 1)/N = P(A1 ) = E [1A1 ], ove
A1 è l’evento “si colloca la figurina α”. Nel secondo album si collocherà la seconda figurina
β se essa è stata già collocata nel primo album e se è uno dei primi r − 2 acquisti, ciò che
accade con probabilità P(A2 ) = E [1A2 ] = (r − 2)/(N − 1), perché la figurina α è già stata
sistemata e perciò le figurine candidate ad essere sistemate sono N − 1. Si proceda in questo
modo sino alla (r − 1)–esima figurina, perché ci si ferma quando nel primo album sono
state inserite r figurine; l’r–esima figurina non è quindi disponibile per il secondo album.
Il numero nr di figurine presenti nel secondo album quando il primo ne contiene r si può
scrivere, con ovvio significato dei simboli:

nr = E 1A1 + 1A2 + · · · + 1Ar−1
r−1 r−2 1
= + + ··· +
N N −1 N −r+2
N − (N − r + 1) (N − 1) − (N − r + 1)
= + + ···+
N N −1
(N − r + 2) − (N − r + 1)
+
N −r+2

1 1 1
= (r − 1) − (N − r + 1) + + ··· +
N N −1 N −r+2

1 1 1
= r − (N − r + 1) + + ··· + .
N N −1 N −r+1
La risposta alla domanda originale si ha ponendo r = N :

1 1 1
nN = N − 1 + + + · · · + = N − sN .
2 3 N
Si ha, per esempio, n100 = 94.813. Si osservi che limN →+∞ nN /N = 1, come si vede usando
il teorema di Cesàro.
Esempio 1.10.4. (Il problema di Monty Hall). In un gioco, condotto alla televisione
canadese dal presentatore Monty Hall, si presentano al concorrente tre porte, dietro una
delle quali si trova un premio consistente. Il concorrente è invitato a scegliere una porta: se
dietro vi è il premio, questo è suo. Prima che il concorrente apra la porta che ha scelto, Monty
Hall apre una porta, (ve ne è sicuramente una) dietro la quale non vi è il premio. A questo
punto si pone al concorrente l’alternativa: può scegliere di confermare o di cambiare la scelta
iniziale. Quale strategia conviene al concorrente? Si calcolino le probabilità di vincita nelle
due strategie. Si considerino le terne (x, y, z) dove x rappresenta il numero della porta scelta
inizialmente dal concorrente, y il numero della porta, senza premio, aperta dal presentatore
e z quello della porta che il concorrente aprirà alla fine. Se il concorrente decide di non
cambiare la scelta iniziale sarà x = z. Per fissare le idee si supponga che il premio si trovi
dietro la porta con il numero 1 (ma, questo è, ovviamente, ignoto al concorrente).
Supponiamo di voler confermare la scelta iniziale. Le terne che portano alla vincita sono
(1, 2, 1) e (1, 3, 1), mentre le terne (2, 3, 2) e (3, 2, 3) non portano alla vincita. In questa
strategia la probabilità di vincere il premio è perciò quella di scegliere inizialmente la porta
dietro la quale si nasconde il premio, vale a dire 1/3.
Se il concorrente decide invece di cambiare la scelta iniziale, le terne che portano alla
vincita sono (2, 3, 1) e (3, 2, 1), mentre le terne (1, 2, 3) e (1, 3, 2) non portano alcuna vincita.
In questa strategia la probabilità di vincere il premio è perciò quella di scegliere inizialmente
una delle due prote dietro le quali non si nasconde il premio, ciò che accade con probabilità
2/3.
Per il concorrente risulta quindi conveniente cambiare la scelta iniziale.
Esempio 1.10.5. (Estrazioni senza restituzione). Riprendendo in esame la situazione

dell’esempio 1.4.1, vogliamo dimostrare un risultato dovuto a Poisson.
Se un’urna contiene b palline bianche e c colorate, vogliamo calcolare la probabilità che
l’n–esima pallina estratta sia bianca.
Supponiamo, dapprima, che sia n ≤ b + c. Sia Xn la v.a. che dà il risultato dell’n–esima
estrazione: {Xn = 1} è l’evento “estrazione di una pallina bianca all’n–esima estrazione”.
La domanda che ci siamo posti è allora: qual è la probabilità P(Xn = 1)? Se, al solito,
Pk
Sk = i=1 Xi rappresenta il numero di palline bianche tra le prime k estratte, si può
ricorrere al teorema delle probabilità totali e scrivere
b
X
P(Xn = 1) = P(Xn = 1 | Sn−1 = j) P(Sn−1 = j)
j=0

b c
b
X j n−1−j b−j
=
j=0
b+c b + c −n+1
n−1

b+c−n n−1 b+c−n n−1
b
X b−j−1 b−1
X b−j−1
j j
= =
b+c b+c
j=0 j=0
b b
b−1
1 X b+c−n n−1
=
b+c
j=0
b − j − 1 j
b

b+c−1
b−1 (b + c − 1)! b! c! b
= = = .
b+c (b − 1)! c! (b + c)! b+c
b
1.11. PASSEGGIATA ALEATORIA DI BERNOULLI 39
Figura 1.1: Un esempio di passeggiata aleatoria
Qui abbiamo usato un’identità tra i coefficienti binomiali che è lasciata come esercizio.
Si osservi che P(Xn = 1) = P(X1 = 1), che è la probabilità che la prima pallina estratta
sia bianca.
Se n > b + c, allora P(Xn = 1) = 0, perché dopo le prime b + c estrazioni l’urna è vuota.
1.11 Passeggiata aleatoria di Bernoulli

In una serie di prove Bernoulliane indipendenti, si considerino, accanto alle v.a. Xn (n ∈ N)
che assumono i valori 1 con probabilità p ∈ ]0, 1[ e 0 con probabilità q = 1 − p, anche le
v.a. Yn := P 2Xn − 1 che assumono i valori 1 e −1 rispettivamente con probabilità p e q, e le
n Pn
v.a.Gn := k=1 Yk = 2Sn − n, ove, al solito, Sn := k=1 Xk .
Si può interpretare Gn nella maniera che segue, e che giustifica il nome di passeggiata
aleatoria. Ad ogni istante, si lancia una moneta che ha probabilità p di dare come risultato
testa; si conviene che, a partire da una posizione prefissata assunta come origine, una pallina
si sposti di un passo, nel verso positivo di una retta orientata se il risultato del lancio è
testa, nel verso negativo se il risultato è croce. La v.a. Yn dice se all’n–esimo lancio la
pallina si sposta nel verso positivo (Yn = 1) oppure nel verso negativo (Yn = −1), mentre
la v.a. Gn dà la posizione della pallina al tempo t = n (ovviamente sia i tempi sia le
posizioni possono assumere solo valori interi). è possibile anche un’altra interpretazione di
Gn ; ad ogni istante, si punta una posta unitaria in una gioco d’azzardo nel quale all’n–esima
giocata si vince (Yn = 1) con probabilità p o si perde (Yn = −1) con probabilità q; in questa
interpretazione, Gn rappresenta il “guadagno” complessivo sino al tempo t = n. Rifacendosi
all’interpretazione della passeggiata aleatoria, riportando in ascissa i tempi (o, ciò che è lo
stesso, i numeri d’ordine dei lanci della moneta) e in ordinata le posizioni della pallina e
unendo i punti, si ottiene un grafico come quello della Figura 1.1
Ogni grafico di questo tipo rappresenta una possibile traiettoria della passeggiata aleato-
ria. Le v.a. Xn , Yn , Sn e Gn sono definite sullo spazio Ω = {0, 1}n se n è fissato o in
Ω = {0, 1}N (in quest’ultimo caso si presentano problemi tecnici sui quali torneremo nel
seguito) se non è fissato il numero di prove.
È facile calcolare la legge di Gn . La probabilità P(Gn = k) che la pallina occupi la
posizione di ascissa x = k al tempo t = n è 0, se |k| > n, altrimenti è
P(Gn = k) = P(2Sn − n = k)

n+k = n + k (n+k)/2 (n−k)/2
= P Sn = = p q , (1.11.1)
2 n 2
se n e k hanno la stessa parità, vale a dire se n e k sono entrambi pari o entrambi dispari;
in caso contrario P(Gn = k) = 0. Infatti, ci si convince rapidamente che la pallina non può
occupare una posizione pari in un tempo dispari o viceversa. Per esempio, P(G2n+1 = 0) = 0
perché per trovarsi nell’origine la pallina deve aver compiuto un egual numero di passi nel
verso positivo e nel verso negativo, ciò che è possibile solo in un numero pari di passi. Vale
la relazione ricorsiva
P(Gn = k) = p P(Gn−1 = k − 1) + q P(Gn−1 = k + 1) , (1.11.2)
che si giustifica facilmente attraverso il teorema delle probabilità totali, considerando che
la pallina può essere nella posizione x = k al tempo t = n solo se al tempo t = n − 1 era
in x = k − 1 e all’n–esimo passo si muove nel verso positivo, con probabilità p, oppure se
era in x = k + 1 e all’n–esimo passo si muove nel verso negativo, con probabilità q. La
dimostrazione formale della (1.11.2) è lasciata per esercizio.
La (1.11.1) si può scrivere in forma piú semplice, ponendo
n=α+β e k =α−β; (1.11.3)
qui, α rappresenta il numero di passi nel verso positivo e β quello nel verso negativo. Allora,

α+β α β
P(Gn = k) = p q . (1.11.4)
α
Prima di procedere con la passeggiata aleatoria di Bernoulli simmetrica, vale a dire, con
p = q = 1/2, introduciamo, nella sua forma piú semplice, il principio di riflessione.
Siano A e B due punti di una traiettoria che rappresenta la passeggiata aleatoria sim-
metrica, come in Fig. 1.1, e se ne considerino le coordinate, A = (m, j) e B = (n, k), con
n > m ≥ 0 e k > 0, j > 0. Supponiamo qui che i due punti considerati A e B giacciano nello
stesso semipiano (quello delle ascisse positive). Si consideri il punto A0 = (m, −j), simmet-
rico di A rispetto all’asse t dei tempi. Il principio di riflessione consiste nell’affermazione
che le traiettorie che passano per A e per B e che hanno un punto in comune con l’asse dei
tempi sono tante quante sono le traiettorie che passano per A0 e per B.
Infatti, si consideri una traiettoria che unisce A a B e che abbia un punto in comune
con l’asse dei tempi. Sia C il primo (nel senso dei tempi) dei punti che tale traiettoria ha in
comune con l’asse t. Si prenda in esame la traiettoria ottenuta riflettendo, rispetto all’asse
t, la parte della traiettoria che unisce A a C; questa passa necessariamente per A0 e per
C. Alla traiettoria ACB si fa corrispondere la traiettoria A0 CB. Viceversa, ogni traiettoria
che unisce A0 a B ha necessariamente un punto in comune con l’asse dei tempi, poiché A0 e
B giacciono da bande opposte rispetto a tale asse; sia C il primo di tali punti. Riflettendo,
attorno all’asse t, la parte di traiettoria tra A0 e C, si ottiene una traiettoria ACB che unisce
A a B e che un punto in comune con l’asse dei tempi. Esiste, dunque, una corrispondenza
biunivoca tra i due tipi di traiettoria considerati.
Si osservi che, tenendo conto delle (1.11.3) e (1.11.4), si può scrivere il numero N (n, k)
di traiettorie che uniscono l’origine con il punto (n, k) nella forma

α+β
N (n, k) = . (1.11.5)
α
Lemma 1.11.1. In una passeggiata aleatoria simmetrica, posto eguale a N (n, k) il numero
di cammini che uniscono l’origine al punto (n, k), ove n > 0 e k > 0, vi sono esattamente
k
N (n, k)
n
traiettorie dall’origine al punto (n, k) che non hanno punti in comune con l’asse dei tem-
pi tranne che nell’origine, vale a dire, le traiettorie per le quali si ha G1 > 0, G2 >
0, . . . , Gn−1 > 0.
Figura 1.2: La passeggiata raggiunge il livello j.
Dimostrazione. Le traiettorie che interessano passano tutte per il punto (1, 1); le traiettorie
da (1, 1) a (n, k) sono in numero di N (n − 1, k − 1). A tale numero deve essere sottratto
quello delle traiettorie che passano per (1, 1) e che hanno almeno un punto in comune con
l’asse dei tempi. Per il principio di riflessione, quest’ultime traiettorie sono tante quante
sono le traiettorie da (1, −1) a (n, k), che sono N (n − 1, k + 1). Il numero delle traiettorie
con le proprietà specificate è, perciò, ricorrendo alla (1.11.5),
N (n − 1, k − 1) − N (n − 1, k + 1)

α+β−1 α+β−1 α+β α−β k
= − = = N (n, k),
α−1 α α α+β n
che dà il risultato annunciato.
Sia ora j un numero naturale e si consideri la v.a.
n [ o
Tj := inf n ∈ N {+∞} : Gn = j ,
che rappresenta il tempo di primo passaggio per la posizione x = j, cioè il primo istante
nel quale la pallina si trova in x = j. Useremo il principio di riflessione per calcolare la
probabilità P(Tj = n); si considerino gli eventi
n−1
[
En,j (k) := ({Gn = k} ∩ {Gs = j})
s=1
(=“la pallina è in x = k al tempo t = n ed è già passata per la posizione x = j in un istante

precedente t = n”). Ogni traiettoria nell’insieme En,j (k) tocca il livello x = j per una prima
volta.
Per ogni traiettoria in En,j (k), con k < j, si consideri quella che si ottiene riflettendo,
attorno alla retta x = j, il tratto sino al primo istante nel quale essa tocca la retta x = j.
Si ottiene cosı́ una traiettoria da (0, 2j) a (n, k), si veda la Fig. 1.3
Viceversa, poiché ogni traiettoria che unisca questi due punti attraversa la retta x = j,
si stabilisce una corrispondenza biunivoca tra En,j (k) e le traiettorie da (0, 2j) a (n, k).
Si porti, mediante una traslazione, l’origine degli assi in (0, 2j) e si consideri una nuova
passeggiata aleatoria di Bernoulli con p = q = 1/2 (passeggiata simmetrica). La v.a. che
dà la posizione in questa seconda passeggiata aleatoria sarà indicata con G0n . Nel nuovo
riferimento, il punto (n, k) ha coordinate (n, k − 2j); perciò
n

P [En,j (k)] = P (G0n = k − 2j) = n + k 2−n . (1.11.6)
−j
2
Figura 1.3: Riflessione della traiettoria.
Per calcolare P(Tj = n), si osservi che vale la relazione tra insiemi
{Tj = n} = ({Gn−1 = j − 1} \ En−1,j (j − 1)) ∩ {Yn = 1}
che si interpreta facilmente: la pallina si trova nella posizione x = j − 1 al tempo t = n − 1,

non è mai passata per x = j negli istanti precedenti e, inoltre, al tempo t = n compie un
passo nel verso positivo andando in x = j. Risulta, perciò,
P(Tj = n) = P ({Gn−1 = j − 1} \ En−1,j (j − 1)) P(Yn = 1)

1
= P ({Gn−1 = j − 1} \ En−1,j (j − 1)) .
2
Dimostreremo che la distribuzione dei tempi di primo passaggio è data da
n

j
P(Tj = n) = n n+j .
n2
2
Infatti, poiché En−1,j (j − 1) è contenuto in {Gn−1 = j − 1} la (1.11.6) dà:

P ({Gn−1 = j − 1} \ En−1,j (j − 1))
= P ({Gn−1 = j − 1}) − P (En−1,j (j − 1))
n−1 n−1

= n+j 2−(n−1) − n + j 2−(n−1)
−1 −1−j
2  2 
n − 1 n − 1

= 2−(n−1)  n + j − n−j 
−1 +1
2 2
 
n − 1 n − 1

= 2−(n−1)  n + j − n+j 
−1
2 2
 
(n − 1)! 1 1  −(n−1)
= n−j − n+j  2
n+j n−j
−1 ! −1 !
2 2 2 2
n

(n − 1)!j j
= 2−(n−1) = n+j 2
−(n−1)
,
n+j n−j n
! ! 2
2 2
Affrontiamo ora il problema del tempo del primo ritorno nell’origine.
Si ponga
2n−1

A2n := {G2n = 0} e F2n := A2n ∩ ∩j=1 {Gj 6= 0} .
Gli insiemi A2n e F2n rappresentano rispettivamente gli eventi “la particella al tempo
t = 2n si trova nell’origine” e “la particella ritorna nell’origine per la prima volta al tempo
t = 2n”. Poniamo ora
u2n := P(A2n ), f0 := 0, f2n := P(F2n ).
Si noti che, usando la formula di Stirling, che dimostreremo nel seguito, ma che supporremo
già nota, si ha

2n 1 (2n)! 1
u2n = 2n
=
n 2 n! n! 22n
1 (1.11.7)
1 (2n)2n+ 2 e−2n 1 1
'√ 1 1 = √ .
2 π nn+ 2 nn+ 2 e−n e−n 22n nπ
Il seguente lemma fornisce il legame tra queste probabilità.
Lemma 1.11.2. Con le notazioni appena introdotte è
u2n = u0 f2n + u2 f2n−2 + · · · + u2n−2 f2 + u2n f0 . (1.11.8)
Dimostrazione. La (1.11.8) è una semplice conseguenza del teorema delle probabilità totali
e dell’indipendenza delle v.a. di {Xn }, o, che è lo stesso, di {Yn }.
n
X
P(A2n ) = P (A2n ∩ F2j )
j=0
Xn n
X
= P(F2j ) P(A2n−2j ) = f2j u2n−2j ,
j=0 j=0
cioè la (1.11.8).
Può giungere come una sorpresa che valga il seguente
Lemma 1.11.3. In una passeggiata aleatoria simmetrica è
P ∩nj=1 {G2j 6= 0} = P(G2n = 0) = u2n .

(1.11.9)
Dimostrazione. Si osservi che, poiché Gk = 0 implica che sia k = 2j per un opportuno

j ∈ N, la (1.11.9) si potrebbe scrivere anche nella forma
P ∩2n

j=1 {Gj 6= 0} = P(G2n = 0) = u2n . (1.11.10)
Si osservi anche che, necessariamente, si ha

[
∩2n 2n
∩2n

j=1 {Gj 6= 0} = ∩j=1 {Gj > 0} j=1 {Gj < 0} ,
e che, essendo la passeggiata simmetrica, basta mostrare che

1
P ∩2n
j=1 {Gj > 0} = u2n .
2
Ora, considerando tutti i possibili valori assunti da G2n , si ha
n
X 2n−1
P ∩2n

j=1 {Gj > 0} = P ∩j=1 {Gj > 0} ∩ {G2n = 2k} .
k=1
Per il Lemma 1.11.1, il numero di traiettorie che terminano nel punto (2n, 2k) e che non
hanno punti in comune con l’asse dei tempi, salvo che nell’origine, è
N (2n − 1, 2k − 1) − N (2n − 1, 2k + 1),
sicché, tenendo conto della (1.11.4) e della (1.11.5), si ha

1
∩2n−1

P j=1 {Gj > 0} ∩ {G2n = 2k} = {P(G2n−1 = 2k − 1) − P(G2n = 2k)} .
2
Perciò
2n
1 X
P ∩2n
j=1 {Gj > 0} = {P(G2n−1 = 2k − 1) − P(G2n = 2k)}
2
k=1

1 1 2n − 1 1
= P(G2n−1 = 1) =
2 2 n 22n
(2n − 1)! 1
=
n!(n − 1)! 22n
1 (2n)! n 1 1 1
= = P(G2n = 0) = u2n ,
2 n!n! 2n 22n−1 2 2
Corollario 1.11.1. Valgono le relazioni
f2n = u2n−2 − u2n , (1.11.11)

1
f2n = u2n , (1.11.12)
2n − 1
X
f2n = 1. (1.11.13)
n∈N
Dimostrazione. L’insieme che esprime che il primo ritorno nell’origine avviene al tempo
t = 2n è
∩2n−1 2n−1 c

j=1 {Gj 6= 0} ∩ {G2n = 0} = ∩j=1 {Gj 6= 0} \ {G2n 6= 0}
onde
∩2n−2

f2n = P j=1 {Gj 6= 0} ∩ {G2n = 0}
= P ∩2n−2 2n

j=1 {Gj 6= 0} − P (∩j=1 {Gj 6= 0} = u2n−2 − u2n .
La (1.11.12) si ottiene dopo qualche conto che non presenta alcuna difficoltà:

2n − 2 1 2n 1
f2n = u2n−2 − u2n = −
n − 1 22n−2 n 22n
(2n − 2)! 1 (2n)! 1
= −
(n − 1)! (n − 1)! 22n−2 n! n! 22n

(2n − 2)! 1 1 2n (2n − 1)
= 1 −
(n − 1)! (n − 1)! 22n−2 4 n2

2n − 2 1 2n − (2n − 1)
=
n − 1 22n−2 2n

(2n − 2)! 1 1 2n 1
= = .
n! (n − 1)! 22n−1 2n − 1 n 22n
Infine, per la (1.11.13),
X X
f2n = (u2n−2 − u2n ) = u0 = 1 .
n∈N n∈N
Corollario 1.11.2. Il tempo medio d’attesa per il primo ritorno nell’origine è infinito,
X
2 n f2n = +∞. (1.11.14)
n∈N
Dimostrazione. Segue dalla (1.11.12) e dalla (1.11.7) che, per n abbastanza grande, il
termine generale della serie in (1.11.14) si può scrivere
2n 2n 1
2n f2n = u2n ' √ ,
2n − 1 2n − 1 n π
onde l’asserto.
Consideriamo ora l’evento L2k,2n “sino al tempo t = 2n, la particella è passata per
l’origine l’ultima volta al tempo t = 2k”;
L2k,2n := {G2k = 0} ∩ ∩nj=k+1 {G2j 6= 0} .

Teorema 1.11.1. La probabilità di L2k,2n è

α2k,2n := P (L2k,2n ) = u2k u2n−2k . (1.11.15)
Dimostrazione. Si può scrivere
2j
( )!
X
L2k,2n = {G2k = 0} ∩ ∩nj=k Yi 6= 0 .
i=2k+1
Poiché le Yn sono indipendenti e isonome, la (1.11.10) implica

P (L2k,2n ) = P(G2k = 0) P ∩nj=k+1 {G2j 6= 0} = u2k u2n−2k ,


La distribuzione di probabilità discreta sui punti {0, 2, 4, . . . , 2n} data da

p2k := α2k,2n
si dice legge discreta dell’arcoseno di ordine n perché la funzione arcoseno costituisce un’ot-
tima approssimazione. Si tratta di una distribuzione simmetrica attorno a n,
α2k,2n = α2n−2k,2n .
Sia Te2n il tempo dell’ultimo passaggio per l’origine sino al tempo t = 2n. Allora
P(Te2n = 2k) = α2k,2n .
La simmetria dà, allora, P(Te2n ≤ n) = P(Te2n ≥ n). Dalle (1.11.7) e (1.11.15) segue che
1 1
α2k,2n ' p
π k (n − k)
e, di qui,
j j
X 1 X 1
P(Te2n ≤ 2j) = α2k,2n ' p .
π k (n − k)
k=0 k=0
Se n è sufficientemente grande,
j Z j
1 X 1 1 dx
P(Te2n ≤ 2j) ' p ' p
π k (n − k) π 0 x (n − x)
k=0
(ricorrendo al cambio di variabile x = ns2 )
Z √x/n Z √x/n
1 2ns 1 ds
= p ds = √
π 0
2 2 2
n s (1 − s ) π 0 1 − s2
r
j
= arcsin .
n
Infine, vogliamo studiare il massimo raggiunto dalla passeggiata aleatoria: introdotta la
v.a. Mn := max{j : Gk = j (k ≤ n)}, si domanda quale sia la probabilità P(Mn = j). Si
osservi che l’evento En,j (k) − En,j+1 (k) corrisponde all’essere la pallina al tempo t = n in
x = k senza essere mai passata per x = j + 1, ma essendo passata per x = j. Poichè k può
essere un qualsiasi intero compreso tra −n e j, si ha
j
[
{Mn = j} = (En,j (k) \ En,j+1 (k)) .
k=−n
Si è, cosı́, espresso l’evento {Mn = j} come unione disgiunta; poiché, inoltre, En,j+1 (k) è
contenuto in En,j (k), si ottiene, ricorrendo alla (1.11.2),
j
X
P(Mn = j) = (P(En,j (k)) − P(En,j+1 (k)))
k=−n
j
X
= (P(G0n = k − 2j) − P(G0n = k − 2j − 2))
k=−n
= P(G0n = −j) − P(G0n = −j − 2) + P(G0n = −j − 1)

− P(G0n = −j − 3) + P(G0n = −j − 2) − P(G0n = −j − 4)
+ P(G0n = −j − 3) − P(G0n = −j − 5) + . . .
= P(G0n = −j) + P(G0n = −j − 1).
Per quanto osservato precedentemente solo uno di questi due ultimi termini differisce da
zero.
In definitiva nella passeggiata aleatoria simmetrica risulta
 
 n n

P(Mn = j) = 2−n n+j + n+j+1 .
 
2 2
Il metodo di riflessione può essere usato per rispondere ad altre questioni, come nell’e-
sempio che segue.
Esempio 1.11.1. In un ballottaggio tra due candidati, c0 e c00 , che riportano rispettivamente
n0 e n00 voti, vince il candidato c0 (n0 > n00 ); se lo spoglio dei voti avviene aprendo le schede
ad una ad una, qual è la probabilità che il candidato vincente sia sempre in vantaggio nel
corso dello scrutinio?
Si può rappresentare lo scrutinio mediante un grafico, riportando in ascissa il numero
dei voti scrutinati; in ordinata, i voti del candidato c0 sono considerati positivi mentre quelli
del candidato c00 sono considerati negativi. Le posizioni di ordinata positiva corrispondono
dunque ad una situazione di vantaggio del candidato c0 . Tutti i possibili scrutinı̂ sono
rappresentati da spezzate che sono comprese tra le rette x = −n00 e x = n0 e che congiungono
l’origine O con il punto B di coordinate (n0 + n00 , n0 − n00 ). Si conviene di non contare i
0 00 0 00
voti nulli o le schede bianche. Il numero di “storie” differenti è dunque n +n n0 = n n+n
00 .
Gli scrutinı̂ nei quali il candidato vincente c0 è sempre in vantaggio sono quelli che uniscono
O ad B senza toccare l’asse dei “tempi” in punti diversi dall’origine. Si pone il problema
di contare quanti siano tali scrutinı̂ o, equivalentemente, quante siano le spezzate che li
rappresentano. Ognuna di tali spezzate passa necessariamente per il punto A di coordinate
0 00
−1
(1, 1). Le spezzate che congiungono A ad B sono complessivamente n +n

n0 −1 . Tra queste
non sono da considerare quelle che toccano l’asse delle ascisse. Il numero di queste ultime
si determina ricorrendo al metodo di riflessione. Sia A0 il punto simmetrico di A rispetto
all’asse dei tempi. Esiste una corrispondenza biunivoca tra i cammini che uniscono A0 ad
B (con n0 e n00 fissati); si veda la Fig. 13.4
Fig. 13.4
0 00
−1
I cammini da A0 a B sono in numero di n +n

n0 . La probabilità cercata è, perciò,
0
n + n00 − 1 n0 + n00 − 1

0
−
n −1 n0
p= 0
n + n00

n0
n0 !n00 !

1 1
= (n0 + n00 − 1)! −
(n − 1)!n ! n !(n − 1)! (n0 + n00 )!
0 00 0 00
0 00
n −n
= 0 .
n + n00
Scrivendo tale probabilità nella forma

n0 n00
p= − ,
n0 + n00 n0 + n00
ci si accorge subito che essa è la differenza tra le percentuali dei voti validi riportati dai
candidati.
Esempio 1.11.2. (La rovina del giocatore). Si torni alla passeggiata aleatoria con l’inter-
pretazione del giocatore che ad ogni istante gioca una partita nella quale vince o perde un
euro con probabilità p o q. Si ha quindi una successione (Yn )n∈Z+ con P (Yn = +1) = p e
P (Yn = −1) = q. Se il giocatore dispone inizialmente di a euro e se 0 < a < c, si vuole
sapere quale sia la probabiltà che il giocatore arrivi ad avere c euro prima di perdere tutto
il suo capitale iniziale di a euro.
Formalizziamo come segue la questione. Si introducano le dua v.a.
n [ o
T0 := inf n ∈ Z+ {+∞} : Gn = 0
n [ o
Tc := inf n ∈ Z+ {+∞} : Gn = c .
Il problema della “rovina del giocatore” consiste nel calcolare la probabilità P (Tc < T0 ). Si
ponga tale probabilità eguale a p(a) indicando esplicitamente la dipendenza da a, p(a) :=
P (Tc < T0 ), in modo da avere la possibilità di variare a. Ricorrendo al teorema delle
probabiltà totali, si ha
p(a) = P (Tc < T0 )

= P (Tc < T0 | Y1 = −1) P (Y1 = −1)
+ P (Tc < T0 | Y1 = +1) P (Y1 = +1)
= q p(a − 1) + p p(a + 1).
Si è cosı́ottenuta l’equazione alle differenze
p(a) = q p(a − 1) + p p(a + 1), (1.11.16)
che deve essere risolta tenendo conto delle condizioni al contorno, p(0) = 0 e p(c) = 1. Si
può risolvere la (1.11.16), ricorrendo all’equazione caratteristica
1 = q t−1 + p t ,
vale a dire
1 q
t2 − t + = 0. (1.11.17)
p p
Se p 6= q, la (1.11.17) ha due radici distinte, t = 1 e t = q/p. La soluzione generale della
(1.11.16) è a
q
p(a) = A + B ,
p
ove le costanti A e B si determinano mediante le condizioni al contorno. Tenendo conto di
queste ultime, si ottiene a
q
1−
p 1
p(a) = c , p 6= . (1.11.18)
q 2
1−
p
Se, invece, è p = 1/2, la (1.11.17) ha una soluzione doppia t = 1, sicché la (1.11.16) ha come
soluzione generale
p(a) = A + B a .
1.12. LA FUNZIONE GENERATRICE DELLE PROBABILITÀ 49
Di nuovo, si calcolano le costanti A e B con l’ausilio delle condizioni al contorno, ottenendo

la soluzione
a 1
p(a) = , p= .
c 2
In un gioco equo, p = 1/2, è eguale a a/c la probabilità che il giocatore riesca ad avere c
euro, partendo da un capitale iniziale di a euro.
è interessante fare un esempio concreto. Si supponga che il giocatore abbia un capitale
iniziale di 9700 euro e che il suo scopo sia di vincere 10,000 euro, prima di perdere tutto. Se
p = 1/2, ciò accade con probabilità 0.97, che è molto grande; se, invece, p = 0.49, sostituendo
nella (1.11.18) si ottiene approssimativamente 6.1 × 10−6 . Si osservi come un piccolo cambio
della probabilità p di vittoria provochi, a lungo andare, un grande cambiamento.
1.12 La funzione generatrice delle probabilità

Interrompiamo lo studio della passeggiata aleatoria per introdurre un concetto che riveste
importanza per suo conto.
Sia P una probabilità definita sulla famiglia delle parti di Z+ e si ponga pn := P({n})
con n ∈ Z+ . Si dice funzione generatrice della probabilità P la funzione ψ definita in [0, 1]
mediante X
ψ(t) := p n tn . (1.12.1)
n∈Z+
In tal caso si parla anche di funzione generatrice della legge di probabilità {pn }. La serie
(1.12.1) è convergente in [0, 1]; la sua somma ψ(t) è continua, crescente e verifica le relazioni
ψ(0) = p0 e ψ(1) = 1,
ed ammette in [0, 1] derivate di ogni ordine. è noto dai corsi di analisi matematica che
due serie di potenze che abbiano la stessa somma in tutti i punti di un insieme infinito
avente l’origine come punto di accumulazione sono identiche, nel senso che hanno gli stessi
coefficienti. Da ciò si deduce che due distribuzioni di probabilità con la stessa funzione
generatrice sono eguali.
Per estensione si parla di funzione generatrice di una v.a. X se questa assume valori
interi positivi; in questo caso si ha pn := P(X = n) con n ∈ Z+ e
X
P(X = n) tn = E tX .

ψX (t) :=
n∈Z+
Siano X1 e X2 due v.a. indipendenti a valori in Z+ ; allora, per ogni t ∈ [0, 1], il valore della
funzione generatrice della loro somma X1 + X2 è, per quanto appena visto,
ψX1 +X2 (t) = E tX1 +X2 = E tX1 tX2

(1.12.2)
= E tX1 E tX2 = ψX1 (t) ψX2 (t);

essa è, dunque, il prodotto delle funzioni generatrici di X1 e di X2 .

Esempio 1.12.1. Se la v.a. X ha legge di Bernoulli di parametro p, si ha
ψX (t) = q + pt = 1 − p + pt = 1 + p (t − 1).

Esempio 1.12.2. Sia Sn una v.a. con legge binomiale Bi(n, p); segue facilmente dall’esem-
pio precedente e dalla (1.12.2)
n
ψSn (t) = {1 + p (t − 1)} .

Esempio 1.12.3. Se la v.a. X ha legge geometrica di parametro p, è

∞ ∞
X X pt
ψX (t) = pq n−1 tn = pt (qt)n−1 = .
n=1 n=1
1 − qt

Esempio 1.12.4. Sia X una v.a. con legge di Poisson, X ∼ P(λ); allora,
∞
X λn tn
ψX (t) = e−λ = e−λ eλ t = exp{λ (t − 1)} .
n=0
n!
Si osservi che, se X1 e X2 sono due v.a. indipendenti con leggi di Poisson di parametri λ1 e
λ2 rispettivamente, X1 ∼ P(λ1 ) e X2 ∼ P(λ2 ), allora la (1.12.2) dà
ψX1 +X2 (t) = exp{(λ1 + λ2 ) (t − 1)} ,
sicché X1 + X2 è una v.a. con legge di Poisson di parametro λ1 + λ2 .

La (1.12.1) è una serie di potenze con raggio di convergenza che è almeno eguale a 1.
Perciò essa ammette derivate di tutti gli ordine nell’intervallo [0, 1[; queste si ottengono,
com’è noto, derivando a termine a termine la serie di potenze (1.12.1). Si osservi che, per
ogni k ∈ N, la derivata k–esima della funzione generatrice ψ è, a sua volta, una serie di
potenze con i coefficienti positivi, sicché la somma di tale serie è una funzione crescente in
[0, 1[ ed ammette, quindi, limite a sinistra nel punto t = 1 (tale limite può essere finito o
eguale a +∞). Useremo la notazione
ψ (k) (1) := lim ψ (k) (t).

t→1
t<1
Ovviamente, se ψ è la funzione generatrice della v.a. X, si ha
ψ (k) (1) = [X (X − 1) . . . (X − k + 1)] .
In particolare, risulta
ψ 0 (1) = E(X) e ψ 00 (1) = E [X (X − 1)] , (1.12.3)
e, quindi,
E X 2 = ψ 0 (1) + ψ 00 (1).

Vediamo come usare la funzione generatrice per completare lo studio della passeggiata
aleatoria che abbiamo intrapreso nella sezione precedente, elimando, ora, l’ipotesi che sia
p = q = 1/2. Ritenendo la notazione già introdotta, la probabilità di ritorno all’origine al
tempo t = 2n è data da
2n n n
u2n = p q (n ∈ Z+ );
n
naturalmente, è u0 = 1 perché la particella si trova nell’origine all’istante iniziale. Non è
difficile calcolare la funzione generatrice della legge {u2n : n ∈ Z+ }; ricordando lo sviluppo
della serie binomiale, si trova
∞ ∞
X 2n n n 2n X (2n)!
ψu (t) = p q t = (pqt2 )n
n=0
n n=0
n! n!
∞
X (2n)!
= (−1)n (−4pqt2 )n
n=0
(2n)!! (2n)!!
∞
X (2n − 1)!!
= (−1)n (−4pqt2 )n = (1 − 4pqt2 )−1/2 .
n=0
(2n)!!
1.13. PASSEGGIATA ALEATORIA IN ZD 51
Pertanto
1
ψu (t) = p .
1 − 4pqt2
Si consideri ora la probabilità f2n che il primo ritorno nell’origine avvenga al tempo t = 2n.
Già si sa che f0 = 0 e che vale la relazione
n
X
u2n = u2n−2j f2j .
j=1
Di qui
∞
X ∞
X n
X
ψu (t) = 1 + u2n t2n = 1 + t2n u2n−2j f2j
n=1 n=1 j=1
X∞ ∞
X
=1+ f2j t2j u2n−2j t2n−2j = 1 + ψu (t) ψf (t) .
j=1 n=j
è ora facile calcolare

1 p
ψf (t) = 1 − = 1 − 1 − 4pqt2 . (1.12.4)
ψu (t)
La probabilità p̃ che la passeggiata aleatoria torni nell’origine è, dunque,
X p
pe = f2n = ψf (1) = 1 − 1 − 4pq ;
n∈Z+
ma
1 − 4pq = 1 − 4p (1 − p) = 1 − 4p + 4p2 = (1 − 2p)2 = (q − p)2 ,
sicché la probabilità di ritorno nell’origine è
pe = 1 − |q − p| .
Tale probabilità è eguale a 1, p̃ = 1, se, e solo se, p = q, vale a dire se, e solo se, la passeggiata
aleatoria è simmetrica. In caso contrario è p̃ < 1.
Vogliamo, infine, calcolare il tempo medio di ritorno nell’origine nel caso simmetrico
q = p. Detta T0 la v.a. che dà il tempo del primo ritorno nell’origine, si ha, evidentemente,
P(T0 = 2n) = f2n , (n ∈ Z+ ). Perciò, tenendo conto delle (1.12.3) e della (1.12.4), si trova
∞
X t
E (T0 ) = 2n f2n = ψf0 (1) = lim √ = +∞ ,
n=0
t→1
t<1
1 − t2
sicché il tempo medio di ritorno nell’origine è infinito.
1.13 Passeggiata aleatoria in Zd

Si consideri, nello spazio euclideo Rd , un sistema di assi cartesiani ortogonali, e, su ciascuno
di essi, si segnino le posizioni intere. Si ottiene, cosı́, un reticolo di punti, a coordinate intere,
che rappresenta Zd . Consideriamo il caso di una passeggiata aleatoria su Zd ; esamineremo
il solo caso simmetrico.
Si scelga a caso, quindi con probabilità 1/d, uno degli assi, per esempio il j–esimo; sia
assegnata la successione (Xnj )n∈N di v.a. bernoulliane indipendenti,
P(Xnj = 0) = P(Xnj = 1) = 1/2,
e la successione associata (Ynj )n∈N , ove Ynj := 2 Xnj − 1. Supponiamo che le successioni
(Yn1 ), (Yn2 ), . . . , (Ynd ) siano complessivamente formate da v.a. indipendenti, sicché, per esem-
pio Ynj e Ymk sono indipendenti quali che siano m e n in N con m 6= n e j e k in {1, 2, . . . , d}
con j 6= k. La posizione della particella che si muove in Zd è individuata dal vettore aleatorio
d–dimensionale
Gn := G1n , G2n , . . . , Gdn .

Calcoliamo la probabilità P(G2n = 0) che il processo ritorni nell’origine
0 = (0, 0, . . . , 0)
al tempo t = 2n.
Perché il processo ritorni nell’origine, supponiamo che compia 2 kj passi lungo il j–esimo
asse; come nel caso unidimensionale, abbiamo già usato il fatto che, lungo ogni asse, il
processo dovrà compiere un egual numero di passi nel verso positivo che nel verso negativo.
Si avrà, necesseriamente, k1 + k2 + · · · + kd = n. Noti i numeri k1 , k2 , . . . , kd , si ha
2 k 1
j
P Gj2kj = 0 = ;
kj 22kj
inoltre, poiché la probabilità di scegliere 2 kj volte il j–esimo asse è 1/d2kj , si ha, ricorrendo
ai coefficienti multinomiali,
1 X (2 n)!
P (G2n = 0) =
(2 d)2n k1 !k1 !k2 !k2 ! . . . kd !kd !
k1 ,k2 ,...,kd
k1 +k2 +···+kd =n
(n!)2

2n 1 X
=
n (2 d)2n (k1 !)2 (k2 !)2 . . . (kd !)2
k1 ,k2 ,...,kd
k1 +k2 +···+kd =n
2
2n 1 X n
= .
n (2 d)2n k1 , k2 , . . . , kd
k1 ,k2 ,...,kd
k1 +k2 +···+kd =n
Per d = 1, si ottiene nuovamente la (1.11.7), mentre, per d = 2, si trova

n
2n 1 X n
P (G2n = 0) =
n 42n k2
k=0
n 2
2n 1 X n n 2n 1
= = = u22n ,
n 42n k n−k n 22n
k=0
ove u2n è dato ancora dalla (1.11.7). Ricorrendo alla formula di Stirling, si ha
1

√ ,
 se d = 1,
P (G2n = 0) = nπ (1.13.1)
 1 ,

se d = 2.
nπ
Consideriamo, infine, il caso d ≥ 3. Poiché,

X 1 n
= 1,
dn k1 , k2 , . . . , kd
k1 ,k2 ,...,kd
k1 +k2 +···+kd =n
e, poiché tutti i termini sono positivi, si ha

2n 1 n
P (G2n = 0) ≤ max .
n (2 d)2n k1 ,k2 ,...,kd k1 , k2 , . . . , kd
k1 +k2 +···+kd =n
1.14. LA DEFINIZIONE SOGGETTIVA DELLA PROBABILITÀ 53
Un facile calcolo mostra che il minimo del denominatore k1 !k2 ! . . . kd ! è raggiunto quando
kj = costante, vale a dire, approssimativamente, per kj ' n/d (j = 1, 2, . . . , d). Ricorrendo
ancora alla formula di Stirling, si ottiene

n n! n!
= ≤ n od
k1 , k2 , . . . , kd k1 ! k2 ! . . . kd ! n
!
√ d
nn e−n 2π n dn dd/2
' r 2 = d−1 ,
n n/d −n/d √ n (2 π n) 2
e 2π
d d
onde, ricordando la (1.11.7), ed essendo Cd un’opportuna costante, che si potrebbe calcolare

esplicitamente,
1 dn dd/2 Cd
P (G2n = 0) ≤ √ d−1 d−1 ≤ . (1.13.2)
n π (2 π) 2 n 2 n3/2
In virtú della (1.13.1) e della (1.13.2) la serie
X
P (G2n = 0)
n∈N
è, dunque, divergente se d = 1, 2, convergente se d ≥ 3.

Siamo ora in grado di enunciare il seguente teorema, la cui dimostrazione richiede
strumenti pi’u sofisticati.
Teorema 1.13.1. (Pólya). In una passeggiata aleatoria simmetrica su Zd con d ≥ 3 è nulla

la probabilità che il processo ritorni infinite volte nell’origine.
1.14 La definizione soggettiva della probabilità

In queste lezioni abbiamo sistematicamente adottato il punto di vista assiomatico, che
però prescinde dal significato da attribuirsi alle probabilità. Ritornando alla domanda del-
la sezione iniziale — Che cos’è la probabilità? — esporrò brevemente il punto di vista
soggettivo.
La definizione di probabilità, secondo de Finetti, si basa sul concetto di scommessa
coerente.
Per ogni p ∈ R, si parla di scommessa di quota p e di importo S su un evento E, se
versata una somma pS con S 6= 0 arbitrario, si riceve una la somma S se, e solo se, si verifica
E. Se E non si verifica, si perde la somma pS. Il guadagno della scommessa su E è dunque
G(E) = (1E − p)S.
Esplicitamente, si guadagnerà (1 − p)S se E si realizza, −pS se E non si realizza. Nulla si

può dire a questo punto del segno del guadagno. Si intende che se S è negativo in effetti si
pagherà la somma |S|.
Una scommessa su E si dice coerente se non esiste alcun valore di S 6= 0 tale che i
due guadagni possibili legati all’alternativa sul realizzarsi di E siano entrambi positivi o
entrambi negativi; in altra parole, una scommessa è coerente se non vi è la certezza che una
delle due parti contraenti vinca quale che sia il risultato. La coerenza richiede dunque che,
per ogni S 6= 0, sia
−p(1 − p)S 2 ≤ 0,
vale a dire p2 − p ≤ 0, o, ancora, p ∈ [0, 1].
Vi sono due casi nei quali l’esito della scommessa è scontato, se E = ∅, oppure se E = Ω,
vale a dire quando E è l’evento impossibile ∅ oppure l’evento certo Ω; nel primo caso si
perde certamente, nel secondo si vince certamente. In ciascuna di queste due situazioni la
condizione di coerenza richiede che i guadagni siano nulli; infatti per E = ∅, il guadagno è
G(∅) = −pS, onde p = 0, mentre se E = Ω, il guadagno è G(Ω) = (1 − p)S onde p = 1.
Secondo la definizione di de Finetti, si dice probabilità di un evento E un numero p =
P(E) tale che sia coerente la scommessa di quota p su E.
Questa definizione può apparire deludente, perché tutto quello che dice è che la proba-
bilità di un evento E è un numero di [0, 1]. Occorre, però, fissare l’attenzione non solo su
E, ma anche su altri eventi che possono contribuire a determinare e a modificare le infor-
mazioni che su E si hanno. A tal fine, giova supporre che la famiglia degli eventi abbia una
struttura algebrica; la piú naturale è quella di algebra. Si vedrà nel seguito che supporre
che la probabilità sia definita in un’algebra A di sottoinsiemi di Ω non è restrittivo.
Invece di una sola scommessa sull’evento E, si consideri una qualunque sottoclasse finita
di A, {E1 , E2 , . . . , En }; si considerino n scommesse coerenti e simultanee sugli eventi Ej di
importi arbitrarı̂, e differenti da zero, S1 , S2 , . . . , Sn e di quote p1 , p2 , . . . , pn . Il guadagno
sarà dato dalla v.a.
X n
G := (1Ej − pj )Sj .
j=1
In particolare, se gli eventi E1 , E2 , . . . , En costituiscono una partizione, di Ω, la combi-

nazione di scommesse considerate equivale ad un’unica scommessa sull’evento certo Ω. Al-
lora, scegliendo gli importi S1 = S2 = · · · = Sn = 1, si ha G = 1 − (p1 + p2 + · · · + pn ),
sicché la scommessa è coerente se, e solo se,
P(E1 ) + P(E2 ) + · · · + P(En ) = 1.
A questo punto, potremmo definire come probabilità qualsiasi funzione P da A in [0, 1] che
soddisfaccia alle proprietà P(∅) = 0, P(Ω) = 1 e all’ultima scritta.
Possiamo ora dare il seguente teorema.
Teorema 1.14.1. Se A e B sono due eventi incompatibili (A ∩ B = ∅), allora
[
P(A B) = P(A) + P(B).
Dimostrazione. Si consideri l’evento E = A ∪ B e l’evento E c . Allora, la famiglia {E, E c }

costituisce una partizione, onde P(E) + P(E c ) = 1, cioè
P(E) = 1 − P(E c ).
Ma anche {A, B, E c } è una partizione, onde 1 = P(A) + P(B) + P(E c ) e di qui
P(A) + P(B) = 1 − P(E c ).
Dall’eguaglianza dei secondi membri scende quella dei primi.

Alla luce dell’ultimo teorema dimostrato, la probabilità è una funzione P positiva, defini-
ta su un’algebra A di sottoinsiemi di Ω e finitamente additiva anziché numerabilmente ad-
ditiva, com’è invece nella definizione di Kolmogorov. Si vedrà nel seguito che è sempre
possibile estendere una probabilità finitamente additiva a P(Ω), la famiglia dei sottoinsiemi
di Ω.
Vogliamo mostrare che una valutazione coerente di probabilità è unica. Si supponga che
una stessa persona effettui due diverse scommesse sullo stesso evento E, rispettivamente
di quote p e p0 e di importi S e S 0 , arbitrarı̂ e non nulli. I guadagni che corrispondono al
realizzarsi di E e di E c sono rispettivamente
G = (1 − p)S + (1 − p0 )S 0 se si realizza E,
e
G0 = −pS − p0 S 0 se non si realizza E.
1.15. NOTE AL CAPITOLO 1 55
Ora, si considerino le ultime due come due equazioni nelle incognite S e S 0 , vale a dire
(
(1 − p)S + (1 − p0 )S 0 = G
−pS − p0 S = G0
Se fosse diverso da zero il determinante dei coefficienti, tale sistema avrebbe soluzione per
ogni coppia di valori di G e di G0 , anche entrambi positivi o entrambi negativi. Perciò la richi-
esta che la scommessa sia coerente comporta che si annulli il determinante dei coefficienti,
cioè
1 − p 1 − p0

det = −p0 + pp0 + p − pp0 = p − p0 .
−p0

−p
La coerenza impone dunque che sia p0 = p.
È particolarmente interessante l’approccio soggettivo alle probabilità condizionate. Sia
data un’algebra A di sottoinsiemi di un insieme non vuoto Ω, e si ponga A0 := A \ {∅}. Si
dice evento condizionato E/H con E ∈ A e H ∈ A0 un evento che è vero se sono veri sia H
sia E, è falso se H è vero, mentre E è falso e che, infine, è indeterminato se H è falso. Per
H = Ω si ha E/Ω = E.
In una scommessa condizionata su E/H, di quota p e di importo S 6= 0, si versa la
somma pS per ricevere S se si verificano sia E sia H, si perde pS se si verifica H ma non
E; se non si verifica H la scommessa è annullata e si riprende quindi la somma versata pS.
Una scommessa condizionata su E/H si dice coerente se la funzione su A × A0 definita da
(E, H) 7→ P(E/H) è una probabilità su A, tutte le volte che sia fissato H ∈ A0 .
Teorema 1.14.2. Se E ∈ A e H 6= ∅, allora
P(E ∩ H) = P(E/H) P(H).
Dimostrazione. Si ponga p := P(H ∩ E), p0 := P(H) e p00 := P(E/H) e si considerino due

scommesse simultanee: una di quota p0 e importo S 0 su H e l’altra di quota p00 e di importo
S 00 su E/H. Vale la partizione di Ω, Ω = H c ∪ (H ∩ E) ∪ (H ∩ E c ); in corrispondenza del
realizzarsi dei tre insiemi della partizione si hanno rispettivamente i guadagni
G1 = −p0 S 0 , G2 = −p0 S 0 − p00 S 00 + S 0 + S 00 , G3 = −p0 S 0 − p00 S 00 + S 0 .
Si scelgano gli importi S 0 = p00 e S 00 = 1; allora
G1 = −p0 p00 , G2 = 1 − p0 p00 , G3 = −p0 p00 ;
si ha, cosı́, un guadagno 1 − p0 p00 , se si realizza H ∩ E, ed un guadagno −p0 p00 , se si realizza

[
H c (H ∩ E c ) = (H c ∪ H) ∩ (H c ∪ E c ) = (H c ∪ E c ) = (H ∩ E)c .
Le due scommesse equivalgono ad un’unica scommessa di quota p0 p00 sull’evento H ∩ E. La

coerenza impone cosı̀ p = p0 p00 , vale a dire l’asserto.
1.15 Note al Capitolo 1

La bibliografia sulle probabilità è molto vasta; di seguito diamo una selezione dei libri sulla
Probabilità che abbiamo tenuto presenti nello scrivere questo lezioni. Si tratta di un elenco
parziale limitato alla letteratura in italiano, inglese e francese.
Per i libri di carattere introduttivo si possono consultare:
(Feller, 1950), (Parzen, 1960), (Gnedenko, 1968), (Billingsley, 1968), (Pintacuda, 1983),
(Baclawski et al., 1984), (Dall’Aglio, 1987), (Baldi, 1992), (Letta, 1993), (Cufaro Petroni,
1996), (Koch, 1997), (Buonocore et al., 2011).
Non si può tacere che alcune monografie di carattere piú elevato hanno avuto una grande
importanza dal punto di vista storico: (Kolmogorov, 1933), monografia densissima nella
quale la probabilità ha trovato il suo assetto moderno e che riporta i risultati fondamentali,
(Cramér, 1946) che insieme al già citato libro di (Feller, 1950) che sono stati, per lungo
tempo, i soli testi di riferimento per gli studiosi.
Un approccio differente da quello tradizionale, basato sull’assiomatizzazione delle sper-
anze anziché delle probabilità si puó trovare in (Whittle, 1992).
Sarà bene tenere presenti le voci dell’enciclopedia (S. Kotz, N.L. Johnson, 1982).
Utili libri di esercizı̂ sono, accanto a quelli di Feller, Letta e Parzen, citati sopra, quelli
di (Cacoullos, 1989), (Cerasoli, 1991), (Baldi et al., 1995), (Piccinato, 1969), (Grimmet &
Stirzaker, 2001).
Si consultino anche i libri di esempiı̂ e controesempı̂, che sono sempre utili per mettere a
cimento le proprie conoscenze, (Romano & Siegel, 1986), (Stoyanov, 1987) e (Székely, 1986).
Section 1.1 Per un primo orientamento sulla storia del calcolo delle probabilità, si vedano
le storie generali della matematica, per esempio, (Loria, 1982), (Boyer, 1980), (Kline,
1972), (Struik, 1947).
Esistono, poi, libri dedicati interamente alla storia del calcolo delle probabilità, come
(Maistrov, 1974). Istruttive sono anche le raccolte (Pearson & Kendall, 1970, 1977).
Per studı̂ piú approfonditi si troveranno numerose indicazioni, aggiornate al 1981,
nell’opera di (Dauben, 1985). Numerose sintetiche biografie di molti probabilisti i cui
nomi ricorrono in queste lezioni si possono trovare in (Heyde & Seneta, 2001).
È istruttiva la lettura del bell’articolo (Cramér, 1976) che dà una visione ragionevol-
mente completa, e non troppo personale, del calcolo delle probabilità nel periodo
1920–1970. Sono tratte da quest’articolo le citazioni di (von Mises, 1919) e (Cramér,
1926). Si veda, infine, la rapida ma magistrale sintesi di (Loève, 978).
Per il richiamo al Talmud si veda (Rabinovitch, 1969).
Tranne i brevissimi cenni di questa sezione e l’ultima sezione, abbiamo evitato qualsiasi
discussione approfondita sul significato di probabilità. Per questo si può consultare
come primo orientamento (Fine, 1973).
Sezione 1.2 Il risultato citato nel corso della dimostrazione di 1.2.3, e cioè che in R ogni
insieme aperto può essere espresso come l’unione disgiunta, al più numerabile, di
intervalli aperti, si può trovare nel delizioso volumetto di (Boas, 1960).
Sezione 1.4 Il problema dei compleanni fu introdotto da von Mises nel 1932. Esso è stato
oggetto di una vasta letteratura e di numerissime generalizzazioni.
Sezione 1.6 Non ci è bastato il cuore per rompere con la tradizione, e sostituire la denom-
inazione “variabile aleatoria” con quella di “funzione (misurabile)”.
Per l’opera probabilistica di Poisson si veda (Sheynin, 1978).
Sezione 1.7 La diseguaglianza (1.7.2) appare per la prima volta in (Bienaymé, 1853), ar-
ticolo che fu ristampato come (Bienaymé, 1867) probabilmente per coincidere con
l’articolo di (Čebyšev, 1867) che lo segue immediatamente nello stesso fascicolo del
Giornale di Liouville. Čebyšev dette la priorità a Bienaymé; alla stessa conclusione
giunse Markov. Tuttavia l’articolo di Čebyšev ebbe maggiore risonanza, soprattut-
to attraverso gli scritti della forte scuola russa di probabilità. Si veda per tutta la
questione (Heyde & Seneta, 1987). A rigore, quindi, la (1.7.2) dovrebbe chiamarsi
diseguaglianza di Bienaymé–Čebyšev, cosı́ come, del resto, fanno alcuni autori.
La diseguaglianza di Markov fu presentata in (Markov, 1913).
Il Teorema di Weierstraßfu introdotto in (Weierstraß, 1885). La dimostrazione data
qui segue (Bernstein, 1912); poiché questo articolo non è reperibile con facilità, essa
si può trovare negli esercizı̂ di (Loève, 1963) o in (Chow & Teicher, 1978).
1.16. ESERCIZÎ SUL CAPITOLO 1 57
Sezione 1.8 Sono, naturalmente, molte altre le distribuzioni di probabilità discrete che
trovano uso nelle applicazioni. Si veda la monografia (Johnson et al., 1993) che è ad
esse dedicata.
Borel (1913) suppose che fossero delle scimmie a scrivere su una macchina per scrivere
e a “creare” testi letterarı̂.
Sezione 1.9 Del principio di inclusione–esclusione sono note numerose dimostrazioni la cui
maggiore o minore semplicità dipende dalla cultura matematica dello studioso che le
legge. Quella presentata in queste lezioni è tratta da (Loève, 1963). Un approccio
differente si può trovare in (Ryser, 1963) o (Brualdi, 1977).
Sezione 1.10 Il problema del raccoglitore di figurine può essere affrontato con metodi piú
raffinati; si veda, a questo proposito, (Pintacuda, 1980). La letteratura in proposito è
però veramente sterminata.
Sezioni 1.11–1.13 Queste sezioni sono modellate in larga parte sulla trattazione dei libri
di (Feller, 1950) e di (Baclawski et al., 1984).
L’esempio 1.11.1 è dovuto ad (André, 1887). Il Teorema (1.13.2) fu presentato in
(Pólya, 1921).
Sezione 1.14 La presentazione delle probabilità soggettive data in queste lezioni è strin-
gatissima. Lo studioso può, anzi, dovrebbe, consultare l’opera di uno dei padri di tale
approccio, Bruno de Finetti; qui basti segnalare (de Finetti, 1970) e la voce Probabilità
nell’Enciclopedia Einaudi, vol. 10, Torino: Einaudi, 1980 scritta dallo stesso de Finetti.
L’esposizione segue (Scozzafava, 1989).
1.16 Esercizı̂ sul Capitolo 1

1. Si dimostrino le seguenti relazioni:
(a) A \ B = A \ (A ∩ B) = (A ∪ B) \ B;
(b) A ∩ (B \ C) = (A ∩ B) \ (A ∩ C) = (A ∩ B) \ C;
(c) (A \ B) \ C = A \ (B ∪ C);
(d) A \ (B \ C) = (A \ B) ∪ (A ∩ C);
(e) (A \ B) ∩ (C \ D) = (A ∩ C) \ (B ∪ D);
(f) (A ∪ B) \ C = (A \ C) ∪ (B \ C).
2. La differenza tra insiemi non è associativa,
(A \ B) \ C 6= A \ (B \ C) .
(a) A∆∅ = A;
(b) A∆Ω = Ac ;
(c) A∆Ac = Ω;
(d) A∆A = ∅;
(e) A∆B = (A ∪ B) \ (A ∩ B);
(f) A∆B = Ac ∆B c ;
(g) A ∩ (B∆C) = (A ∩ B)∆(A ∩ C);
(h) A∆B = B∆A;
(i) (A∆B)∆C = A∆(B∆C).
4. Se A ⊂ B, si calcoli A∆B; è invertibile questo risultato?
(a) 1Ac = 1 − 1A ;
(b) A = {ω ∈ ω : 1A (ω) = 1};
(c) A ⊂ B ⇐⇒ 1A ≤ 1B ;
(d) 1A∩B = 1A · 1B ;
(e) 1A∪B = 1A + 1B − 1A∩B ;
(f) 1A\B = 1A (1 − 1B );
(g) 1A∆B = 1A + 1B − 21A · 1B = |1A − 1B | = (1A + 1B )(mod 2);
(h) 1∩n∈N An = minn∈N 1An ;
(i) 1∪n∈N An = maxn∈N 1An .
6. (a) In P(Ω) la relazione A = B equivale a A∆B = ∅.

(b) L’equazione nell’incognita X (un insieme), A∆X = B, ove A e B sono assegnati
sottoinsiemi di Ω, ammette sempre soluzione in P(Ω) e la soluzione è unica.
7. Rispetto a quale delle tre operazioni ∪, ∩, ∆ la famiglia P(Ω) è un gruppo?
8. (P(Ω), ∆, ∩) ove ∆ svolge il ruolo di addizione e ∩ quello di moltiplicazione è un anello

commutativo con unità. Si caratterizzino gli insiemi Ω per i quali tale anello è un dominio
d’integrità.
9. Sia F una tribú di sottoinsiemi di Ω e sia Ω1 ⊂ Ω. è allora una tribú di sottoinsiemi

di Ω1 , detta traccia di F in Ω1 , la famiglia F1 := {A ∩ Ω1 : A ∈ F}. Inoltre se Ω ∈ F, è
F = {A ∈ F : A ⊂ Ω1 }.
10. Sia A una famiglia di sottoinsiemi di Ω che goda delle seguenti proprietà:
(a) Ω ∈ A;
(b) A ∈ A =⇒ Ac ∈ A;
(c.1) A1 , A2 ∈ A =⇒ A1 ∪ A2 ∈ A;
(c.2) se An ∈ A per ogni n ∈ N e se gli insiemi della successione (An ) sono disgiunti, allora
∪n∈N An ∈ A.
Allora A è una tribú.
11. Sia Ω un insieme infinito non numerabile, cioè cardΩ) > ℵ0 . Sia F la famiglia dei
sottoinsiemi di Ω che sono numerabili o tali che sia numerabile il loro complementare
F := {A ⊂ Ω : card(A) ≤ ℵ0 oppure card(Ac ) ≤ ℵ0 } .
Allora F è una tribú.

12. Vale la diseguaglianza
max{P(A) + P(B) − 1, 0} ≤ P(A ∩ B) ≤ min{P(A), P(B)} .
13. Vale la diseguglianza

|P(A) − P(B)| ≤ P(A∆B) .
14. Se gli eventi A1 , A2 ,. . . , An sono indipendenti si ha
n
! n
[ Y
P Ai = 1 − P(Aci ) .
i=1 i=1
15. Se gli eventi A1 , . . . , An sono indipendenti con P(Ai ) = pi , qual è la probabilità

P che

n
non se ne verifichi alcuno? Si mostri che tale probabilità è maggiorata da exp − j=1 pj .
16. Si dia l’esempio di una probabilità e di tre eventi A, B e C tali che
P(A ∩ B ∩ C) = P(A) P(B) P(C) ,
senza che essi siano indipendenti.

17. Siano A e B due eventi con probabilità P(A) e P(B) entrambe in ]0, 1[. Si mostri che
sono, in generale, false le relazioni
(a) P(A | B) + P(A | B c ) = 1;
(b) P(A | B) + P(Ac | B c ) = 1.
18. Se B è un evento tale che sia 0 < P(B) < 1, si dia una condizione necessaria e sufficiente
affinché valga la (b) dell’esercizio precedente.
19. (a) Siano A e B eventi tali P(A) > 0; allora
\ [ \
P A B|A B ≤P A B|A .
(b) Siano A, B e C tre insiemi con P(C) > 0; allora

\
P A B | C = P (A | B, C) P (B | C) .
20. Si mostrino le diseguaglianze

(a) P(A∆C) ≤ P(A∆B) + P(B∆C);
(b) P [(A ∪ B)∆(C ∪ D)] ≤ P(A∆C) + P(B∆D).
21. In uno spazio di probabilità (Ω, F, P), se le probabilità P(A) e P(B) sono entrambe in
]0, 1[ sono equivalenti le affermazioni:
(a) A, B e A∆B sono a due a due indipendenti;
(b) P(A) = P(B) = 2 P(A ∩ B) = 21 .
22. Siano A e B eventi. Si esprima in funzione di P(A), di P(B) e di P(A ∩ B) la probabilità
che, per k = 0, 1, 2, si verifichino
(a) esattamente k dei due eventi A e B,
(b) almeno k,
(c) al piú k.
23. Siano A, B e C eventi. Si esprima in funzione di P(A), P(B), P(C), P(A ∩ B), P(A ∩ C),
P(B ∩ C) e P(A ∩ B ∩ C) la probabilità che, per k = 0, 1, 2, 3, dei tre eventi A, B e C se ne
verifichino
(a) esattamente k dei due eventi A e B,
(b) almeno k,
(c) al piú k.
24. (Teorema multinomiale)
r
!n
X X n
αk = αk1 αk2 . . . αrkr ,
k1 , k2 , . . . , kr 1 2
k=1 k1 ,k2 ,...,kr
k1 +k2 +···+kr =n
ove la somma è estesa a tutte le r–ple (k1 , k2 , . . . , kr ) di interi positivi (kj ∈ Z+ ) tali che
r
X
kj = n
j=1
e
n n!
:= .
k1 , k2 , . . . , kr k1 !k2 ! . . . kr !
25. Per n ∈ N, quante soluzioni con xk numeri naturali (xk ∈ N) ha l’equazione
n
X
xk = n ?
k=1
quante soluzioni con xk interi positivi (xk ∈ Z+ )? quante con xk ≥ s (con s ∈ N)?
26. Un’urna contiene 6 palline numerate da 1 a 6. Qual è la probabilità che la somma dei
numeri di due palline, estratte con o senza restituzione, sia eguale a k, per (k = 1, 2, . . . , 12)?
27. Un’urna contiene 10 palline numerate da 0 a 9. Si estraggano, con o senza restituzione,
tre palline. Mettendo i numeri l’uno accanto all’altro nell’ordine nel quale sono stati estratti,
si forma un numero compreso tra 0(= 000) e 999. Qual è la probabilità che il numero cosı́
formato sia divisibile per 39? (Lo zero è considerato divisibile per 39).
28. In un gruppo di quattro persone, qual è la probabilità che almeno due di esse abbiano
il compleanno nello stesso giorno? (Nel rispondere si mettano bene in evidenza le ipotesi
che si fanno).
29. (Probabilità che un dato giorno sia il 29 febbraio). Si sa che degli anni dei secoli solo
quelli divisibili per 400 sono bisestili; quindi il 2000 è stato bisestile, mentre non lo sono
stati né il 1700, né il 1800, né il 1900. In un periodo di 400 anni vi sono, allora, 97 anni
bisestili, e, quindi, complessivamente 400 × 365 + 97 = 146097 giorni che corrispondono ad
esattamente 20871 settimane. I giorni della settimana si ripetono, dunque, ogni 400 anni;
basterà, perciò, fare riferimento ad un ciclo di 400. La probabilità pb di un giorno bisestile,
vale a dire la probabilità di un 29 febbraio, è dunque
97
pb = ' 0.000664 = 0.0664 % .
146097
La probabilità di un giorno normale è
400
pn = ' 0.002738 = 0.2378 % ,
146097
che è da confrontarsi con 1/365 ' 0.002740 = 0.2740 %, che è la probabilità che verrebbe
spontaneo usare nel modello piú ingenuo possibile.
30. Si mescolano separatamente due mazzi di carte da gioco formati da 52 carte ciascuno.
Se si gira una carta alla volta da ciascun mazzo, qual è la probabilità che coincidano le carte
girate
(a) per prime,
(b) per 52–esime,
(c) sia per prime sia per 52–esime?
31. Un’urna contiene palline di r colori, precisamente m1 del primo colore, m2 del secondo
colore e cosı́ via. Si calcoli la probabilità che, estraendo, con o senza restituzione, n palline
ve ne siano k1 del primo colore, k2 del secondo colore,. . . , kr dell’r–esimo colore.
32. Due urne U1 e U2 hanno la medesima composizione; entrambe contengono n palline
delle quali b sono bianche. Si estragga una pallina da U2 (senza guardarne il colore) e la si
ponga in U1 . Qual è ora la probabilità di estrarre una pallina bianca da U1 ?
33. Si lancia una moneta per 10 volte. Se P(T ) = P(C) = 1/2, qual è la probabilità
(a) di avere testa nei primi 5 lanci e croce nei successivi 5?
(b) di avere 5 teste e 5 croci?
(c) di avere almeno 5 teste?
(d) di ottenere non piú di 5 teste?
34. Un’urna contiene b palline bianche e c colorate. Ad ogni istante si estrae una pallina,
se ne nota il colore e la si rimette nell’urna insieme a d palline dello stesso colore di quella
estratta. Si calcolino le probabilità
(a) che la seconda pallina estratta sia bianca;
(b) che la prima pallina sia bianca sapendo che la seconda pallina estratta è bianca.
35. In un teatro si vendono a caso k biglietti per le n poltrone di una fila (n > k)). Qual è
la probabilità che, in quella fila, non vi siano persone sedute l’una accanto all’altra?
36. Da un’urna che contiene 4 palline bianche e 2 nere si estraggono, con o senza resti-
tuzione, 4 palline. Si considerino gli eventi Ai :=“l’i–esima pallina estratta è bianca”, B:=“si
estrae esattamente una pallina bianca nelle prime due estrazioni” e C:=“nelle 4 estrazioni
si estraggono 2 palline bianche”. Allora
(a) sono indipendenti A1 e A4 ?
(b) sono indipendenti B e A4 ?
(c) sono indipendenti C e A4 ?
37. Si lancino contemporaneamente n monete eguali (n ≥ 3) per ognuna delle quali è p
la probabilità di testa. Qual è la probabilità che una moneta mostri una faccia diversa da
quella di tutte le altre? Se p = 1/2, qual è la distribuzione della v.a. T1 :=numero del primo
lancio nel quale si verifica la situazione della domanda precedente?
38. Un’urna contiene N palline delle quali b sono bianche; se ne estraggono in successione
n, con o senza restituzione. Si calcoli, nei due casi, la probabilità condizionata P(Bj | Ak ),
se B è l’evento “la j–esima pallina estratta è bianca”, mentre Ak è l’evento “si estraggono
k palline bianche”.
39. Un’urna contiene un egual numero di palline bianche e colorate. Si estraggono con
restituzione due palline. Si calcolino le probabilità condizionate che entrambe le palline
siano bianche sapendo:
(a) che la prima pallina estratta è bianca;

(a) che almeno una delle due palline estratte è bianca.
Si risponda ai medesimi quesiti se l’estrazione è senza restituzione.
40. Nell’estrazione senza restituzione di tre palline da un’urna che inizialmente ne contiene
b bianche e c colorate, si calcoli la probabilità che la terza pallina estratta sia bianca.
41. Al momento della nascita vi è probabilità 0.51 che il neonato sia maschio. Qual è la
probabilità che una famiglia con 4 figli abbia
(a) esattamente un maschio?
(b) esattamente una femmina?
(c) almeno un maschio?
(d) almeno una femmina?
42. Nelle condizioni dell’esercizio precedente qual è il numero minimo di figli che una coppia
deve avere perché sia maggiore di 0.75 la probabilità di avere almeno due maschi?
43. In una famiglia con 4 figli, qual è la probabilità condizionata che tutti i figli siano maschi
se
(a) il primo figlio è maschio?
(b) se almeno uno dei figli è maschio?
44. Due squadre giocano una serie di partite; vince il torneo la squadra che per prima vince
quattro partite. Nessuna partita può terminare in pareggio. Se la squadra S1 ha probabilità
p (con p ∈ ]0, 1[) di vincere, si calcoli la probabilità che il torneo termini in 4, 5, 6 o 7 partite
per (a) p = 2/3, (b) p = 1/2. Nei due casi si calcoli anche la lunghezza media del torneo.
45. Quante volte si deve lanciare una moneta con P(T ) = P(C) = 1/2, perché sia almeno
0.9 la probabilità che il rapporto tra il numero delle teste e quello dei lanci sia compreso tra
0.4 e 0.6?
46. Si controlli che effettivamente la distribuzione geometrica ha speranza finita.
47. Si dimostri la seguente identità
X k
n i n−i
= (n ∈ N; i, k = 0, 1, . . . , n) .
k r=0
r k−r
48. Per la distribuzione ipergeometrica si ha effettivamente

n
X
pk = 1 .
k=0
Si calcolino speranza e varianza di tale distribuzione.

49. Per la distribuzione binomiale negativa si mostri che
X
pk = 1 ,
k∈Z+
e se ne calcolino speranza e varianza.

50. La distribuzione di Pascal è effettivamente una distribuzione di probabilità. Se ne calcoli
la speranza.
51. In un processo di Bernoulli (Xn ) su (Ω, F, P), con P(X1 = 1) = p, siano T1 e T2 gli
istanti del primo e del secondo successo, rispettivamente. Si calcoli la probabilità di {T1 = k}
sapendo che {T2 = n}.
52. Si calcoli la costante λ in modo che
qn
pn = λ (q ∈ ]0, 1[)
n
(n ∈ N) sia una distribuzione di probabilità (distribuzione logaritmica). Si calcolino sper-
anza e varianza della distribuzione logaritmica.
53. La legge di Poisson troncata è una legge di probabilità su N, anziché su Z+ come la
legge di Poisson, data da
λn
P(X = n) := k (λ > 0, n ∈ N) .
n!
Si calcoli la costante k in modo che risulti cosı́ definita una legge di probabilità e se ne
calcolino media e varianza.
54. In un processo di Bernoulli (Xn ) su (Ω, F, P), con P(X1 = 1) = p, si calcoli la probabilità
condizionata di avere un successo all’i–esima prova (i = 1, 2, . . . , n) sapendo che in n prove
si hanno k successi, cioè P(Xi = 1 | Sn = k).
55. In un processo di Bernoulli (Xn ) su (Ω, F, P), con P(X1 = 1) = p, si calcoli
(a) per k = 0, 1, . . . , n, la probabilità (condizionata) di avere esattamente m+k successi se
si è avuto un successo in ognuna delle prime m prove, cioè P(Sm+n = m+k | Sm = m);
(b) la probabilità (condizionata) di avere m + k successi se nella serie di m + n prove si
sono ottenuti almeno m successi cioè
P(Sm+n = m + k | Sm+n ≥ m) .
56. (a) Per assegnati valori di n ∈ N e di p ∈ ]0, 1[, si studii il comportamento dei termini
della legge binomiale b(k; n, p) al variare di k in {k = 0, 1, . . . , n};
(b) perché risulti b(k; n, p) = b(k + 1; n, p), occorre e basta che (n + 1)p sia un numero
naturale, cioè (n + 1)p ∈ N;
(c) per assegnati valori di k in N e di p in ]0, 1[, si cerchi il massimo di b(k; n, p) al variare
di n (con n ≥ k).
57. Siano date nel medesimo spazio di probabilità (Ω, F, P) due v.a. X e Y , indipendenti ed
entrambe di legge geometrica, rispettivamente di parametro p1 e p2 . Si determini la legge
della v.a. Z := X ∨ Y = max{X, Y }.
58. Sia Sn una v.a. binomiale di parametro p. Quale che sia b > 0, è
lim P (Sn ≤ b) = 0 .
n→+∞
59. Si calcoli la probabilità che una v.a. binomiale Sn di parametro p assuma valore pari.
Si mostri che, quale che sia p ∈ ]0, 1[, tale probabilità tende a 1/2 al tendere di n a +∞.
60. Se X è una v.a. geometrica di parametro p si calcoli E(1/X).
61. Si calcoli la speranza
E [X (X − 1) . . . (X − k + 1)]
nei due casi:
(a) X è una v.a. con legge di Poisson di parametro λ, X ∼ P(λ);
(b) X è una v.a. geometrica di parametro p.
62. Qual è l’andamento delle probabilità pn nella distribuzione di Poisson al variare di n in

Z+ ? (λ > 0 è fissato).
63. Se X è una v.a. con legge di Poisson di parametro λ, con λ numero naturale, λ ∈ N, si
calcoli E (|X − λ|).
64. Sullo spazio di probabilità (Ω, F, P), si consideri un processo di Bernoulli (Xn ) e si
calcoli la probabilità che il primo successo avvenga ad un istante dispari.
Si mostri, inoltre, se p = 1/2, che per ogni x ∈ ]0, 1] si può trovare un sottoinsieme
Jx ⊂ N tale che sia eguale a x la probabilità che il primo successo avvenga in un tempo che
appartiene a Jx ; in simboli
∀ x ∈ [0, 1] ∃Jx ⊂ N P (T1 ∈ Jx ) = x .
65. Sullo stesso spazio di probabilità (Ω, F, P) si considerino due processi di Bernoulli in-
dipendenti (Xn0 ) e (Xn00 ) di parametri p1 e p2 rispettivamente. Siano T10 e T100 i del primo
successo nei due processi. Si calcoli la probabilità dell’evento {T10 < T100 } e si determini la
legge di T10 condizionata da questo, vale a dire si calcolino, per k ∈ N, le probabilità
P (T10 = k | T10 < T100 ) .
66. Sullo spazio di probabilità (Ω, F, P) si consideri un processo di Bernoulli (Xn ) si calcoli
la probabilità condizionata di avere k fallimenti prima di avere n successi, subordinatamente
al sapere che vi sono k 0 successi prima di avere n + 1 successi.
67. Un giocatore lancia n volte una moneta con probabilità p di ottenere testa. Tutte le
volte che ottiene testa, un secondo giocatore lancia una moneta identica alla prima.
(a) Si costruiscano due v.a. U e V che diano rispettivamente il numero di teste ed il

numero di croci ottenute dal secondo giocatore;
(b) si determinino le leggi di U e di V ;
(c) sono indipendenti U e V ?
68. (a) Si consideri un processo di Bernoulli (Xn ) di parametro p e, sullo stesso spazio di
probabilità (Ω, F, P) la v.a. N indipendente da quelle della
Pnsuccessione (Xn ). N ha legge
di Poisson di parametro λ, N ∼ P(λ). Si ponga Sn := i=1 Xi per n ∈ N e S0 = 0, si
determinino le leggi delle v.a.
X
SN := Sn 1{N =n} ,
n∈Z+
che dà il numero di successi nelle N prove e della v.a. RN := N − SN che conta il numero
dei fallimenti nelle stesse N prove.
(b) Le v.a. SN e RN sono indipendenti.
69. (Il paradosso delle due buste). Ci è chiesto di scegliere una busta tra due, sapendo che
una delle due buste contiene il doppio del denaro dell’altra. Nella busta scelta vi sono 100
euro. Avendone la possibilià, conviene lasciare quella busta e scegliere invece l’altra?
La risposta è apparentemente affermativa: infatti il guadagno medio provocato dal
cambio è, poiché l’altra busta può contenere 50 o 200 euro,
− 12 50 + 1
2 100 = 50 − 25 = 25 > 0
dunque positivo.
Una risposta piú precisa è la seguente. Vi sono due buste A e B; la prima contiene x
euro, la seconda 2x. A noi è incognito il valore di x. Si indichi con px la probabilità che
in A vi siano x euro. Si scelga ora una busta, che sarà A con probabilità 1/2 e si guardi
il suo contenuto. Sia X la v.a. che indica questo numero e si denoti con qx la probabilità
condizionata P(A | X = x) che si sia scelta la busta A avendo osservato che X = x. Allora
P (A ∩ {X = x}) px
P(A | X = x) = = .
P(X = x) P(X = x)
Ora \ \
P(X = x) = P A {X = x} + P B {X = x} = px + px/2 .
Perciò
px
qx = .
px + px/2
Allora il valore medio del denaro contenuto nell’altra busta è
1
e = 2xqx + 2 x(1 − qx ) .
Si studii la diseguaglianza e > x, vale a dire 2xqx + 12 x(1 − qx ) > x, che dà come soluzione
px > 21 px/2 .
La risposta in effetti dipende dai parametri px e px/2 : poiché questi non sono dati, non
esiste una risposta “corretta”. Si veda a questo proposito Linzer (1994).
70. Una particella può muoversi lungo una retta occupando le posizioni con coordinate
intere. Ad ogni istante la particella si muove a destra o a sinistra secondo che il lancio di
una moneta dia testa (T ) o croce (C). Se P(T ) = P(C) = 1/2, qual è la probabilità che al
tempo t = 10 la particella sia
(a) al punto di partenza (l’origine delle coordinate)?
(b) al piú a distanza 1 dall’origine?
(c) a distanza 2 dall’origine?
Si risponda alle stesse domande se P(T ) = 0.51.
71. Con riferimento all’esercizio precedente, si supponga che in corrispondenza del risultato
C la particella non si muova.
(a) Qual è la probabilità Pn (k) che al tempo t = n la particella si trovi in x = k?
(b) Si mostri che Pn (k) = p Pn−1 (k − 1) + q Pn−1 (k), ove P(T ) = p e P(C) = q := 1 − p.
(c) Qual è la probabilità che la particella si trovi alla destra del punto x = 2 al tempo
t = 3 o al tempo t = 4?
(d) Qual è la speranza della posizione della particella al tempo t = 3?
(e) Se p = q = 1/2, qual è la posizione nella quale la particella ha maggior probabilità di
trovarsi al tempo t = 4?
72. Siano assegnate due urne U1 e U2 esteriormente indistinguibili. U1 contiene b1 palline
bianche e c1 palline colorate, mentre U2 ne contiene rispettivamente b2 e c2 . Si scelga a
caso un’urna e da questa si estragga con restituzione una successione di palline. Sia (Xn )
la successione di v.a. che dà il risultato dell’n–esima estrazione, in altre parole Xn = 1 se
all’n–esima estrazione si è estratta una pallina bianca, Xn = 0 se si è estratta una pallina
colorata.
(a) sono indipendenti le v.a. Xn ?
(b) si supponga b1 = 2, c1 = 4, b2 = 5 e c2 = 1; se la prima pallina estratta è bianca

mentre la seconda è colorata, qual è la probabilità che le palline sia state estratte
dall’urna U1 ? e dall’urna U2 ?
73. La Legge dei grandi numeri di Bernoulli può essere estesa al caso di una successione
(Xn ) di v.a. indipendenti e isonome a valori nell’insieme finito S := {s1 , s2 , . . . , sr }; nel caso
delle v.a. di Bernoulli è r = 2 e S = {s, f } oppure S = {0, 1}. Si ponga pj := P(Xn = sj ),
probabilità che non dipende da n perché le v.a. della successione hanno tutte la stessa
distribuzione, e si considerino le v.a.
n
(n)
X
Nj := 1{Xk =sj } ,
k=1
ciascuna delle quali conta quante volte le prime n v.a. della successione abbiano assunto
(n)
il valore sj , sicché Nj /n rappresenta la frequenza del risultato sj nelle prime n prove.
Allora, per ogni ε > 0, vale
 ( (n) )
r N
[ j
lim P  − pj ≥ ε  = 0 .

n

n→+∞
j=1
74. (Le scatole di fiammiferi di Banach) Un matematico distratto, Banach, teneva una
scatola di fiammiferi in ciascuna delle due tasche della giacca e quando aveva bisogno di
accendere la pipa sceglieva a caso la scatola da una delle due tasche. Se ciascunelle due
scatole inizialmente contiene N fiammiferi, si calcoli la probabilità
(a) pj che, quando Banach si accorge che una scatola è vuota, l’altra contenga j fiammiferi;
(b) qj che, quando una scatola è vuota, l’altra contenga j fiammiferi;
(c) che la scatola che per prima è stata trovata vuota non sia stata la prima a svuotarsi.
75. Si consideri un poligono convesso con N lati, ove N è una v.a. con legge
1
P(N = n) = (n ≥ 3) .
2n−2
Si calcolino E(N ) e la speranza E(D) del numero delle diagonali del poligono considerato.
76. Siano X e Y due v.a. isonome ed indipendenti tali che
1
P(X = n) = P(Y = n) = (n ∈ N) .
2n
Si calcolino:
(a) P (X ∧ Y ≤ n);
(b) P(X = Y );
(c) P(Y > X);
(d) P(X divide Y );
(e) P(X ≥ k Y ) con k ∈ N.
77. Un’urna contiene inizialmente b palline bianche e c palline colorate (b, c 6= 0). Si estrae
a caso una pallina: se questa è colorata, non si effettuano piú estrazioni, se invece è bianca la
si rimette nell’urna insieme ad un’altra pallina bianca e si procede ad una nuova estrazione
con le medesime regole. Si indichi con N la v.a. che conta il numero di estrazioni fino
all’estrazione della prima pallina colorata.
(a) Se c > 1, si mostri che E(N ) è finito e se ne calcoli il valore;

(b) se c = 1, si mostri che E(N ) = +∞.
(Esercizio adattato dal Problema 10504 in Amer. Math. Monthly 105, 181–182
78. Siano X e Y due v.a. discrete e sia p(x, y) := P(X = x, Y = y) la loro densità congiunta,
dove X e Y assumono valori in due insiemi finiti o numerabili.
(a) Si mostri che la somma X + Y ha densità data da
X
q(z) = p(x, z − x) .
x
(b) Se le v.a. X e Y sono, inoltre, indipendenti ed hanno entrambe legge di Poisson di

parametri µ > 0 e ν > 0 rispettivamente, anche la somma X + Y ha legge di Poisson.
79. Un’urna contiene inizialmente b palle bianche e c palle colorate. Ad ogni istante si
estrae a caso dall’urna una pallina, se ne nota il colore e la si rimette nell’urna insieme ad
altre d palline dello stesso colore di quella estratta. Si calcolino le probabilità:
(a) che la seconda pallina estratta sia bianca;
(b) che la prima pallina estratta sia bianca, sapendo che la seconda pallina estratta è
bianca.
80. Ad ogni istante si lanciano indipendentemente due monete; in una di esse la probabilità
di ottenere “testa” è 1/2, nell’altra è 1/3. Qual è la probabilità di ottenere “testa” con
entrambe le monete per la prima volta al quinto lancio?.
81. Siano date due urne. La prima, U1 , contiene 15 palline, delle quali 5 portano il numero
1 mentre 2 palline portano il numero k (k = 2, 3, . . . , 6). La seconda urna U2 contiene in
egual proporzione palline con i numeri da 1 a 6.
(a) Si scelga a caso un’urna e da questa si estragga a caso una pallina. Sia N il numero
della pallina estratta; si calcolino P(N = k) per k = 1, 2, . . . , 6 e E(N ).
(b) Si sceglie a caso un’urna, e, da questa, si estraggono con restituzione due palline; siano
N1 e N2 , rispettivamente i numeri delle due palline estratte. Qual è la probabilità
P(N1 = 3, N2 = 4)? Sapendo che N1 = 3 e N2 = 4, qual è la probabilità che le palline
siano state estratte dall’urna U1 ?
(c) Sono indipendenti le v.a. del punto precedente?
82. Sia (Xn ) una successione di v.a. indipendenti e tutte con legge di Bernoulli di parametro
p e sia N una v.a. indipendente da quelle, con legge di Poisson di parametro λ > 0. Siano
S1 e S2 le v.a. che contano rispettivamente il numero di successi, {Xn = 1}, e quello dei
fallimenti, {Xn = 0}, in N prove. Allora
(a) si scrivano S1 e S2 in funzione delle Xn e di N ;
(b) si trovino le leggi di S1 e di S2 ;
(c) si dica se S1 e S2 siano o no indipendenti.
83. (a) Sia Xn una v.a. binomiale di parametri n e pn ; per j = 0, 1, . . . , n, si calcoli la
probabilità condizionata P(Xn = j | Xn ≥ 1);
(b) se Y è una v.a. con legge di Poisson di parametro λ > 0, Y ∼ P(λ), per j ≥ 0, si calcoli
la probabilità condizionata P(Y = j | Y ≥ 1);
(c) se, per ogni n ∈ N, è λ = n pn , si mostri che, per j ≥ 0, si ha
lim P(Xn = j | Xn ≥ 1) = P(Y = j | Y ≥ 1) .

n→+∞
84. Siano X1 , X2 , X3 tre v.a. indipendenti, tutte di legge geometrica con parametri
rispettivamente eguali a p1 , p2 , e p3 .
(a) Si calcoli la probabilità P (X1 < X2 < X3 );
(b) tre giocatori A, B e C lanciano a turno un dado nell’ordine
AB C AB C ...;
si calcoli la probabilità che A sia il primo a lanciare un 6, B il secondo e C il terzo.
85. Siano X1 , . . . , Xn variabili aleatorie indipendenti; Xj ha legge di Poisson di parametro

λj (j = 1, . . . , n). Se α1 , . . . , αn ∈ Z+ sono tali che α1 + · · · + αn = s, si calcoli la probabilità
condizionata
P (X1 = α1 , . . . , Xn = αn | Sn = s) ,
Pn
ove Sn := j=1 Xj . Si consideri in particolare il caso n = 2.
86. Se C designa una curva regolare del piano complesso che contenga al suo interno
l’origine, si mostri l’eguaglianza
(1 + z 2 )n (1 + u)n
Z Z
1 1
dz = du ,
2πi C z 2k+1 2πi C uk+1
e la si usi per stabilire la relazione
(1 + z 2 )n
Z
1 n
dz = .
2πi C z 2k+1 k
Quest’ultima relazione si trova usata, senza commento né derivazione, in un famoso articolo
di Kac del 1956.
Capitolo 2
Variabili Aleatorie
2.1 Variabili aleatorie assolutamente continue

In numerosissimi problemi applicativi il quadro nel quale ci siamo posti sinora, quello degli
spazı̂ di probabilità e delle v.a. discreti, non è piú adeguato a costruire un modello dei
fenomeni che si vogliono studiare. Prenderemo dapprima in esame il caso dello spazio
costituito dall’insieme R dei numeri reali. In questo caso lo spazio misurabile sul quale
si costruiranno le probabilità sarà costituito dalla coppia (R, B), ove con B si indica la
tribú degli insiemi boreliani. Si pone naturalmente il problema di descrivere il “generico”
boreliano; poiché ciò non è possibile, di fatto ci si limita a considerare quei sottoinsiemi di
R che si possono costruire con un numero finito o numerabile di operazioni sugli insiemi del
tipo [−∞, x] con x ∈ R. Si osservi che, se a < b, si ha successivamente
]a, b] = ]−∞, b] \ ]−∞, a] ,
e, quindi,
\ 1
[ 1

[a, b] = a − ,b e [a, b[ = a, b −
n n
n∈N n∈N
Definizione 2.1.1. Dato lo spazio di probabilità (Ω, F, P) si dirà variabile aleatoria definita
in questo spazio ogni funzione X : Ω → R misurabile, vale a dire tale che, per ogni boreliano
B di R, risulti
X −1 (B) ∈ F .
Se X è misurabile, e, dunque una variable aleatoria, in particolare si ha che, per ogni

t ∈ R, appartiene alla tribú F l’insieme X −1 (]−∞, t]),
{X ≤ t} = X −1 (]−∞, t]) ∈ F .
Si noti che in questo caso viene a cadere la restrizione card Ω ≤ ℵ0 che l’insieme Ω
sia finito o numerabile. Non ci porremo, nel seguito, in condizioni di massima generalità
perché ciò obbligherebbe ad impadronirsi di strumenti tecnici che è opportuno rimandare
ad un secondo momento. Introdurremo quindi le probabilità nello spazio misurabile (R, B)
mediante la nozione di densità di probabilità. Diremo che una funzione f : R → R+ è una
densità di probabilità se
(a) la funzione f è a valori positivi, ciò che è già stato messo in evidenza, scrivendo che f
assume valori in R+ ;
(b) f è integrabile in R;
69
70 CAPITOLO 2. VARIABILI ALEATORIE
(c) l’integrale di f esteso a tutto R è eguale a 1:

Z Z +∞
f (x) dx = f (x) dx = 1 .
−∞
R
Data una densità di probabilità f , a questa è associata un’unica probabilità Pf definita

nello spazio di probabilità (R, B), per la quale si ha, se a < b,
Z b
Pf ((a, b)) = f (x) dx ,
a
o, se f è la densità della variabile aleatoria X,

Z b
P(X ∈ (a, b)) = f (x) dx .
a
Qui abbiamo scritto (a, b) per indicare uno qualsiasi dei quattro insiemi ]a, b], ]a, b[, [a, b],
[a, b[, vale a dire che non si specifica se ciascuno degli estremi a e b dell’intervallo in questione
appartenga oppure no all’intervallo stesso; per una probabilità definita da una densità questi
quattro insiemi hanno la stessa probabilità.
2.2 Le funzioni di ripartizione

Si dice funzione di ripartizione (o di distribuzione), di solito abbreviato in f.r., della v.a. X
la funzione FX da R in [0, 1] definita da
FX (t) := PX (] − ∞, t]) = P(X ≤ t) (t ∈ R). (2.2.1)
Si scriverà F , invece di FX , per la f.r. di una v.a. X tutte le volte che ciò non generi
confusione.
Due v.a. X e X 0 , non necessariamente definite sopra il medesimo spazio di probabilità, si
dicono isonome o identicamente distribuite, o, ancora somiglianti, se hanno la stessa legge,
cioè se PX = PX 0 . Si vedrà tra breve che due v.a. sono identicamente distribuite se, e solo
se, esse hanno la stessa f.r..
Piú esplicitamente, se X è una v.a. discrete che assume i valori xn con probabilità
pn := P(X = xn ), la sua f.r. si scrive
X
FX (t) = pn .
n:xn ≤t
Se, invece X è assolutamente continua con densità f , la sua f.r. è data da

Z t
FX (t) = f (x) dx .
−∞
La definizione (2.2.1) si applica anche a v.a. non del tipo considerato in queste lezioni.
Teorema 2.2.1. Se F : R → [0, 1] è la f.r. di una v.a. X, allora essa è isotona (t0 < t00 =⇒
F (t0 ) ≤ F (t00 )), è continua a destra (F (t+0) = F (t) per ogni t ∈ R), e soddisfà alle seguenti
condizioni
lim F (t) = 0 e lim F (t) = 1.
t→−∞ t→+∞
Dimostrazione. Se t0 < t00 , vale l’inclusione {X ≤ t0 } ⊂ {X ≤ t00 }, sicché
F (t0 ) ≤ P(X ≤ t0 ) ≤ P(X ≤ t00 ) = F (t00 ) ,

2.3. ESEMPÎ 71
che stabilisce l’isotonia di F .

Sia t un qualsiasi numero reale e sia (tn ) un’arbitraria successione di reali che tende
decrescendo a t. Si consideri la successione di insiemi definita da
({X ≤ tn })n∈N .
Questa è una successione decrescente
{X ≤ t1 } ⊃ {X ≤ t2 } ⊃ · · · ⊂ {X ≤ tn } ⊃ . . .
ed inoltre si ha \
{X ≤ t} = {X ≤ tn } .
n∈N
In virtú del Teorema 1.3.1 del primo capitolo si ha
F (t) = P(X ≤ t) = lim P(X ≤ tn ) = lim F (tn ) .
n→+∞ n→+∞
Sia ora (tn ) un’arbitraria successione crescente di numeri reali che tenda a +∞. La succes-
sione di insiemi ({X ≤ tn }) è crescente e si ha
[
{X ≤ tn } = Ω ,
n∈N
sicché
lim F (tn ) = lim P(X ≤ tn ) = P(X ≤ +∞) = 1 .
n→+∞ n→+∞
Se, invece, (sn ) è un’arbitraria successione decrescente tendente a −∞, allora la successione
di insiemi ({X ≤ sn }) è decrescente e si ha
\
{X ≤ sn } = ∅
n∈N
e
F (sn ) = P(X ≤ sn ) −−−−−→ P(∅) = 0 .
n→+∞
Ciò conclude la dimostrazione.

È ben noto dall’analisi che una funzione crescente e, dunque, in particolare, anche una
f.r. ha al piú un’infinità numerabile di punti di discontinuità.
2.3 Esempı̂
Già sono incontrate alcune leggi di probabilità discrete che ricorrono nelle applicazioni; di
seguito si studiano, sia pur sommariamente, alcune notevoli leggi di probabilità definite da
una densità e che abbiamo chiamato assolutamente continue. Di alcune di esse si troverà
spiegata la “genesi” nel corso di queste lezioni. Molte sono importanti nella Statistica.
Esempio 2.3.1. (Distribuzione normale o gaussiana). Si dice che una v.a. X ha legge
normale o gaussiana di parametri 0 e 1 (normale standard o ridotta nel linguaggio della
Statistica) o, piú brevemente, che X è N (0, 1), ciò che spesso si indica mediante X ∼ N (0, 1),
se X è assolutamente continua con densità data da
1
ϕ(x) = √ exp(−x2 /2) (x ∈ R) . (2.3.1)
2π
Per riconoscere che la (2.3.1) definisce effettivamente una densità di probabilità, si osservi
intanto che ϕ(x) > 0 per ogni x ∈ R. Inoltre, si ricordi che è
√
Z
exp(−x2 ) dx = π. (2.3.2)
R
ciò che assicura che la normalizzazione della densità (2.3.1)

Z
ϕ(x) dx = 1.
R
Si ha inoltre Z
E(X) = x f (x) dx = 0
R
(basta osservare che l’integrando è una funzione dispari),

Z
2 1
V (X) = E(X ) = √ x2 exp(−x2 /2) dx
2π
R
" 2
#x=+∞
xe(−x /2)
Z
1 2
= − √ +√ e(−x /2) dx = 1 ;
2π 2π
x=−∞ R
resta cosı́chiarito che il significato dei due parametri in N (0, 1) è rispettivamente di speranza
e di varianza.
Si dice che una v.a. Y ha legge normale di parametri m e σ con m ∈ R e σ > 0, o che
Y è N (m, σ 2 ) (e si scriverà Y ∼ N (m, σ 2 )) se Y è assolutamente continua ed ha densità
(x − m)2

1
ϕN (m,σ2 ) (x) = √ exp − (x ∈ R) .
2π σ 2σ 2
Mediante un semplice cambio di variabile (y = (x − m)/σ) e l’uso della (2.3.2), si mostra

che ϕN (m,σ2 ) è una densità di probabilità; nella stessa maniera si prova che E(Y ) = m e che
V (X) = σ 2 .
La f.r. Φ della legge N (0, 1) non può essere scritta esplicitamente; essa si trova tabulata
in apposite tavole per valori positivi dell’argomento (si vedano gli esercizı̂). A tali tavole si
può ricorrere anche per la legge N (m, σ 2 ) perché
Z x
(t − m)2

1
FN (m,σ2 ) (x) = √ exp − dt
σ 2π −∞ 2σ 2
Z x−m
1 σ
−s2 /2 x−m
=√ e ds = Φ .
2π −∞ σ
L’importanza della legge normale deriva soprattutto dal teorema del limite centrale, il primo
esempio del quale, anche storicamente, è dato dal teorema di de Moivre–Laplace che si
incontrerà nella sezione 7. La legge normale trova innumerevoli applicazioni nella statistica
e in molte scienze sperimentali.
Esempio 2.3.2. (Legge uniforme). Una v.a. X ha legge uniforme su un boreliano A,
necessariamente limitato, della retta reale R se ha densità data da
1A (x)
f (x) = . (2.3.3)
λ(A)
Solitamente il boreliano A è un intevallo A = (a, b) per il quale non occorre specificare se

gli estremi appartengano o no all’intervallo stesso, poiché la misura di Lebesgue attribuisce
misura nulla ad ogni punto di R. Naturalmente, la (2.3.3) ha significato anche in altri
contesti ove A è un insieme misurabile di uno spazio (Ω, F, λ), ove λ non è necessariamente
la misura di Lebesgue.
La legge uniforme nel caso continuo corrisponde alla distribuzione uniforme ( n1 , . . . , n1 )
nel caso discreto.
2.3. ESEMPÎ 73
Esempio 2.3.3. (Legge di Cauchy). Una v.a. X ha legge di Cauchy con parametri α e β
ove α ∈ R e β > 0, e si scrive X ∼ C(α, β), se ha densità
1
f (x) = " 2 # (x ∈ R) . (2.3.4)
x−α
πβ 1 +
β
Si controlla subito che la (2.3.4) è una densità di probabilità; infatti, è f (x) > 0 per ogni
x ∈ R, e
Z Z
1 dx
f dx = 2
πβ

x−α
R R 1+
β
Z
1 1 +∞
= (1 + t2 )−1 dt = [arctan t]−∞ = 1.
π π
R
La legge di Cauchy è spesso usata per fornire controesempı̂; il piú semplice è di fornire
l’esempio di una legge che non ammette speranza finita. Infatti, se α = 0 e β = 1, si ha
|x|
Z Z
1 1 x
E(|X|) = 2
dx = 2 dx
π 1+x π 1 + x2
R R
1 +∞
= ln(1 + x2 ) 0 = +∞ ,
π
sicché la speranza non esiste finita.
Esempio 2.3.4. (Leggi gamma). La funzione gamma di Eulero Γ : ]0, +∞[ → R è definita
da Z +∞
Γ(t) := xt−1 e−x dx (t > 0) .
0
Prima di introdurre le leggi gamma, è opportuno dare alcune delle proprieà della funzione
gamma che servono per la probabilità.
Z +∞
x=+∞
e−x dx = −e−x x=0 = 1 .

Γ(1) = (2.3.5)
0
√
Mediante il cambio di variabile t = x si calcola l’integrale
Z +∞ x Z +∞ Z +∞
1 e −t2 2 √
Γ = √ dx = 2 e dt = e−t dt = π . (2.3.6)
2 0 x 0 −∞
La piú importante , e piú famosa, proprietà della funzione gamma è data dalla seguente
relazione che si ottiene mediante integrazione per parti. Si supponga t > 1; allora
Z +∞ Z +∞
t−1 −x
t−1 −x x=+∞
Γ(t) = x e dx = −x e x=0
+ (t − 1) xt−2 e−x dx ,
0 0
e poiché il contributo del primo termine è nullo, si ha
Γ(t) = (t − 1) Γ(t − 1) (t > 1) . (2.3.7)
Come conseguenza delle (2.3.7) e (2.3.5) si ha per un naturale n
Γ(n) = (n − 1) Γ(n − 1) = (n − 1)(n − 2) Γ(n − 2) = . . .

= (n − 1)(n − 2) . . . 2 Γ(1) = (n − 1)! ,
sicché la funzione gamma costituisce una generalizzazione del fattoriale.

Una v.a. X ha legge gamma di parametri α > 0 e θ > 0 se ha densità su R+ data da
θα α−1 −θ x
f (x) = x e 1R+ (x) .
Γ(α)
Si scrive allora che X ∼ Γ(θ, α). La speranza di una v.a. di legge Γ(θ, α) è, ricorrendo al
cambio di variabile u = θ x,
Z +∞ Z +∞
θα θα 1
E(X) = xα e−θ x dx = uα e−u dx
Γ(α) 0 Γ(α) θα+1 0
Γα + 1 α Γ(α) α
= = = .
θ Γ(α) θ Γ(α) θ
Per il calcolo della varianza si calcoli il momento del secondo ordine e si proceda come
appena fatto
Z +∞ Z +∞
θα θα 1
E X2 = xα+1 e−θ x dx = uα+1 e−u dx

Γ(α) 0 Γ(α) θα+2 0
Γ(α + 2) (α + 1) Γ(α + 1) (α + 1) α Γ(α) (α + 1) α
= 2 = = = ;
θ Γ(α) θ2 Γ(α) θ2 Γ(α) θ2
pertanto la varianza è
(α + 1) α α2 α
V (X) = 2
− 2 = 2.
θ θ θ
Si dice che una v.a. X positiva ha legge esponenziale di parametro θ > 0, e si scrive
(anche) X ∼ Exp(θ) se la sua densità di probabilità è
f (x) = θ e−θ x 1R+ (x). (2.3.8)
Si controlla subito che la (2.3.8) definisce una densità di probabilità. La distribuzione

esponenziale (2.3.8) è una particolare legge gamma, la Γ(θ, 1). Segue da quanto detto sopra
che la media e la varianza di X sono date rispettivemente dd
1 1
E(X) = e da V (X) = .
θ θ2
Una v.a. X che abbia legge esponenziale condivide con la legge geometrica (quest’ultima
nel caso discreto, come si è visto) la proprietà dell’assenza di memoria. Sia X ∼ Γ(θ, 1) con
θ > 0 e si consideri, per s, t > 0, la probabilità condizionata
P(X > s + t, X > s) P(X > s + t)
P(X > s + t | X > s) = = . (2.3.9)
P(X > s) P(X > s)
Ora Z +∞ x+∞
e−θ x dx = −e−θ x x=u = e−θ u ,

P(X > u) = θ
u
sicché, sostituendo nella (2.3.9), si ha
e−θ (s+t)
P(X > s + t | X > s) = = e−θ t = P(X > t) ,
e−θ s
ciò che prova l’asserto.
Esempio 2.3.5. (Leggi beta). Se α e β sono numeri strettamente positivi e se la funzione
beta B è definita da
Z 1
B(α, β) := xα−1 (1 − x)β−1 dx (α, β > 0) .
0
2.3. ESEMPÎ 75
Come nell’esempio precedente è necessario disporre di alcune proprietà della funzione beta.
Mediante la sostituzione y = 1 − x si ha
Z 1 Z 1
B(α, β) := xα−1 (1 − x)β−1 dx = y β−1 (1 − y)α−1 dx = B(β, α) ,
0 0
sicché una funzione beta è simmetrica nei sui argomenti, B(α, β) = B(β, α).
La legge beta di parametri α e β è individuata dalla densità
xα−1 (1 − x)β−1
f (x) = 1(0,1) (x) .
B(a, b)
Se una v.a. X ha legge beta di parametri α e β si scrive X ∼ B(α, β).
Si ricorra alla sostituzione x = sin2 θ per ottenere la relazione
Z 1 Z π/2
B(α, β) := x α−1
(1 − x) β−1
dx = 2 sin2α−1 θ cos2β−1 θ dθ . (2.3.10)
0 0
Per il calcolo dei momenti della legge beta è ancora necessario disporre del legame tra la
funzione beta e le funzioni gamma. Per α > 0 e β > 0 si calcoli, mediante le sostituzioni
x = u2 e y = v 2 ,
Z +∞ Z +∞
α−1 −x
Γ(α) Γ(β) = x e dx y β−1 e−y dy
0 0
Z +∞ Z +∞
2α−1 −u2 2
=4 u u du v 2β−1 e−v dv
Z 0 0
2α−1 2β−1 −(u2 +v 2 )
= u v e du dv .
R2+
In quest’ultimo integrale si passi a coordinate polari, u = ρ cos θ e v = ρ sin θ, per ottenere

Z π/2 Z +∞
2
Γ(α) Γ(β) = 4 sin2α−1 θ cos2β−1 θ dθ ρ2α+2β−1 e−ρ dρ
0 0
!
Z +∞ Z π/2
2
= 2 ρ2α+2β−1 e−ρ dρ 2 sin2α−1 θ cos2β−1 θ dθ
0 0
Z +∞
= B(α, β) ξ α+β−1 e−ξ dξ = B(α, β) Γ(α + β) .
0
Negli ultimi passaggi si è usata la (2.3.10) e la sostituzione ξ = ρ2 .

Possiamo ra clacolare i momenti di una legge beta. Per la v.a. X ∼ B(α, β) la speranza
è
Z 1
1 B(α + 1, β)
E(X) = xα (1 − x)β−1 dx =
B(α, β) 0 B(α, β)
Γ(α + 1) Γ(β) Γ(α + β) α Γ(α) Γ(α + β) α
= = = .
Γ(α + β + 1) Γ(α) Γ(β) (α + β) Γ(α + β) Γ(α) α+β
Nello stesso modo si può calcolare il momento del second ordine.
Z 1
1 B(α + 2, β)
E(X 2 ) = xα+1 (1 − x)β−1 dx =
B(α, β) 0 B(α, β)
Γ(α + 2) Γ(β) Γ(α + β) (α + 1) Γ(α + 1) Γ(α + β)
= =
Γ(α + β + 2) Γ(α) Γ(β) (α + β + 1) Γ(α + β + 1) Γ(α)
(α + 1) α Γ(α) Γ(α + β) (α + 1) α
= = .
(α + β + 1)(α + β) Γ(α + β) Γ(α) (α + β + 1)(α + β)
La varianza di X è, perciò,
(α + 1) α α2
V (X) = E(X 2 ) − E2 (X) = −
(α + β + 1)(α + β) (α + β)2
αβ
= .
(α + β + 1)(α + β)2
Si noti che tutte le altre leggi di probabilità introdotte in questa sezione, e si tratta di
quelle piú frequenti nelle applicazioni, sono diverse da zero su un insieme illimitato, le
leggi beta e uniforme sono eguali a zero fuori di un insieme compatto. Che, poi, questo
insieme compatto sia l’intervallo unitario [0, 1] nel caso delle leggi beta è questione alla
quale si rimedia facilmente mediante un cambio di variabile. Per esempio, si controlla
immediatamente che la funzione f : (a, b) → R+ definita da
α−1 β−1
1 x−a b−x
f (x) = 1(a,b) (x)
B(α, β) (b − a) b−a b−a
è una densità di probabilità che è nulla fuori dell’intervallo [a, b].
Esempio 2.3.6. (Legge di Student). Una v.a. X ha legge t di Student di parametro n > 0
(e si dice allora che X ha n gradi di libertà) se ha densità

n+1
Γ − n+1
x2

1 2 2
f (x) = √ n 1+ . (2.3.11)

nπ Γ n
2
Si noti che per n = 1 la legge di Student (2.3.11) coincide con la distribuzione di Cauchy di
parametri α = 0 e β = 1.
Esempio 2.3.7. (La legge del χ2 =chi quadro). Tale legge su R+ è individuata dalla densità
x
x(n/2)−1 exp − 2
f (x) = 2σ (x > 0) .
2n/2 σ n Γ(n/2)
Se una v.a. X ha legge del chi quadro si scrive che X ∼ χ2 (n, σ); si osservi che, allora, è
X ∼ Γ( 2σ1 2 , n2 ).
Esempio 2.3.8. (La legge χ). La legge χ(n, σ) di parametri n e σ > 0 ha densità
2(n/2)n/2 n−1 −(nx2 /2σ2 )

f (x) = x e (x > 0) . (2.3.12)
σ n Γ(n/2)
√
Se nella (2.3.12)
p si pone n = 2 e σ = α 2 si ottiene la legge di Rayleigh; ponendo invece
n = 3 e σ = α 3/2, si ha la legge di Maxwell. Entrambe trovano uso in fisica.
Esempio 2.3.9. (Legge F ). La legge F di parametri n e s con n ∈ N e s ∈ N ha densità

n
Γ[(n + s)/2] n n/2 x 2 −1
f (x) = n+s (x > 0) . (2.3.13)
Γ(n/2) Γ(s/2) s n 2
1+ x
s
Questa legge è usata in Statistica.

2.4. PROBABILITÀ GEOMETRICHE 77
Figura 2.1: Il lancio dell’ago.
2.4 Probabilità geometriche

Si parla di probabilità geometriche quando si abbia una legge uniforme sopra un insieme
misurabile, di misura di Lebesgue finita in Rn ; in tal caso, la probabilità dell’insieme in
esame viene ad essere eguale al rapporto tra la sua misura e la misura del supporto della
densità di probabilità uniforme. Poiché il campo delle probabilità geometriche è diventato
un capitolo a sé del Calcolo delle Probabilità (e della Geometria) ci limitiamo ad alcuni
esempı̂ classici e semplici.
Esempio 2.4.1. (Il problema dell’ago di Buffon). Sopra un piano è tracciato un fascio di
rette parallele che distano 2a l’una dall’altra. Sul piano si lascia cadere “a caso” un ago,
che si suppone omogeneo, di lunghezza 2l. Si chiede di calcolare la probabilità p che l’ago
intersechi una delle rette tracciate sul piano. Per evitare la possibilità di piú intersezioni,
si suppone che sia l < a. L’espressione “a caso” ha sempre il significato di distribuzione
uniforme; mentre ciò è chiaro quando l’insieme Ω è finito, come nei giochi di carte o in una
serie finita di lanci di una moneta, nel caso in esame la dizione “a caso” ha bisogno di essere
precisata. Si può fissare la posizione dell’ago rispetto all’insieme delle rette anziché rispetto
ad una retta particolare, mediante due coordinate, la distanza x del punto medio dell’ago
dalla retta piú vicina e l’angolo acuto θ che la direzione dell’ago forma con quella della retta.
Lasciar cadere “a caso” l’ago significa supporre distribuzioni uniformi per x nell’intervallo
(0, a) e per θ nell’intervallo (0, π/2). L’ago interseca una retta quando, e solo allora che,
è verificata la diseguaglianza x ≤ l sin θ. Nel piano dei parametri (θ, x) che si suppongono
indipendenti, l’insieme dei punti ai quali corrisponde un’intersezione è quello situato sotto
la sinusoide di equazione x = l sin θ.
La probabilità p d’avere un’intersezione è dunque
Z π/2
2 2l π/2 2l
p= l sin θ dθ = [− cos θ]0 = .
πa 0 πa πa
Tale formula si presta alla determinazione “sperimentale” di π: supposto, infatti, di aver

ottenuto m intersezioni in n lanci, si ha π ' 2ln
am . La tabella che segue riporta i risultati di
alcuni esperimenti effettivamente compiuti.
Nome n valore “sperimentale” di p

Wolff (1850) 5000 3.1596
Smith (1855) 3204 3.1553
Fox (1894) 1120 3.1419
Lazzarini (1901) 3408 3.1415329.
Figura 2.2: È fissato un vertice.
I risultati di Fox e di Lazzarini sono poco affidabili. Infatti si consideri la differenza tra i
valori corrispondenti a m e m + 1 del numero di intersezioni
a(m + 1) am a l 1
− = > = > 0.0001
2ln 2ln 2ln 2ln 2n
se n < 5000.
Esempio 2.4.2. (Il paradosso di Bertrand). Nella seconda metà dell’Ottocento, quando il
Calcolo delle Probabilità non aveva ancora avuto una sistemazione soddisfacente, Bertrand
pose la seguente domanda: Qual è la probabilità che tracciando a caso una corda in una
circonferenza di raggio r, questa abbia lunghezza maggiore di quella del lato l del triangolo
equilatero inscritto nella circonferenza?
A questa domanda Bertrand dette risposte differenti.
Prima risposta: Per evidenti ragioni di simmetria si può fissare un estremo della corda
in un punto qualsiasi della circonferenza; la corda avrà lunghezza maggiore di l se cadrà
nell’angolo del triangolo equilatero che ha un vertice nell’estremo fissato. Poiché si traccia
una corda a caso, si supporrà una distribuzione uniforme degli angoli; la probabilità cercata
è dunque p1 = 1/3 (si veda la Fig. 2.2).
Seconda risposta: Poiché tutte le direzioni sono equivalenti si può immaginare che la
corda sia parallela ad uno dei lati del triangolo. La distanza di ogni lato di un triangolo
equilatero dal centro della circonferenza nella quale è inscritto è di r/2. Ora la lunghezza
della corda sarà maggiore di l se, e solo se, essa dista dal centro della circonferenza meno di
r/2
r/2. La probabilità cercata è dunque p2 = = 1/2 (si veda la Fig. 2.3).
r
Terza risposta: La lunghezza della corda sarà maggiore di l se il suo punto medio dista
dal centro meno di r/2, vale a dire, se il suo punto medio cade all’interno del cerchio di
raggio r/2 e centro coincidente con quello della cinconferenza data. La probabilità cercata
πr2 /4
è data allora dal rapporto tra le aree dei due cerchi ed è perciò p3 = = 1/4.
πr2
Qual è allora la risposta corretta alla domanda posta da Bertrand?

L’origine del paradosso sta nel fatto che l’espressione “a caso” non è precisata, tanto che
sopra si sono viste tre diverse interpretazioni di tale espressione giungendo a tre risposte
differenti; precisando cosa si intenda si individua anche la risposta corretta, poiché sopra
si hanno tre maniere diverse di tracciare “a caso” una corda: tenendo fisso un estremo,
tenendo fissa la sua direzione, guardando alla posizione del suo punto medio.
2.4. PROBABILITÀ GEOMETRICHE 79
Figura 2.3: È fissata una direzione.
Figura 2.4: Si guarda al punto medio della corda.

2.5 Vettori aleatorı̂

Dato lo spazio di probabilità (Ω, F, P), si dice vettore aleatorio un vettore X = (X1 , . . . , Xn )
dove Xj : Ω → R è una variabile aletoria. Nel seguito ci limiteremo al caso n = 2, vale a
dire al vettore aleatorio (X1 , X2 ). La funzione di ripartizione (X1 , X2 ) è definita da
\
F(X1 ,X2 ) (s, t) := P(X1 ≤ s, X2 ≤ t) = P {X1 ≤ s} {X2 ≤ t} .
Prime di stabilire le proprietà della funzione di ripartizione di un vettore aleatorio

(X1 , X2 ) che sono raccolte nel successivo Teorema 2.5.1, conviene dimostrare il seguente
Lemma 2.5.1. La probabilità P ((X1 , X2 ) ∈ R) che il vettore aleatorio (X1 , X2 ) assuma
valori nel rettangolo R = ]a, b] × ]c, d] è data da
P ((X1 , X2 ) ∈ ]a, b] × ]c, d]) = F (b, d) − F (b, c) − F (a, d) + F (a, c) .
Dimostrazione. Il risultato discende dalla considerazione del significato di F (s, t).

Teorema 2.5.1. La f.r. F di un vettore aleatorio (X1 , X2 ) gode delle seguenti proprietà:
(a) Per ogni t ∈ R lims→∞ F (s, t) = 0 e per ogni s ∈ R, limt→∞ F (s, t) = 0;
(b) lim F (s, t) = 1;
min{s,t}→+∞
(c) F è continua a destra in ogni variabile: per ogni t ∈ R la funzione s 7→ F (s, t) è

crescente e, per ogni s ∈ R, la funzione t 7→ F (s, t) è crescente;
(d) per ogni rettangolo R = ]a, b] × ]c, d], vale la diseguaglianza
F (b, d) − F (b, c) − F (a, d) + F (a, c) ≥ 0. (2.5.1)
Dimostrazione. (a) Basta osservare che, fissato s ∈ R e posto F2 := FX2 , si ha
F (s, t) = P(X1 ≤ s, X2 ≤ t) ≤ P(X2 ≤ t) = F2 (t),
e com’è per le funzioni di ripartizione di una variabile aleatoria si ha
0 = lim F2 (t) ≥ lim F (s, t) ≥ 0 .

t→−∞ t→−∞
Analogamente si mostra che

lim F (s, t) = 0.
s→−∞
La dimostrazione dei punti (b) e (c) è del tutto analoga a quella del Teorema 2.2.1.
(d) Dal Lemma 2.5.1 si ha
P ((X1 , X2 ) ∈ ]a, b] × ]c, d]) = F (b, d) − F (b, c) − F (a, d) + F (a, c) ,
quest’ultima combinazione è necessariamente positiva.

Con un abuso di notazione si possono semplificare alcune delle formule che si sono
incontrate; si scriverà
F (−∞, t) := lim F (s, t) e F (s, −∞) := lim F (s, t) ,

s→−∞ t→−∞
e, analogamente
F (+∞, t) := lim F (s, t) F (s, +∞) := lim F (s, t) ,

s→+∞ t→+∞
F (+∞, +∞) := lim F (s, t) .

min{s,t}→+∞
2.5. VETTORI ALEATORÎ 81
Si osservi che la condizione (d) del precedente Teorema è piú forte della condizione che
potrebbe sembrare la naturale generalizzazione della condizione di isotonia delle funzioni di
ripartizione semplici (cioè di una sola variabile aleatoria). Si supponga che sia a < a0 e sia
t ∈ R. La (d) del Teorema 2.5.1 assicura che, per ogni s < t, valga la diseguaglianza
F (a0 , t) − F (a, t) − F (a0 , s) + F (a, s) ≥ 0 ;
si faccia tendere s a −∞, per ottenere
∀t ∈ R F (a0 , t) ≥ F (a, t).
Analogamente si dimostra che t 7→ F (s, t) è isotona per ogni s ∈ R.

Esempio 2.5.1. Si consideri la funzione ϕ : R2 → [0, 1] definita da
(
1, x + y ≥ 1,
ϕ(x, y) =
0, x + y < 0 .
È immediato controllare che ϕ soddisfà alle proprietà, (a), (b) e (c). Per mostrare che ϕ
non soddisfà alla (d), basta considerare un rettangolo con tre vertici posti nel semipiano
x + y ≥ 0 e uno nel semipiano x + y < 0 per trovare che la “probabilità” di tale rettangolo
è −1! Pertanto ϕ non può essere una funzione di ripartizione.
Le funzioni s 7→ F1 (s) := F (s, +∞) e t 7→ F2 (t) := F (+∞, t) sono le funzioni di
ripartizione delle v.a. X1 e X2 , rispettivamente, e si dicono funzioni di ripartizione marginali
di F .
Definizione 2.5.1. Due variabili aleatorie X1 e X2 definite sullo stesso spazio di probabilità
(Ω, F, P) si dicono (stocasticamente) indipendenti (rispetto alla probabilità P), se, comunque
si scelgano t1 e t2 in R, si ha
P(X1 ≤ t1 , X2 ≤ t2 ) = P(X1 ≤ t1 ) P(X2 ≤ t2 ) . (2.5.2)

La (2.5.4) si può scrivere nella forma equivalente, valida per ogni s ∈ R e per ogni t ∈ R
F (s, t) = F1 (s) F2 (t) , (2.5.3)
o, anche nella forma F = F1 ⊗ F2 senza indicare gli argomenti. La fattorizzazione della

funzione di ripartizione congiunta F = F1 ⊗ F2 equivale all’indipendenza delle v.a. X1 e X2 .
Vale la pena osservare che le funzioni misurabili di variabili aleatorie indipendenti sono
ancora indipendenti. È questo il contenuto del prossimo teorema.
Teorema 2.5.2. Nello spazio di probabilità (Ω, F, P) siano X1 e X2 indipendenti e siano
misurabili le funzioni ϕ1 , ϕ2 : R → R. Sono allora indipendenti le variabili aleatorie ϕ1 ◦ X1
e ϕ2 ◦ X2 .
Dimostrazione. Siano A e B due boreliani; allora
P (ϕ1 ◦ X1 ∈ A, ϕ2 ◦ X2 ∈ B) = P (ϕ1 ◦ X1 )−1 (A), (ϕ2 ◦ X2 )−1 (B)

= P X1−1 ϕ−1 −1
ϕ−1

1 (A) , X2 2 (B)
= P X1−1 ϕ−1
−1 −1
1 (A) P X2 ϕ2 (B)
= P (ϕ1 ◦ X1 )−1 (A) P (ϕ2 ◦ X2 )−1 (B) ;

si è qui fatto uso della misurabilità di ϕ1 e ϕ2 , poiché gli insiemi ϕ−1 −1

1 (A) e ϕ2 (B) sono
entrambi boreliani.
In queste lezioni considereremo, oltre i vettori aleatorı̂ discreti, che sono stati studiati nel
precedente capitolo, i vettori assolutamente continui. Ci limiteremo, di solito, a considerare
il caso bidimensionale, anche se alcuni risultati si lasciano estendere facilmente.
Definizione 2.5.2. Si dice densità di probabilità congiunta ogni funzione f : R2 → R tale
che
(a) f sia positiva, ∀ x ∈ R2 f (x) ≥ 0;
(b) f sia integrabile;
(c) l’integrale di f esteso a tutto R2 sia eguale a 1:
Z
f (x) dx = 1 .
R
Il vettore aleatorio (X1 , X2 ) definito sullo spazio di probabilità (Ω, F, P) si dice assoluta-
mente continuo se esiste una densità di probabilità f tale che la funzione di ripartizione
congiunta F di (X1 , X2 ) possa essere espressa nella forma
Z s Z t Z t Z s
F (s, t) = dx f (x, y) dy = dy f (x, y) dx . (2.5.4)
−∞ −∞ −∞ −∞
L’ordine d’integrazione nella (2.5.4) è irrilevante in virtú di teoremi che si vedranno in

altri corsi; pertanto si può, di volta in volta, adottare l’ordine che risulti piú comodo per
eseguire i calcoli.
Se un vettore aleatorio (X1 , X2 ) è assolutamente continuo anche le sue funzioni di
ripartizione marginali sono assolutamente continue. Infatti, scende dalla (2.5.4)
Z s Z +∞ Z s
F1 (s) = F (s, +∞) = dx f (x, y) dy = f1 (x) dx ,
−∞ −∞ −∞
ove si è posto Z +∞
f1 (x) := f (x, y) dy , (2.5.5)
−∞
che si dice densità marginale di X1 . Analogamente si ha
Z t Z +∞ Z t
F2 (t) = F (+∞, t) = dy f (x, y) dx = f2 (y) dy ,
−∞ −∞ −∞
con Z +∞
f2 (y) := f (x, y) dx , (2.5.6)
−∞
che è la densità marginale di X2 .
Data una funzione di ripartizione F della quale si sappia che è assolutamente continua, la
sua densità di probabilità f si può determinare mediante derivazione: si ha, con l’eccezione
di alcuni punti che hanno complessivamente misura nulla 1
∂ 2 F (s, t) ∂ 2 F (s, t)
f (s, t) = = . (2.5.7)
∂s∂t ∂t∂s
La natura delle funzioni che compaiono assicura che l’ordine nel quale si effettuano le
derivazioni è irrilevante.
Si supponga ora che di avere un vettore aleatorio X = (X1 , X2 ) assolutamente continuo
di densità f . Vale il seguente risultato.
1 Si vedrà in altri corsi il significato preciso di questa frase. Diremo nel seguito che la proprietà espressa
dalla (2.5.7) vale quasi ovunque o per quasi tutti i punti di R2 .

2.5. VETTORI ALEATORÎ 83
Corollario 2.5.1. Se il vettore aleatorio X = (X1 , X2 ) è assolutamente continuo, sono

equivalenti le seguenti proprietà:
(a) X1 e X2 sono indipendenti;
(b) tra la densità f di X e le densità fi di Xi (i = 1, 2) intercorre la relazione, valida per
quasi tutti i punti R2 ,
f (x1 , x2 ) = f1 (xi ) f2 (x2 ) . (2.5.8)
Dimostrazione. (a) =⇒ (b) Basta applicare la (2.5.7) alla (2.5.3).

(b) =⇒ (a) Basta integrare la (2.5.8) su R2 sull’insieme
]−∞, x1 ] × ]−∞, x2 ]
per ottenere la (2.5.3).

In analogia con la notazione introdotta sopra la (2.5.8) si può scrivere, senza indicare gli
argomenti, nella forma
f = f1 ⊗ f2 .
Esempio 2.5.2. Sia X = (X1 , X2 ) un vettore aleatorio con legge uniforme sul cerchio
unitario C = {(x, y) : x2 + y 2 ≤ 1}. Vogliamo trovare le leggi marginali di X1 e X2 . La
densità di X è
1
f (x, y) = 1C (x, y) .
π
Se x non appartiene all’intervallo [−1, 1], allora f1 (x) = 0. invece per x ∈ ]−1, 1[ la densità
congiunta f è diversa da zero se, e solo se, y cade nell’intervallo
p p
(− 1 − x2 , 1 − x2 ) ;
perciò, la densità f1 è data, per tali valori di x, da

√
Z 1−x2
1 2p
f1 (x) = √ dy = 1 − x2 ,
π − 1−x2 π
sicché si può scrivere

2p
1 − x2 1(−1,1) (x) .
f1 (x) =
π
Per ovvie ragioni di simmetria, l’altra densità marginale è
2p
f2 (y) = 1 − y 2 1(−1,1) (y) .
π
Poiché la (2.5.8) non è verificata X1 e X2 non sono indipendenti. A tale risultato si sarebbe
potuti giungere direttamente senza calcolare le marginali; sarebbe bastato osservare che
l’insieme, il cerchio C, fuori del quale la densità assegnata è diversa da zero non è un
prodotto cartesiano, come serebbe dovuto essere se la (2.5.8) fosse stata soddisfatta.
Esempio 2.5.3. Si consideri la funzione f : R2 → R+ definita da
1
f (x1 , x2 ) = p exp(−Q(x1 , x2 )) , (2.5.9)
2πσ1 σ2 1 − ρ2
ove
(x1 − m1 )2 (x1 − m1 ) (x2 − m2 ) (x2 − m2 )2

1
Q(x1 , x2 ) := − ρ + .
1 − ρ2 2σ12 σ1 σ2 2σ22
In questa espressione m1 e m2 sono parametri reali, σ1 e σ2 sono strettamente positivi e ρ
appartiene all’intervallo ]−1, 1[. Vogliamo
• mostrare che la (2.5.9) definisce effettivamente una densità di probabilità;

• calcolarne le densità marginali;
• determinare il significato probabilistico dei cinque parametri che vi compaiono.
Per dimostrare che la (2.5.9) definisce una densità di probabilità basta far vedere che le sue
marginali sono a loro volta densità di probabilità. Per semplificare la notazione si ponga
x1 − m1 x2 − m2
x= e y= ,
σ1 σ2
e si sostituisca y = (x2 − m2 )/σ2 . Si ha, allora, completando il quadrato che compare nel
primo integrale,
x2
Z
1 1 2

f1 (x1 ) = exp − exp − y − ρ xy dy
2 (1 − ρ2 ) 2(1 − ρ2 )
p
2πσ1 1 − ρ2 R
x2 ρ2 x2

1
= exp − +
2 (1 − ρ2 ) 2 (1 − ρ2 )
p
2πσ1 1 − ρ2
Z
1 2
× exp − (y − ρ x) dy
R 2(1 − ρ2 )
2 !
(y − ρ x)2
Z
1 x 1
=√ exp − √ p exp − dy
2πσ1 2 2π 1 − ρ2 R 2(1 − ρ2 )
(x1 − m1 )2

1
=√ exp − ,
2πσ1 2σ12
ove abbiamo usato l’eguaglianza
(y − ρ x)2
Z
1
√ p exp − dy = 1 ,
2π 1 − ρ2 R 2(1 − ρ2 )
che scende dalla constatazione che si integra su tutto R la densità della legge N (ρ x, 1 − ρ2 ).
Abbiamo cosı́ trovato che la marginale di f è la densità della legge N (m1 , σ12 ). Per
la simmetria dell’espressione di f è ovvio che l’altra marginale è la densità della legge
N (m2 , σ22 ); sappiamo ora che la funzione data è una densità di probabilità, che si dice
normale doppia. Si noti anche che abbiamo trovato il significato dei parametri m1 , m2 , σ1
e σ2 . Rimane da stabilire il significato del parametro ρ, ciò che sarà fatto nella prossima
sezione.
Siano X1 e X2 v.a. indipendenti. Vale il seguente risultato, analogo del Teorema 1.6.3.
Teorema 2.5.3. Se le variabili aleatorie X1 e X2 sono assoultamente continue, indipendenti
e hanno entrambe speranza finita, anche la v.a. prodotto Z := X1 X2 ha speranza finta e
vale la relazione
E(Z) = E(X1 ) E(X2 ) .
Dimostrazione. La densità del vettore aleatorio (X1 , X2 ) è f = f1 ⊗ f2 . Perciò
Z Z
E(|Z|) = |x1 x2 | f (x1 , x2 ) dx1 dx2 = |x1 x2 | f1 (x1 ) f2 (x2 ) dx1 dx2
R2 R2
Z Z
= |x1 | f1 (x1 ) dx1 |x2 | f2 (x2 ) dx2 = E(|X1 |) E(|X2 |) < +∞ ;
R R
ciò dimostra che Z ha speranza finita. Basta ora ripetere il calcolo elimando i segni di valore
assoluto per ottenere
Z Z
E(Z) = x1 x2 f (x1 , x2 ) dx1 dx2 = x1 x2 f1 (x1 ) f2 (x2 ) dx1 dx2
2 R2
ZR Z
= x1 f1 (x1 ) dx1 x2 f2 (x2 ) dx2 = E(X1 ) E(X2 ) ,
R R
2.6. LA COVARIANZA 85
che è l’asserto.
2.6 La covarianza
La covarianza, e piú ancora il coefficiente di correlazione, misura la dipendenza lineare di
due v.a..
Definizione 2.6.1. Date due v.a. X e Y di con varianza finita, si dice covarianza di X e
Y la speranza
Cov(X, Y ) := E [{X − E(X)}{Y − E(Y )}] . (2.6.1)
Le v.a. X e Y si dicono incorrelate se Cov(X, Y ) = 0.
La diseguaglianza di Schwarz assicura che la covarianza di X e di Y è finita; infatti,
poiché X e Y hanno varianza finita,
2
(Cov(X, Y )) ≤ E {X − E(X)}2 E {Y − E(Y )}2

= V (X) V (Y ) < +∞ .
Dalla (2.6.1) scende la seguente espressione, utile per il calcolo effettivo della covarianza,
Cov(X, Y ) = E(XY ) − E(X) E(Y ) .
Date le v.a. X1 , . . . , Xn , tutte con la varianza finita, si chiama matrice di varianza–cova-

rianza la matrice, n × n, V i cui elementi sono definiti da
vii := V (Xi ), vij := Cov(Xi , Xj ) (i 6= j) .
Teorema 2.6.1. Nelle condizioni

Pn di questa sezione, se c1 , c2 , . . . , cn sono numeri reali e
la v.a. Z è definita da Z := i=1 ci Xi , si ha
n
X
V (Z) = ci cj vij .
i,j=1
Dimostrazione. Non è restrittivo supporre che le v.a. Xi siano centrate, cioè che sia E(Xi ) =
0 per ogni indice i in {1, . . . , n}; se non lo fossero, basterebbe considerare le v.a. Xi0 :=
Xi − E(Xi ). Allora, E(Z) = 0 e
 !2   ! n 
X n Xn X
V (Z) = E  ci Xi  = E  ci Xi  cj Xj 
i=1 i=1 j=1
n
X n
X
= ci cj E(Xi Xj ) = ci cj vij ,
i,j=1 i,j=1
cioè l’asserto.
Sono immediati i corolları̂
Corollario 2.6.1. La matrice di covarianza è semidefinita positiva.
Corollario 2.6.2. Si ha V (X + Y ) = V (X) + V (Y ) + 2 Cov(X, Y ).
Corollario 2.6.3. Per due v.a. X e Y che abbiano varianza finita sono equivalenti le
asserzioni:
(a) X e Y sono incorrelate;
(b) E(XY ) = E(X) E(Y );
(c) V (X + Y ) = V (X) + V (Y ).
È conseguenza immediata del Teorema 2.5.3 che v.a. indipendenti siano incorrelate. Non
è vero, in generale, che v.a. incorrelate siano indipendenti; si consideri l’esempio seguente.
Esempio 2.6.1. Sia X una v.a. con legge N (0, 1) e sia consideri la v.a. Y := X 2 . Queste
non sono indipendenti, poiché, se, ad esempio, X prende valori in (−1, 1) necessariamente
Y assume i valori dell’intervallo (0, 1); pertanto
P(X ∈ (−1, 1), Y ∈ (2, 4)) = 0 6= P(X ∈ (−1, 1)) P(Y ∈ (2, 4))
Z 1 Z 4
1 −x2 /2 2
= e dx y 2 e−y /2 dy > 0 .
2π −1 2
D’altro canto si ha
E(X) = 0 E(Y ) = E(X 2 ) = 1 ,
e Z
1 2
E(XY ) = E(X 3 ) = √ t3 et /2
dt = 0 ,
2π R
sicché E(XY ) = E(X) E(Y ) e le due v.a. X e Y sono incorrelate.

Se le v.a. X e Y hanno varianza finita e non sono quasi certamente costanti, ciò che
equivale a dire V (X) 6= 0 e V (Y ) 6= 0, si definisce il coefficiente di correlazione ρ(X, Y )
mediante
Cov(X, Y )
ρ(X, Y ) := ,
σ(X)σ(Y )
essendo σ(X) lo scarto quadratico medio della v.a. X (detto anche, soprattutto nelle disci-
pline sperimentali, deviazione standard ), definito come la radice quadrata, col segno positivo,
della varianza di X, p
σ(X) := V (X) .
Evidentemente
|ρ(X, Y )| ≤ 1.
Si vedrà negli esercizı̂ che il coefficiente di correlazione misura la dipendenza lineare delle
due v.a., nel senso che |ρ(X, Y )| = 1 se, e solo se, esistono due costanti reali a e b tali che
Y = aX + b.
Esempio 2.6.2. Si consideri un vettore aleatorio (X1 , X2 ) che abbia la densità normale
doppia dell’Esempio 2.5.3. Ricorrendo agli stessi metodi di quell’esempio, se può calcolare
la covarianza.
2
(y − ρ x)2
Z Z
σ σ x
Cov(X1 , X2 ) = p1 2 x exp − dx y exp − dy
2π 1 − ρ2 R 2 R 2(1 − ρ2 )
(y − ρ x)2
Z Z
σ1 σ2 x2 /2 1
= √ xe dx √ p y exp − dy
2π R R 2π 1 − ρ2 2(1 − ρ2 )
Z
σ1 σ2 2
=ρ √ x2 ex /2 dx = ρ σ1 σ2 .
2π R
Qui abbiamo usato le note relazioni
(y − ρ x)2
Z Z
1 1 2
√ p y exp − dy = ρ x e √ x2 ex /2
dx = 1 .
R 2π 1 − ρ2 2(1 − ρ2 ) 2π R
Di qui segue immediatamente il valore del coefficiente di correlazione di X1 e X2 :
ρ(X1 , X2 ) = ρ .
2.7. TRASFORMAZIONI DI VARIABILI ALEATORIE 87
Resta cosı́ acquisito il significato del parametro ρ che compare nell’espressione della densità
della legge normale doppia: è il coefficiente di correlazione. Si osservi che, se X1 e X2 sono
incorrelate, vale a dire se ρ = 0, la densità della normale doppia si scrive
(x1 − m1 )2 (x2 − m2 )2

1
f (x1 , x2 ) = exp + ,
2πσ1 σ2 2σ12 2σ22
sicché f (x1 , x2 ) = f1 (x1 ) f2 (x2 ).

Nel caso di variabili aleatorie normali si può perciò concludere che esse sono indipen-
denti se, e solo se, esse sono incorrelate. Per queste variabili aleatorie i due concetti di
indipendenza e incorrelazione coincidono.
2.7 Trasformazioni di variabili aleatorie

Se X è una v.a., che si può anche supporre vettoriale, cioè X : Ω → Rn , e se g : Rn → Rm
è sufficientemente buona 2 allora g ◦ X definisce un nuovo vettore aleatorio. Nota la legge di
X, si vuole determinare quella di Y := g ◦ X. Tale problema non ha soluzioni nella forma
generale nella quale è appena stato enunciato; ha tuttavia soluzioni parziali che dipendono
dalle ipotesi nelle quali ci si pone.
Esempio 2.7.1. Si consideri il caso scalare X : Ω → R e g : R → R, con g affine, cioè

g(x) = ax + b (a, b ∈ R). Se a = 0, FY = εb , essendo, ora e nel seguito, εb := 1[b,+∞[ la f.r.
di una v.a. quasi certamente costante a b, Y = b. Se a > 0,

y−b y−b
FY (y) = P (aX + b ≤ y) = P X ≤ = FX ;
a a
se, invece, a < 0, è

y−b y−b
FY (y) = P (aX + b ≤ y) = P X ≥ =1−P X <
a a

y−b y−b
= 1 − FX +P X = .
a a
Se X è assolutamente continua con densità f , e se a 6= 0, anche Y è assolutamente continua

e ha densità fY data da
1 y−b
fY (y) = f .
|a| a
In generale, non è vero che, se X è assolutamente continua, tale sia anche Y = g ◦ X; perché
ciò accada occorre imporre qualche restrizione alla funzione g.
Per una funzione monotona g : R → R si ponga
α0 := lim g(x), β 0 := lim g(x) ,

x→−∞ x→+∞
α := α ∧ β 0 ,
0
β := α0 ∨ β 0 .
Teorema 2.7.1. Sia g : R → R differenziabile e tale che g 0 > 0 (oppure g 0 < 0) in R. Se

X è assolutamente continua, tale è anche Y := g ◦ X; quest’ultima ha densità fY data da

−1 d −1
fY (y) = 1(α,β) (y) fX g (y) g (y) .
(2.7.1)
dy
2 Si richiede dal punto di vista tecnico che la funzione g sia misurabile; ora, il concetto di misurabilità esce
dall’ambito di queste lezioni elementari. Basterà supporre che g sia continua, eventualmente con qualche
punto di discontinuità.
Dimostrazione. Se g è crescente e se y ∈ (α, β), è
FY (y) = P(Y ≤ y) = P(g ◦ X ≤ y) = P[X ≤ g −1 (y)] = FX [g −1 (y)].
Se invece g è decrescente
FY (y) = P[X ≥ g −1 (y)] = 1 − F [g −1 (y)] .
In entrambi i casi la (2.7.1) segue per derivazione.

Si consideri, ora, il caso del vettore aleatorio assolutamente continuo X a valori in Rn
e sia g : Rn → R misurabile. In generale si ha, se X = (X1 , . . . , Xn ), f è la densità del
vettore X, e Y := g ◦ X,
Z
FY (y) = PX [(x1 , . . . , xn ) ∈ Rn : g(x1 , . . . , xn ) ≤ y] = f (x) dx ;
{g(x)≤y}
se le v.a. X1 , . . . , Xn sono indipendenti, e, quindi, f = f ⊗ · · · ⊗ fn , è

Z
FY (t) = f1 (x1 ) . . . fn (xn ) dx1 . . . dxn ,
{x∈Rn :g(x)≤t}
essendo fi la densità di probabilità della i–esima v.a. Xi (i = 1, . . . , n).

L’addizione, g(x1 , x2 ) := x1 + x2 , è un caso particolarmente importante; allora, per la
v.a. Y = X1 + X2 si ha,
Z
FY (t) = FX1 +X2 (t) = f (x1 , x2 ) dx1 dx2
{(x1 ,x2 ):x1 +x2 ≤t}
Z t−x
Z 1 Z Zt
= dx1 f (x1 , x2 ) dx2 = dx1 f (x1 , s − x2 ) ds
R −∞ R −∞
Zt Z
= ds f (x, s − x) dx,
−∞ R
sicché la somma X1 + X2 è pure assolutamente continua con densità

Z Z
fX1 +X2 (t) = f (x, t − x) dx = f (t − x, x) dx. (2.7.2)
R R
Se, inoltre, le v.a. X1 e X2 sono indipendenti si ha

Z Z
FX1 +X2 (t) = f1 (x1 ) dx1 f2 (x2 ) dx2
R ]−∞,t−x1 ]
Z
= F2 (t − x) f1 (x) dx .
R
Per derivazione si ottiene poi

Z Z
fX1 +X2 (t) = f1 (x) f2 (t − x) dx = f1 (t − x) f2 (x) dx , (2.7.3)
R R
che è l’usuale convoluzione di due funzioni integrabili,denotata da
Z
(f1 ∗ f2 )(t) := f1 (t − x) f2 (x) dx ,
R
sicché la somma di due v.a. X1 e X2 di v.a. indipendenti e assolutamente continue con

densità uguali a f1 e f2 è pure assolutamente continua ed ha densità data da
fX1 +X2 = f1 ∗ f2 .
Poiché la somma di v.a.è associativa e commutativa, si ha
f1 ∗ f2 = f2 ∗ f1 ,
f1 ∗ (f2 ∗ f3 ) = (f1 ∗ f2 ) ∗ f3 ,
ove f1 , f2 e f3 sono densità di probabilità.
Esempio 2.7.2. Si consideri la somma di due v.a. X1 e X2 indipendenti ed entrambe

uniformemente distribuite su (0, 1), Xj ∼ U(0, 1) (j = 1, 2). Poiché entrambe hanno densità
f (x) = 1(0,1) (x) .
La densità della somma è

Z
fX1 +X2 (t) = 1(0,1) (t − x) 1(0,1) (x) dx .
R
L’integrando è eguale a 0 e a 1: è eguale a 1 se , e solo se, sono verificate contemporaneamente

le diseguaglianze
0<t−x<1 e 0 < x < 1,
queste hanno soluzione
max{0, t − 1} < x < min{t, 1} .
Perciò (
min{t,1}
t ∈ (0, 1)
Z
t,
fX1 +X2 (t) = dx =
max{0,t−1} 1 − (t − 1) = 2 − t , t ∈ (1, 2) ,
mentre fX1 +X2 (t) = 0 per t ∈

/ (0, 1).
Vale il seguente
Teorema 2.7.2. Nello spazio di probabilità (Ω, F, P) siano X1 e X2 v.a. indipendenti;
(a) se Xi ∼ N (mi , σi2 ) (i = 1, 2), allora X1 + X2 ∼ N (m1 + m2 , σ12 + σ22 );
(b) se Xi ha legge binomiale di parametri ni e p (i = 1, 2), allora X1 + X2 ha legge

binomiale di parametri n1 + n2 e p; cioè Xi ∼ Bi(ni , p) (i = 1, 2) implica X1 + X2 ∼
Bi(n1 + n2 , p);
(c) se Xi ha legge di Poisson di parametro λi (i = 1, 2), cioè Xi ∼ P(λ1 ), allora X1 +X2

ha legge di Poisson di parametro λ1 + λ2 , X1 + X2 ∼ P(λ1 + λ2 );
(d) se Xi ∼ Γ(θ, αi ) (i = 1, 2), allora X1 + X2 ha legge Γ(θ, α1 + α2 ).
Dimostrazione. (a) Si ricorra alla convoluzione delle due densità, sicché, per ogni t ∈ R si
ha
(t − m1 − x)2 (x − m2 )2
Z
1
fX1 +X2 (t) = exp − − dx
2π σ1 σ2 R 2 σ2 2 σ22
Z 1
1 1
= exp − A dx ,
2π σ1 σ2 R 2
ove si è posto
x2 − 2 (t − m1 ) x + (t − m1 )2 x2 − 2 m2 x + m22
A := 2 +
σ1 σ22
σ2 + σ2 (t − m1 ) σ22 + m2 σ12 (t − m1 )2 σ22 + m22 σ12
= x2 1 2 2 2 − 2 x 2 2 + .
σ1 σ2 σ1 σ2 σ12 σ22
Con le posizioni
σ12 σ22 (t − m1 ) σ22 + m2 σ12

σ 2 := e m(t) :=
σ12 + σ22 σ12 + σ22
si può scrivere
x2 m(t) (t − m1 )2 σ22 + m22 σ12

A= − 2x 2 +
σ 2 σ σ12 σ22
1 m2 (t) (t − m1 )2 σ22 + m22 σ12
= 2 x2 − 2 m(t) x + m2 (t) − +
σ σ2 σ12 σ22
1 2 (t − m1 )2 σ22 + m22 σ12
= 2 (x − m(t)) +
σ σ12 σ22
2
(t − m1 ) σ22 + m2 σ12 σ12 + σ22
− 2 2 2
σ1 σ2 (σ12 + σ22 )
1 2
= (x − m(t))
σ2
(t − m1 )2 σ24 + m22 σ14 + 2 m2 (t − m1 ) σ12 σ22

1 2 2 2 2
+ 2 2 (t − m1 ) σ2 + m2 σ1 −
σ1 σ2 σ12 + σ22
1 2
= 2 (x − m(t))
σ
1
(t − m1 )2 σ12 σ22 + m2 σ12 σ22 − 2 m2 (t − m1 ) σ12 σ22

+ 2 2 2
σ1 σ2 (σ1 + σ22 )
2
(x − m(t)) (t − m1 − m2 )2
= + .
σ2 σ12 + σ22
Pertanto
fX1 +X2 (t)

( )Z
2
1 (x − m(t))2

1 1 (t − (m1 + m2 ))
= exp − exp − dx
2π σ1 σ2 2 σ12 + σ22 R 2 σ2
Ma ricordando l’espressione della densità di una legge N (m(t), σ 2 ) si ha
1 (x − m(t))2
Z
1
√ exp − dx = 1 ,
2π σ R 2 σ2
onde ( )
2
1 1 (t − (m1 + m2 ))
fX1 +X2 (t) = √ p 2 exp − ,
2π σ1 + σ22 2 σ12 + σ22
che è la densità di una legge N (m1 + m2 , σ12 + σ22 ).

Si noti che sin dall’inizio si sapeva che la speranza di X1 + X2 è data da m1 + m2 e che
la sua varianza è, in virtú dell’indipendenza, eguale a σ12 + σ22 ; il risultato interessante è che
anche la somma X1 + X2 ha legge normale.
(b) Poiché X1 e X2 hanno entrambe legge binomiale con lo stesso parametro p, esse si
npossono esprimere nella forma
n1
X nX
1 +n2
X1 = Zj e X2 = Zj ,
j=1 j=n1 +1
ove le variabili aleatorie Zj (j = 1, 2, . . . , n1 + n2 ) sono indipendenti e tutte di legge di

Bernoulli di parametro p, P(Zj = 1) = p. Ma allora
nX
1 +n2
X1 + X2 = Zj
j=1
è una variabile aleatoria di binomiale, X1 + X2 ∼ Bi(n1 + n2 , p).

(c) Si ha
n n
X X λj1 −λ2 λn−j
P(X1 + X2 = n) = P(X1 = j) P(X2 = n − j) = e−λ1 e 2
j=0 j=0
j! (n − j)!
−(λ1 +λ2 ) n
e X n n (λ1 + λ2 )n
= λj1 λ2 j = e−(λ1 +λ2 ) .
n! j=0
j n!
(d) La convoluzione delle densità f1 e f2 di X1 e X2 , rispettivamente, dà, per t > 0,
f X1 +X2 (t)
θα1 θα2
Z
= (t − x)α1 −1 xα2 −1 e−θ (t−x) e−θ x 1(0,+∞) (t − x) 1(0,+∞) (x) dx
Γ(α1 ) Γ(α2 ) R
Z t
θα1 +α2
= e−θ t (t − x)α1 −1 xα2 −1 dx
Γ(α1 ) Γ(α2 ) 0
Z t
θα1 +α2 −θ t α1 −1 x α1 −1 α2 −1
= e t 1− x dx
Γ(α1 ) Γ(α2 ) 0 t
Z 1
θα1 +α2
= e−θ t tα1 −1 tα2 −1 t uα2 −1 (1 − u)α1 −1 du
Γ(α1 ) Γ(α2 ) 0
θα1 +α2 θα1 +α2
= tα1 +α2 −1 e−θ t B(α2 , α1 ) = tα1 +α2 −1 e−θ t ,
Γ(α1 ) Γ(α2 ) Γ(α1 + α2 )
sicché
θα1 +α2
fX1 +X2 (t) = tα1 +α2 −1 e−θ t 1(0,+∞) (t) ,
Γ(α1 + α2 )
vale a dire X1 + X2 ∼ Γ(θ, α1 + α2 ).
Con strumenti piú raffinati si può dimostrare inoltre che, se Xi ha legge di Cauchy con
parametri αi e βi (i = 1, 2), allora X1 + X2 ha legge di Cauchy con parametri α1 + α2 e
β1 + β2 .
È talvolta utile il seguente
Teorema 2.7.3. Sia X : Ω → Rn un vettore aleatorio con densità continua f . Sia g :

Rn → R continua e si supponga che esista una funzione ϕ : R → R tale che g(x) = y
implichi f (x) = ϕ(y). In tali ipotesi la v.a. Y = g ◦ X è assolutamente continua e ha
densità fY : R → R+ data da
fY (y) = ϕ(y) Vg0 (y)
ove Vg è il volume racchiuso dalla superficie g = y:

Z
Vg (y) := dx.
{x∈Rn :g(x)≤y}
Dimostrazione. Si ponga B(y; ε) := {x ∈ Rn : y < g(x) ≤ y + ε} se ε > 0. Allora, in virtú

del teorema della media,
Z
FY (y + ε) − FY (y) = f (x) dx = f (x0 ) [Vg (y + ε) − Vg (y)] ,
B(y;ε)
con x0 ∈ B(y; ε). Dividendo per ε e facendo tendere ε a zero si ha f (x0 ) → ϕ(y), mentre
Vg (y + ε) − Vg (y)
→ D+ Vg (y) = Vg0 (y) .
ε
Analogamente si procede per −ε < 0.
Consideriamo, infine, il caso di un vettore aleatorio che sia una funzione (misurabile) di
un altro vettore aleatorio. Siano g : Rn → Rn una funzione misurabile e X = (X1 , . . . , Xn )
un vettore aleatorio; si domanda quale sia la legge del vettore aleatorio Y = g ◦ X di
componenti Yj = gj (X1 , . . . , Xn ) (j = 1, . . . , n).
Teorema 2.7.4. Sia X = (X1 , . . . , Xn ) un vettore aleatorio assolutamente continuo di

densità f ; sia g : Rn → Rn un diffeomorfismo tale che sia diverso da zero il determinante
J della matrice jacobiana (Dj gi ). è allora assolutamente continuo anche il vettore aleatorio
Y = g ◦ X e questo ha densità
fY (y) = f [g −1 (y)] |J[g −1 (y)]| (y ∈ Rn ) . (2.7.4)
Dimostrazione. Per ogni funzione h : Rn → R sufficientemente buona positiva (o limitata)

è
Z Z
h(y)f [g −1 (y)] J[g −1 (y)] dy .

E(h ◦ Y ) = (h ◦ g)(x)f (x) dx =
Rn Rn
In particolare, si applichi quest’ultima relazione alla funzione h := 1B , ove B è un boreliano

di Rn ,
Z
P(Y ∈ B) = E (1Y ∈B ) = E (1B ◦ Y ) = f [g −1 (y)] J[g −1 (y)] dy ,

sicché la (2.7.4) dà effettivamente la densità di probabilità del vettore aleatorio Y .
Esempio 2.7.3. (La “definizione” stocastica del numero e). Si consideri la successione (Un )
di v.a. indipendenti e tutte di legge uniforme in (0, 1), Un ∼ U(0, 1) (n ∈ N) e la v.a.
( n
)
X
V := min n ∈ N : Uk ≥ 1 .
k=1
2.8. LA FUNZIONE GENERATRICE DEI MOMENTI 93
Evidentemente P(V ≥ 2) = 1. Si vuole calcolare la speranza di V . Ora

Xn
! Z
1 Z 1−u1 Z 1−Pn−1
k=1 uk
P Uk < 1 = du1 du2 . . . dun
k=1 0 0 0
Pn−2 !
Z 1 Z 1−u1 Z 1− k=1 uk n−1
X
= du1 du2 . . . 1− uk dun−1
0 0 0 k=1
Pn−2
Pn−3

n−1
!2 un−1 =1− k=1 uk
Z 1 Z 1−u1 Z 1− k=1 uk
− 1
X
= du1 du2 . . . 1− uk  dun−2
0 0 0 2
k=1
un−1 =0
Pn−3
n−2
!2
Z 1 Z 1−u1 Z 1− uk
k=1 1 X
= du1 du2 . . . 1− uk dun−2 = . . .
0 0 0 2
k=1
1 1−u1 Z 1 u =1−u1
(1 − u1 − u2 )n−2 (1 − u1 − u2 )n−1 2
Z Z
= du1 du2 = − du1
0 0 (n − 2)! 0 (n − 1)! u2 =0
Z 1 u1 =1
(1 − u1 )n−1

1 1
= du1 = − (1 − u1 )n = .
0 (n − 1)! n u1 =0 n!
Pertanto ! !
n n
X X 1
P(V ≤ n) = P Uk ≥ 1 =1−P Uk < 1 =1−
n!
k=1 k=1
e, di conseguenza,
P(V = n) = P(V ≤ n) − P(V ≤ n − 1)
1 1 n−1 1
=1− −1+ = = .
n! (n − 1)! n! (n − 2)! n
Quella cosı́ ottenuta è effettivamente una legge di probabilità; infatti
∞ ∞
X X 1 1
P(V = n) = −
n=2 n=2
(n − 1)! n!
∞ ∞
X 1 X 1
= − = (e − 1) − (e − 2) = 1 .
n=2
(n − 1)! n=2 n!
La speranza di V è
∞ ∞ ∞
X X 1 X 1
E(V ) = P(V = n) n = = = e,
n=2 n=2
(n − 2)! k!
k=0
che dà il significato probabilistico del numero e.
Consideriamo, infine, il caso di un vettore aleatorio che sia una funzione (misurabile) di
un altro vettore aleatorio. Siano g : Rn → Rn una funzione misurabile e X = (X1 , . . . , Xn )
un vettore aleatorio; si domanda quale sia la legge del vettore aleatorio Y = g ◦ X di
componenti Yj = gj (X1 , . . . , Xn ) (j = 1, . . . , n).
2.8 La funzione generatrice dei momenti

La funzione generatrice dei momenti può essere usata per specificare la legge di probabilità
di una variabile aleatoria; come si vedrà, essa soffre dell’inconveniente di non essere definita
per ogni valore della variabile aleatoria alla quale is riferisce. Anche in questa sezione si
suppone fissato lo spazio di probabilità (Ω, F, P).
Definizione 2.8.1. Data una v.a. X con f.r. F si dice funzione generatrice dei momenti la
funzione ψX : R → R definita da
ψX (t) := E etX ,

(2.8.1)
se tale speranza esiste per |t| ≤ t0 con t0 > 0.

Si noti che se X è una v.a. discreta che assume i valori xn con probabilità P(X = xn ) =
pn , la sua funzione generatrice è
X
ψX (t) = pn etxn , (2.8.2)
n
mentre se X è assolutamente continua con densità f la sua funzione generatrice è

Z
ψX (t) = etx f (x) dx . (2.8.3)
R
In effetti la funzione generatrice dei momenti dipende dalla v.a. X solo attraverso al sua
legge, di modo che si parlerà indifferentemente della funzione genrtrice di X oppure della
sua legge.
Si controlla immediatemante che, per a e b in R, si ha
ψaX+b = E (exp(atX + bt)) = ebt E eatX = ebt ψX (at) ,

per t ≤ t0 /|a|.
Del seguente teorema che fornisce una delle motivazioni piú forti per l’introduzione della
funzione generatrice dei momenti non daremo la dimostrazione.
Teorema 2.8.1. Se le funzioni generatrici dei moneti di due v.a. X e Y sono eguali,
ψX (t) = ψY (t), per ogni t con |t| ≤ t0 , t0 > 0, allora esse hanno la stessa legge, FX (x) =
FY (x) per ogni x ∈ R.
È molto utile il seguente risultato
Teorema 2.8.2. Se esiste la funzione generatrice dei momenti di due v.a. indipendenti X
e Y , rispettivamente per |t| ≤ t1 e per |t| ≤ t2 , esiste anche la funzione generatrice della
loro somma per |t| ≤ t0 , ove t0 = min{t1 , t2 } e vale
∀ |t| ≤ t0 ψX+Y (t) = ψX (t) ψY (t) .
Dimostrazione. Per |t| ≤ t0 vale

ψX+Y (t) = E et (X+Y ) = E etX etY = E etX E etY = ψX (t) ψY (t) ,

in virtú dell’indipendenza.
La giustificazione del nome è, di fatto, contenuta nel seguente
Teorema 2.8.3. Se per |t| ≤ t0 esiste la funzione generatrice dei momenti della v.a. X,
esistono finiti i momenti di ogni ordine µn := E(X n ).
Dimostrazione. Poiché la funzione esponenziale è positiva si ha, per ogni y ∈ R,
e|y| ≤ e|y| + e−|y| = ey + e−y ,
di modo che, per |t| ≤ t0

E e|tX| ≤ E etX + e−tX = ψX (t) + ψX (−t) < +∞ .

2.8. LA FUNZIONE GENERATRICE DEI MOMENTI 95
Ora, per ogni n ∈ N, si ha

∞
X |y|n |y|n
e|y| = ≥ ,
n=0
n! n!
e, di conseguenza,
|t|n
E (|X|n ) ≤ E e|tX| < +∞ ;
n!
perciò, esistono finiti tutti i momenti della v.a. X.
È conseguenza immediata del teorema precedente che non può esistere la funzione
generatrice dei momenti della legge di Cauchy, che non ammette speranza finita.
Esempio 2.8.1. Per una v.a. X di Bernoulli, con P(X = 1) = p e P(X = 0) = q = 1 − p

vale
∀t ∈ R ψ(t) = p et + q .

Pn
Esempio 2.8.2. Sia S k=1 Xk una v.a. binomiale con probabilità di successo p; qui ogni
Xk è una v.a. di Bernoulli come nell’esempio precedente; allora scende dal Teorema 2.8.2
che n
∀t ∈ R ψ(t) = p et + q
è la funzione generatrice dei momenti.
Esempio 2.8.3. Per la legge geometrica di parametro p (Esempio 1.8.1) vale, per ogni
t∈R
∞ ∞
X X n−1 p et
ψ(t) = p q n−1 ent = p et q et = .
n=1 n=1
1 − q et

n
Esempio 2.8.4. Sia X una v.a. di Poisson, P(X = n) = e−θ θn! con θ > 0; allora, per ogni
t ∈ R,
∞ ∞ n
X θn tn X (θ et )
ψ(t) = e−θ e = e−θ = exp θ et − 1 ,

n=0
n! n=0
n!
è la sua funzione generatrice dei momenti.
Esempio 2.8.5. Per la legge uniforme in (0, 1) vale, per ogni t 6= 0,

Z 1
et − 1
ψ(t) = etx dx = ;
0 t
tale funzione si può prolungare per continuità in t = 0, ove ψ(0) = 1.
Esempio 2.8.6. La funzione generatrice dei momenti della legge normale N (0, 1) si calcola
facilmente ricorrendo al metodo del “completamento del quadrato”; per ogni t ∈ R si ha:
Z Z 2
1 tx −x2 /2 1 x
ψ(t) = √ e e dx = √ exp − + tx dx
2π 2π 2
R R
t2
Z
1 1
=√ exp − (x2 − 2tx + t2 ) + dx
2π 2 2
R
t2 /2 Z
e 1 2
=√ exp − (x − t)2 dx = et /2 ,
2π 2
R
perché si riconosce nell’ultimo integrando la densità della legge normale N (t, 1).
Esempio 2.8.7. Per la legge gamma Γ(θ, α) dell’Esempio 2.3.4 si ha

Z +∞ Z +∞
θα −θx α−1 θα
ψ(t) = etx e x dx = e−(θ−t) x xα−1 dx ;
0 Γ(α) Γ(α) 0
Quest’ultimo integrale è finito se, e solo se, |t| ≤ θ. La funzione generatrice esiste quindi in
un intorno dell’origione, e è lı́ data da
α −α
θ t
ψ(t) = = 1− .
θ−t θ
In particolare per la legge esponenziale Γ(θ, 1) si ha
−1
θ t
ψ(t) = = 1− .
θ−t θ

Esempio 2.8.8. Si considerino le v.a. X di legge esponenziale e Y = X 2 ; quest’ultima ha

f.r. data, per y > 0, da
√ √
FY (y) = P(Y ≤ y) = P(X ≤ y) = 1 − exp(−θ y) ,
che ha densità
θ √
fY (y) = √ exp(−θ y) .
2 y
Ora, l’integrale √
+∞ +∞
exp(ty − θ y)
Z Z
θ
ety fY (y) dy = √ dy
0 2 0 y
non è finito per alcun t > 0, sicché non esiste la funzione generatrice dei momenti di Y .
È possibile definire la funzione generatrice dei momenti anche per un vettore aleatorio.
Definizione 2.8.2. Sia X = (X1 , . . . , Xn ) un vettore aleatorio. Se esiste finita, la funzione

ψX : Rn → R+ definita da
ψX (t) = E [exp (ht, Xi)] , (2.8.4)
ove t = (t1 , . . . , tn ) è un punto di Rn , si dice funzione genratrice dei momenti del vettore
aleatorio X.
Esempio 2.8.9. Si consideri il vettore X = (X1 , . . . , Xn ), nel quale le componenti sono

indipendenti e tutte di legge N (0, 1). Allora, ricordando l’Esempio 2.8.6, si ha
    
Xn n
Y
ψX (t) = E [exp (ht, Xi)] = E exp  tj Xj  = E  exp (tj Xj )
j=1 j=1
 
n n n
Y Y 1 2  1 X 
= E [(tj Xj )] = exp tj = exp t2j
j=1 j=1
2 2
j+1


1
= exp ktk2 ,
2
ove k · k è la norma euclidea.
Il Teorema 2.8.2 e i risultati di questa sezione forniscono una dimostrazione del Teorema
2.7.2 piú facile di quella incontrata nella Sezione 2.7
2.9. LA FORMULA DI DE MOIVRE–STIRLING 97
2.9 La formula di de Moivre–Stirling

LaQformula P
dà una stima asintotica di n!, o, ciò che è lo stesso, di ln n!. Ora ln n! =
n n
ln j=1 j = j=1 ln j; d’altro canto, poiché x 7→ ln x è una funzione strettamente crescente
risulta Z j Z j+1
ln x dx < ln j < ln x dx;
j−1 j
da questa relazione, sommando per j = 1, 2, . . . , n, scende

Z n Z n+1
ln x dx < ln n! < ln x dx
0 1
R
onde, poiché ln x dx = x ln x − x + c,
n ln n − n < ln n! < (n + 1) ln(n + 1) − n.
Questa doppia diseguaglianza suggerisce di paragonare ln n! alla media aritmetica del primo
e dell’ultimo termine. Tale media è
1
An = [n ln n − n + (n + 1) ln(n + 1) − n]
2
1 1
= n ln n − 2n + (n + 1) ln n + (n + 1) ln 1 +
n

1
= n+ ln n − n + an ,
2
ove n
1 1 1 1
an := ln 1 + + ln 1 + ,
2 n 2 n
che tende a 1/2 al tendere di n a +∞. Si studierà cosı́ la differenza

1
sn := ln n! − n + ln n + n . (2.9.1)
2
Ora, è

1
sn − sn+1 = ln n! − n + ln n + n − ln(n + 1)!
2

1
+ n+ ln(n + 1) + ln(n + 1) − n − 1
2

1 n+1
= n+ ln − 1;
2 n
e poiché
1
n+1 1+
= 2n + 1 ,
n 1
1−
2n + 1
si ha
1
1 1+
sn − sn+1 = (2n + 1) ln 2n + 1 − 1. (2.9.2)
2 1
1−
2n + 1
Com’è noto, per |t| < 1 vale il seguente sviluppo in serie
1 1 X tn
ln(1 + t) = t − t2 + t3 + · · · = (−1)n+1 (2.9.3)
2 3 n
n∈N
dal quale, sostituendo −t a t si ricava

1 1 3 X tn
ln(1 − t) = −t − t2 − t − ··· = − . (2.9.4)
3 n
n∈N
Sottraendo la (2.9.4) dalla (2.9.3) si ottiene

∞
t2j+1

1+t 1 3 X
ln =2 t+ t + ... =2 .
1−t 3 j=0
2j + 1
In virtú di quest’ultima relazione, la (2.9.2) si può scrivere nella forma

∞
X 1
sn − sn+1 = (2n + 1) −1
j=0
(2j + 1)(2n + 1)2j+1
∞
X 1
= (2.9.5)
j=1
(2j + 1)(2n + 1)2j
∞
1 X 3
= .
3(2n + 1) j=0 (2j + 3)(2n + 1)2j
2
I termini di quest’ultima serie sono maggiorati dai termini della serie geometrica di ragione
(2n + 1)−2 < 1 (per n > 2), onde scende dalla (2.9.5)
1 1
0 < sn − sn+1 <
3(2n + 1)2 1 − (2n + 1)−2
1 1
= (2.9.6)
3 (2n + 1)2 − 1
1 1 1
= = − .
12(n2 + n) 12n 12(n + 1)
Si vede, intanto, che la successione (sn ) è decrescente è, perciò, ammette limite ξ ≥ −∞;
d’altro canto, pure dalla (2.9.6), scende
1 1
sn − < sn+1 −
12n 12(n + 1)
e pertanto la successione (sn − 1/12n) è crescente ed ammette perciò limite. Di conseguenza

esiste finito ξ := limn→+∞ sn . Segue allora dalla (2.9.1) che
n!
lim √ = 1,
n→+∞ (n/e)n eξ n
onde √
n! = eξ nn n e−n eθn . (2.9.7)
1
Dimostriamo ora che 0 < θn < 12n .
Si ricava dalla (2.9.5) che
1 1 1
sn − sn+1 > 2
> −
3(2n + 1) 12(n + 1) 12(n + 2)
1 1
e di qui che la successione (sn − 12(n+1) ) decresce. Poiché si è visto che (sn − 12n ) cresce,
si ha la doppia diseguaglianza
1 1
ξ+ < sn < ξ +
12(n + 1) 12n
2.9. LA FORMULA DI DE MOIVRE–STIRLING 99
sicché, tenendo conto della (2.9.1), riesce

√ √

1 1
eξ nn n e−n exp < n! < eξ nn n e−n exp .
12(n + 1) 12n
1
Ciò mostra che nella (2.9.7) è 0 < θn < 12n .
ξ
√
Dimostreremo ora che e = 2π. Questa parte della dimostrazione può essere saltata
dallo studioso di probabilità, perché il risultato si ottiene in maniera piú semplice per via
probabilistica. Si vedano gli esercizı̂. è tuttavia importante sapere che è possibile una
dimostrazione diretta. A tal fine, dimostreremo prima la formola di Wallis
2 2
1 2 · 4 · · · · · (2n) 1 (2n)!! π
lim = lim = . (2.9.8)
n→+∞ 2n + 1 1 · 3 · · · · · (2n − 1) n→+∞ 2n + 1 (2n − 1)!! 2
Ricordando le proprietà delle funzioni beta e gamma, si ha
Z π/2
1 Γ(n) Γ(1/2)
sin2n−1 θ dθ = B(n, 1/2) =
0 2 2Γ(n + 1/2)
√
Γ(n) π
=
1 · 3 · · · · · (2n − 1) √
2 π
2n
2n−1 (n − 1)! (2n − 2)!!
= = .
(2n − 1)!! (2n − 1)!!
Analogamente,
π/2
(2n − 1)!! π
Z
sin2n θ dθ = .
0 (2n)!! 2
Si controlla facilmente che, per ogni θ ∈ ]0, π/2[, la successione (sinn θ) è strettamente
decrescente, onde
sin2n+1 θ < sin2n θ < sin2n−1 θ ,
sicché Z π/2 Z π/2 Z π/2
2n+1 2n
sin θ dθ ≤ sin θ dθ ≤ sin2n−1 θ dθ ,
0 0 0
cioè
(2n)!! (2n − 1)!! π (2n − 2)!!
≤ ≤ ,
(2n + 1)!! (2n)!! 2 (2n − 1)!!
ovvero 2
2n π (2n)!! 1 π
≤ ≤ ,
2n + 1 2 (2n − 1)!! 2n + 1 2
della quale la (2.9.8) è immediata conseguenza. Posto, ora, tn = exp(sn ), si ha tn → eξ .
Risulta dalla (2.9.1) che
n!en
tn = n √ .
n n
Si osservi che, alla luce della (2.9.8), è
√ √
t2n (n!)2 e2n (2n)2n 2n (n!)2 22n 2n
= · =
t2n n2n n (2n)!e2n (2n)!n
√ 1/2
(2n)!! 2n (2n)!! 1 2n(2n + 1)
= = √ ,
(2n − 1)!! n (2n − 1)!! 2n + 1 n2
p √
sicché, per la (2.9.8), (t2n /t2n ) → 2 π/2 = 2π. Ma, evidentemente, è
lim tn = lim t2n = eξ ,

n→+∞ n→+∞
√
sicché (t2n /t2n ) → eξ . Ciò prova che eξ = 2π. Vale pertanto la formola di de Moivre–
Stirling
√ √ −n θn

n 1
n! = 2π n ne e θn ∈ 0, . (2.9.9)
12n
2.10 I teoremi di de Moivre–Laplace

Il teorema che segue fu dimostrato da de Moivre nel 1733 per il caso p = 1/2 e da Laplace
per qualsiasi p nel 1812. Questo teorema, come pure quello che lo segue, sono esempı̂ di
teoremi del limite centrale (TLC).
In un processo di Bernoulli con probabilità di successo p ∈ ]0, 1[ sia, al solito, q := 1 − p
e sia Sn il numero di successi in n prove. Ricordiamo che E(Sn ) = np e V (Sn ) = npq.
Introduciamo la v.a. Un che si ottiene da Sn “riducendola”, vale a dire sottraendo da Sn la
sua media e dividendo il risultato per lo scarto quadratico medio:
Sn − np
Un := √ .
npq
Naturalmente, E(Un ) = 0 e V (Un ) = 1. La v.a. Un assume i valori

j − np
xn,j := √
npq

n j n−j
con probabilità p q . Con queste notazioni possiamo enunciare
j
Teorema 2.10.1. (Teorema locale di de Moivre–Laplace). Con le notazioni appena in-
trodotte si ha √
P(Sn = j) 2πnpq
lim = 1. (2.10.1)
n→+∞ exp(−x2n,j /2)
La convergenza è uniforme in ogni intervallo [a, b] (a, b ∈ R, a < b) .
Dimostrazione. Ricorrendo alla formula di de Moivre–Stirling (2.9.9), si ha
n!
Pn (xn,j ) := P(Sn = j) = pj q n−j
j!(n − j)!
r j n−j
1 n np nq
=√ eθ ,
2π j(n − j) j n−j
per j = 0, 1, . . . , n. Per il fattore di correzione eθ vale la diseguaglianza

1 1 1 1 k
|θ| < + + ≤ .
12 n j n−j n
Se xn,j appartiene all’intervallo [a, b], allora è

√
r
q
j ≥ n p + a npq = n p 1 + a
np
r
√ p
n − j ≥ n q − b npq = n q 1 − b ,
nq
sicché  
1  1 1 
|θ| < 1 + r + r  .
12 n  pq pq 
p+a q−b
n n
2.10. I TEOREMI DI DE MOIVRE–LAPLACE 101
Perciò il fattore di correzione eθ , al tendere di n a +∞, tende uniformemente a 1 in ogni

intervallo [a, b].
Se (an ) e (bn ) sono due successioni reali, con la notazione an ' bn si intenderà che sia
limn→+∞ an /bn = 1. Allora
j(n − j) √ √ 1
= (np + xn,j npq) (nq − xn,j npq)
n r r n

pq pq
= n p + xn,j q − xn,j ' npq .
n n
p p
Per ogni x ∈ [a, b] tanto x q/np quanto x p/nq tendono a zero quando n tende a +∞;
quindi, per n sufficientemente grande entrambe queste quantità sono in modulo minori di
1, ciò che consente di ricorrere agli sviluppi in serie dei logaritmi:
j n−j !
p np nq
− ln 2πnpq Pn (xn,j ) ' − ln
j n−j
r
√ q
= (np + xn,j npq) ln 1 + xn,j
np
r
√ p
+ (nq − xn,j npq) ln 1 − xn,j
nq
" #
√ qx2n,j
r
q −3/2
= (np + xn,j npq) xn,j − + O(n )
np 2np
" #
√ px2n,j
r
p −3/2
+ (nq − xn,j npq) −xn,j − + O(n )
nq 2nq
" #
√ qx2n,j 2 −1/2
= xn,j npq − + qxn,j + O(n )
2
" #
√ px2n,j
+ −xn,j npq − + px2n,j + O(n−1/2 )
2
1
= x2n,j + O n−1/2 .
2
L’affermazione sull’uniformità della convergenza in ogni intervallo [a, b] è immediata.
Per grandi valori di n si può quindi usare l’approssimazione
(j − np)2

n j n−j 1
p q '√ exp − .
j 2 π npq 2 π npq
Si era visto, d’altra parte, che per piccoli valori di p, la legge binomiale era approssimata
dalla distribuzione di Poisson
(np)j

n j n−j
p q ' e−np (j = 0, 1, . . . , n) .
j j!
Esistono, quindi, casi nei quali si possono applicare entrambe le utlime due approssi-
mazioni; questo lascia indurre che anche la distribuzione di Poisson possa essere approssima-
ta mediante la distribuzione normale. Che questo sia effettivamente vero è mostrato negli
esercizı̂.
Teorema 2.10.2. (Teorema integrale di de Moivre–Laplace). Con le stesse notazioni del
teorema precedente, risulta, se −∞ ≤ a < b ≤ +∞,
Z b 2
Sn − np 1 x
lim P a ≤ √ ≤b = √ exp − dx.
n→+∞ npq 2π a 2
Dimostrazione. Si supponga dapprima che sia −∞ < a < b < +∞; Si indichino con
j − np
xn,j := √
npq
i valori della v.a. Un che cadono in [a, b]. Si osservi che

1
|xn,j − xn,j+1 | = √ ;
npq
per la (2.10.1) è
2
e−xn,j /2

Sn − np
P √ = xn,j = P(Sn = j) ' √
npq 2 π npq
uniformente in [a, b]. Dato ε > 0, si ha, per n abbastanza grande, diciamo per n ≥ n0 , da
un lato 2 2
e−xn,j /2 e−xn,j /2
(1 − ε) √ ≤ P(Sn = j) ≤ (1 + ε) √ ,
2 π npq 2 π npq
per ogni xn,j , e d’altro canto,

Z b −x2n,j /2

1 2
−x /2
X e
√ e dx − √ < ε.
2π
a 2 π npq
j:xn,j ∈[a,b]
Poiché
Sn − np X
P a≤ √ ≤b = P (Sn = j) ,
npq
j:xn,j ∈[a,b]
si ha
2
e−xn,j /2

X Sn − np
(1 − ε) √ ≤P a≤ √ ≤b
2 π npq npq
j:xn,j ∈[a,b]
2
X e−xn,j /2
≤ (1 + ε) √
2 π npq
j:xn,j ∈[a,b]
e quindi
!
b
Sn − np
Z
1 2
−x /2
(1 − ε) √ e dx − ε ≤P a≤ √ ≤b
2π a npq
Z b !
1 −x2 /2
≤ (1 + ε) √ e dx + ε .
2π a
L’asserto è cosı́ provato per questo caso.

Supponiamo ora che sia −∞ < a < b = +∞. Se ε > 0, si scelga c > a ∨ 0 in modo che
sia Z −c Z +∞
1 2 1 2 ε
√ e−x /2 dx = √ e−x /2 dx ≤ .
2 π −∞ 2π c 2
Dal caso precedente abbiamo
Z c
1 2
lim P(|Un | ≤ c) = √ e−x /2
dx .
n→+∞ 2π −c
Perciò Z
1 2
lim P(|Un | > c) = √ e−x /2
dx < ε .
n→+∞ 2π
|x|>c
2.11. NOTE AL CAPITOLO 2 103
Esiste quindi n1 ∈ N tale che, per ogni n ≥ n1 , sia P(|Un | > c) < ε. Allora, per ogni n ≥ n1 ,
si ha
Z +∞
P(Un ≥ a) − √1 −x2 /2

e dx
2π a
Z c
1 2
e−x /2 dx + P(Un > c)

≤ P(a ≤ Un ≤ c) − √
2π a
Z +∞
1 2
+√ e−x /2 dx
2π c
Z c
1 −x2 /2

< 2 ε + P(a ≤ Un ≤ c) −
√ e dx .
2π a
In virtú della prima parte della dimostrazione, se n ≥ n0 ∨ n1 , anche l’ultimo termine è
minore di ε, sicché l’asserto è provato.
La dimostrazione del caso −∞ = a < b < +∞ è analoga a quella appena data; infine, il
caso a = −∞, b = +∞ discende immediatamente dagli ultimi due.
2.11 Note al Capitolo 2

Sezione 2.9 La formula che costituisce l’oggetto delle presente sezione è di solito chiamata
formula di Stirling. Tuttavia la formula è essenzialmente dovuta
√ a de Moivre; l’impor-
tante contributo di Stirling si limita al calcolo della costante 2π. Si veda in proposito
(Bellhouse, 2011). La dimostrazione che qui si dà è dovuta a (Robbins, 1962).
Sezione 2.10 Il teorema di de Moivre–Laplace, come abbiamo avuto di dire, da de Moivre
nel 1733. Il teorema integrale è un caso di un importante classe di teoremi che va sotto
il nome di Teorema del limite centrale o Teorema centrale del limite; vi è qualche
incertezza tra gli autori sul fatto che l’aggettivo “centrale” debba essare riferito al
teorema, per l’importanza che questo riveste per le applicazioni, oppure al limite,
dato che si tratta sempre di variabili aleatorie centrate; la prima interpretazione è
dovuta a Pólya (1920), la seconda, per esempio, a Le Cam (1986)
it describes the behaviour of the centre of the distribution as opposed to
its tails.
2.12 Esercizı̂ sul Capitolo 2

1. Sia F la f.r. definita da

0,


x < 0,
1/4, x ∈ [0, 1[ ,
F (x) :=
3/4,

 x ∈ [1, 2[ ,
1, x ≥ 2.

Quale probabilità assegna la legge di F ai seguenti insiemi:

1 1 1 3 2 5
A= − , , B= − , , ,
2 2 2 2 3 2
D = [0, 2[ , E = [4, +∞[?
2. Sia F la f.r. della v.a. X. Per ogni t0 ∈ R, si ha

`− F (t0 ) := lim F (t) = P(x < t0 ).
t→t0
t<t0
3. Si cerchi l’esempio di una v.a. per la quale nella diseguaglianza di Čebyšev valga il segno
d’eguaglianza.
4. Sia X una v.a.; g : R → R+ sia continua e sia B un insieme tale che g(x) > a > 0 per
ogni x ∈ B. Allora
E (g ◦ X)
P(X ∈ B) < .
a
È questa una generalizzazione della diseguaglianza di Čebyšev; quest’ultima si ottiene
2
prendendo g(x) = [x − E(X)] .
5. Siano X1 , X2 , . . . , Xn v.a. positive con speranza finita. Allora, per ogni c > 0, è
n
! n
X 1 X
P Xi > c ≤ E(Xi ) .
i=1
c i=1
6. Sia X una v.a. tale che E(X) = 0, V (X) = 1, |X| < K con K > 1. Allora vale, per ogni
λ < 1, la diseguaglianza
1 − λ2
P (|X| ≥ λ) ≥ 2 .
K − λ2
7. Sia ϕ : R → [0, α] una funzione continua positiva (limitata). Per ogni t ∈ [0, α[ si ha
E (ϕ ◦ X) − t
P (ϕ ◦ X ≥ t) ≥ .
α−t
8. La v.a. X abbia varianza finita; si mostri che il minimo della funzione
t 7→ f (t) := E (X − t)2

si ha per t = E(X).
9. Se X ≤ Y q.c., allora FX ≥ FY . Si mostri però che FX ≥ FY non implica X ≤ Y .
10. La f.r. ϕ di una v.a. N (0, 1) soddisfà alle due relazioni
ϕ(−x) = 1 − ϕ(x) (x > 0),

1 2
1 − ϕ(x) ≤ √ e−x /2 .
x 2π
La prima di esse è di uso frequente perché le tavole dei valori della ϕ riportano i soli valori
che essa assume per x > 0.
11. Si mostri che la funzione Γ definita dalla (2.9.9) soddisfà alle seguenti proprietà:
(a) Γ(t) = (t − 1)Γ(t − 1) (t > 1) sicché, in particolare, Γ(n) = (n − 1)! se n ∈ N;

√
(b) Γ( 21 ) = π;
(c) Per ogni n ∈ N,
1 · 3 · 5 · · · · · (2n − 1) √ (2n − 1)!! √

1
Γ n+ = π= π;
2 2n 2n
1 · 3 · 5 · · · · · (n − 1) √ (n − 1)!! √

n+1
(d) Γ = n/2
π= π (n pari) ;
2 2 2n/2
Γ(β)
xβ−1 exp(−αx) dx =
R
(e) (α, β > 0) ;
R+ αβ
(f) se α, β, t sono strettamente positivi,

−β
αβ
Z
t
exp(−tx) xβ−1 exp(−αx) dx = 1+ .
Γ(β) α
R+
Per la funzione gamma e le sue proprietà in un ambito piú vasto, si veda Whittaker &
Watson (1927).
12. Si calcolino i momenti E(|X|n ) con n ∈ N se X ∼ N (0, 1).
13. Si mostri che, se r > 0 e s > 0, è finito l’integrale

Z 1
B(r, s) := xr−1 (1 − x)s−1 dx .
0
Resta cosı́ definita una funzione B : ]0, +∞[ × ]0, +∞[ → R+ detta funzione beta. Si mostri
che B è simmetrica: B(r, s) = B(s, r) e che
π/2 +∞
ts−1
Z Z
B(r, s) = 2 sin2r−1 θ cos2s−1 θ dθ = dt .
0 0 (1 + t)r+s
Γ(r) Γ(s)
14. B(r, s) = (r, s > 0).
Γ(r + s)
15. Si calcolino media, varianza, e, se possibile, la f.r., delle distribuzioni
(a) uniforme U (a, b);
(b) Γ(θ, α);
(c) χ2 (n, s).
16. Per la distribuzione di Student a n gradi di libertà, il momento di ordine k esiste se, e
solo se, k < n. In tal caso se k è dispari, si ha E(X k ) = 0, mentre, se k < n è pari, si calcoli
E(X k ).
17. Si controlli che sia la (2.3.12) sia la (2.3.13) definiscono densità di probabilità.
18. La f.r. di una v.a. X con legge Γ(λ, n) con n ∈ N è, per x > 0,
n−1
X (λ x)j −λ x
F (x) = 1 − e .
j=0
j!
19. Nella legge di Poisson,
λk
P(X = k) = e−λ (k ∈ Z; λ > 0)
k!
si ha √
2πλ P(X = j) j−λ
lim =1 se t := √ .
λ→+∞ exp(−t2 /2) λ
Si applichi questo risultato al calcolo del limite
n
X nj 1
lim e−n = .
n→+∞
j=0
j! 2
20. Sia N il numero di palline contenute in un’urna e sia θ ∈ ]0, 1[ la proporzione di palline
bianche. Se pk,n (N ) è la probabilità che, nell’estrazione senza restituzione di n palline
dall’urna, k siano bianche, si dimostri che, al tendere di N a +∞, pk,n (N ) tende all’analoga
probabilità in un’estrazione con restituzione. Tale fatto trova applicazione nella Statistica
Matematica quando si sostituisce alla legge ipergeometrica la legge binomiale. Come si vede
ciò è lecito quando la popolazione dalla quale si sta campionando è molto piú numerosa del
campione che si considera, vale a dire quando N è molto piú grande di n.
21. Un certo prodotto ha durata T che segue una legge esponenziale.

(a) Se la vita media è di 4 anni e se la ditta che la produce dà una garanzia di due anni,
qual è la probabilità che debba essere sostituito?
(b) Quale dovrebbe la durata della garanzia perché la ditta debba sostituire in garanzia
non piú del 10% dei pezzi?
22. Si dice legge di Laplace quella definita dalla densità

1 −|x|
f (x) := e (x ∈ R) .
2
Se ne calcolino la media e la varianza. Se X è una v.a. che legge di Laplace, qual è la legge
della sua ridotta,
X − E(X)
Y := ?
σ(X)
23. Se il vettore (X, Y ) ha una densità f , si determinino le leggi delle v.a. (a) X − Y , (b)
XY , (c) X/Y .
24. Si dice legge di Weibull di parametri α e λ quella che ha densità data da

α
fα,λ (t) := α λ tα−1 e−λ t 1(0,+∞) (t) ,
ove α > 0 e λ > 0.

(a) Si controlli che fα,λ è effettivamente una densità di probabilità e se ne scriva la f.r.;
(b) sia T una v.a. con la legge di Weibull; si studii per quali valori di α e di λ la funzione
s 7→ P(T > s + t | T > s) sia crescente o decrescente;
(c) se X ha legge esponenziale di parametro λ > 0, X ∼ Γ(λ, 1), si calcoli, per β > 0,
E(X β ) e si trovi la legge di X β . Si usi tale risultato per calcolare la speranza della
v.a. T del punto (b).
Questa legge fu introdotta in Weibull (1951). Si veda, per maggiori informazioni Johnson
et al. (1994) che le dedica un capitolo.
25. Se F è una f.r. anche la funzione G : R → [0, 1] definita da
G(x) := 1 − `− F (−x) (x ∈ R)
è una f.r.. Se F = G allora si dice che la legge è simmetrica rispetto all’origine.

Se X ha densità f , sono equivalenti le proprietà:
(a) f è simmetrica rispetto a c ∈ R, cioè f (c − x) = f (c + x) per ogni x ∈ R;
(b) le v.a. X − c e c − X hanno la stessa legge.
Quando si verifica una delle ultime due condizioni si dice che X è simmetrica rispetto a c.
Se X è simmetrica rispetto a c e integrabile, allora è E(X) = c.
26. Ogni f.r. multipla è crescente in ogni variabile.
27. Si verifichi che le funzioni F, G : R → [0, 1] definite sotto soddisfanno alle condizioni
(a), (b) e (c) del Teorema 2.5.1 sono crescenti in ogni variabile, ma non sono f.r.
(
1, x + y ≥ 0,
F (x, y) :=
0, x + y < 0,
(
max{0, x + y + 1} , x + y < 0 ,
G(x, y) :=
1, x + y ≥ 0.
28. Data la densità di probabilità f : R → R+ definita da
f (x1 , x2 ) := x1 x2 exp{−(x1 + x2 )} 1R2+ (x1 , x2 ) ,
si calcolino le probabilità
(a) P(X1 ≤ 1, X2 ≤ 1);
(b) P(X1 + X2 ≤ 1);
(c) P(X1 + X2 ≥ 2);
(d) P(X1 < X2 );
(e) P(X1 > 1);
(f) P(X1 = X2 );
(g) P(X2 < 1|X1 ≤ 1);
(h) P(X1 > X2 |X2 > 1).
29. Si calcolino le stesse probabilità dell’esercizio precedente se il vettore aleatorio (X1 , X2 )

ha densità uniforme sul quadrato (0, 2) × (0, 2).
30. Il vettore aleatorio (X1 , X2 ) assume i valori sotto indicati con le probabilità date dalla
seguente tabella (ove p = 1/60)
.

X2 \X1 .. 0

1 2

. . . . . . . . . . . . . . . . . . . . . . . .
..

0 . p 2p 3p

..
1 . 2p 4p 6p

2 ..
. 3p 6p 9p

3 ..
. 4p 8p 12p
(per esempio P(X1 = 1, X2 = 2) = 6p = 1/10). Si determinino le leggi marginali e si

calcolino le probabilità:
(a) P(X1 ≤ 1, X2 ≤ 1);
(b) P(X1 + X2 ≤ 1);
(c) P(X1 + X2 > 2);
(d) P(X1 < 2X2 );
(e) P(X1 > 1);
(f) P(X1 = X2 );
(g) P(X1 ≥ X2 |X1 > 1);
(h) P(X12 + X22 ≤ 1).
31. Sia T il triangolo con vertici nei punti (0, 0), (0, 1), (1, 1).
(a) Si calcoli la costante k in modo che sia una densità di probabilità la funzione (x, y) 7→
k
f (x, y) := 1T (x, y), √ ;
xy
(b) si determinino le leggi marginali e si dica se siano indipendenti.
32. È data la funzione f : R2 → R+ mediante
k
f (x, y) := .
(1 + x2 )(1 + y 2 )
(a) Si calcoli la costante k in modo che sia f sia la densità di probabilità di un vettore
aleatorio (X, Y );
(b) si calcoli la f.r. di (X, Y );
(c) si calcoli P [(X, Y ) ∈ Q] se Q = (0, 1) × (0, 1).
33. Si mostri che, se r > 0 e s > 0, è una densità di probabilità la funzione f : R2 → R+

definita da
1

 xr−1 (y − x)s−1 e−y , 0 < x < y ,
f (x, y) := Γ(r) Γ(s)
0, altrove,

e se ne determinino le leggi marginali.
34. Il vettore aletorio (X, Y ) abbia densità f .

(a) Se (
f (x, y) + f (y, x) , se x ≥ y,
g(x, y) :=
0, altrove,
g è una densità di probabilità;
(b) se il vettore (U, V ) ha densità g, le v.a. Z := X + Y e W := U + V hanno la stessa
legge.
35. Se X ha varianza finita e se a e b sono in R, si calcoli V (aX + b). Se, inoltre, a 6= 0 e

V (X) 6= 0, si calcoli ρ(X, aX + b). SE anche Y ha varianza finita si calcoli il coefficiente di
corralazione ρ(X + a, Y + b).
36. Se X e Y hanno varianza finita e se non sono costanti q.c., si mostri che ha minimo
assoluto la funzione (s, t) 7→ f (s, t) := E (Y − s − tX)2 e si trovino i valori si s e di t che
realizzano tale minimo.
37. Siano X e Y due v.a. con varianza finita, strettamente positiva e tale che V (X) = V (Y ).
Allora X + Y e X − Y sono incorrelate. Sono anche indipendenti?
38. Siano X, Y e Z v.a. indipendenti ed isonome con legge geometrica di parametro p ∈

]0, 1[. Si calcolino
(a) la legge della v.a. S = X ∨ Y ;
(b) la probabilità che sia P(X = Y );
(c) la probabilità P(X ≥ 2 Y );
(d) la probabilità P(X + Y ≤ Z).
Definite le v.a. U := X ∧ Y e V := X − Y si mostri che esse sono indipendenti.
39. Si determini la legge di Y = X 2 esaminando, in particolare, il caso nel quale X abbia

una densità.
40. Se X ha una densità, qual è la legge della v.a.
Y := arctan X ?
p
41. Se X è assolutamente continua, quali sono le leggi di |X| e di |X|?
42. Se X è distribuita uniformemente in (−π/2, π/2) e se a > 0, qual è la legge di a sin X?

e quella di tan X?
43. Se X ∼ N (m, σ 2 ), qual è la legge (detta lognormale) della v.a. Y := eX ?
44. Se X p è distribuita uniformemente in (0, 1), si calcolino le leggi delle seguenti v.a. (a)
X 2 , (b) |X|, (c) eX , (d) − ln |X|, (e) cos πX.
45. Si risolva l’esercizio precedente se X ha legge uniforme in (−1, 1).
46. Se U è distribuita uniformemente in (0, 1), le v.a. X = sin πU e Y = cos πU sono

incorrelate, ma non indipendenti.
47. Se X ∼ N (0, 1) e Y = X 2 , X e Y sono incorrelate senza essere indipendenti.
48. Se α > 0 e X ∼ N (0, 1), qual è la legge della v.a. Y = X 1{|X|≤α} − X 1{|X|>α} ?
49. Si scrivano le f.r. della distribuzione uniforme sul quadrato unitario Q = (0, 1) × (0, 1)
e di quelle uniformi sulle diagonali di Q. Si mostri che le tre f.r. hanno le stesse marginali.
50. Siano X e Y due v.a. indipendenti, entrambe di legge uniforme sull’intervallo (0, 1).
Qual è la legge della v.a. X + Y ?
51. Siano X1 e X2 v.a. indipendenti definite sullo stesso spazio di probabilità, di legge
Γ(θ, p) e Γ(θ, q) rispettivamente. Definite le v.a.
X1
Y1 := X1 + X2 e Y2 :=
X1 + X2
si mostri che sono indipendenti e se ne determinino le leggi.
52. Sia data la funzione ϕ : R2 → R definita da

2
x + y2

1 2 2
ϕ(x, y) := (x + y ) exp − .
4π 2
(a) Si mostri che ϕ è una densità di probabilità ;
(b) se (X, Y ) è un vettore aleatorio con densità congiunta data da ϕ si trovino le leggi
marginali di X e di Y e se calcolino le speranze;
(c) si calcoli la covarianza di X e di Y ; sono indipendenti?
(a) Si consideri la trasformazione

1

 U = √ (X + Y )
2




 1
V = √ (X − Y ) ,


2
si trovino la legge congiunta del v.a. (U, V ) e le legge marginali di U e V .
53. Siano X e Y due v.a. indipendenti e di legge uniforme in (0, 1); si trovi la densità del
vettore aletorio (X, Z), ove Z = X + Y .
54. Sia data la funzione f : R2 → R definita da

2
x − xy + y 2

f (x, y) = k exp − (x, y) ∈ R2 .
2
(a) Si calcoli la costante k in modo che f sia una densità di probabilità.

(b) Se (X, Y ) è un vettore aleatorio con densità f , ove k ha il valore calcolato in (a), si
trovino le leggi marginali di X e di Y .
(c) Si calcoli la covarianza di X e di Y .
(d) Considerata la trasformazione
√
3 1
U= Y, V =X− Y,
2 2
si trovi la legge congiunta di (U, V ).
55. Il vettore aleatorio (X, Y ) ha densità congiunta data da

2
x + y2

1
f (x, y) = exp − (x, y) ∈ R2 .
2π 2
(a) Si trovi la densità congiunta del vettore (X 2 , Y 2 );

(b) si trovi la legge della v.a. Z = X 2 + Y 2 .
56. Sono date due v.a. strettamente positive X e Y che hanno f come densità congiunta.
(a) Si trovi la densità congiunta del vettore (U, V ) ove U = X + Y e V = X/Y .
(b) Se inoltre X e Y sono indipendenti e hanno, rispettivamente, legge Γ(θ, α) e Γ(θ, β),
si mostri che U e V sono indipendenti e se ne trovino le leggi.
57. Sia X una v.a. strettamente positiva di densità f . Si trovi la legge della v.a. V = 1/U .
58. Siano X e Y indipendenti di densità Γ(θ, α) e Γ(θ, β) rispettivamente.

(a) Si trovi la legge congiunta del vettore (X, X + Y )
(b) Si trovino le densità congiunte delle due v.a.
X +Y X
U= e V = .
X X +Y
59. Siano O = (0, 0), A = (1, 1), B = (1/2, 1), C = (0, 1/2), D = (1, 0), E = (1, 1/2) e
F = (1/2, 0) punti del piano e sia f la densità di probabilità uniforme con supporto dato
dall’unione del quadrilatero OABC e del triangolo DEF . Se il vettore aleatorio (X, Y ) ha
densità f ,
(a) si trovino le leggi (marginali) di X e di Y ;
(b) si determini la legge della somma X + Y .
60. Si dice che una v.a. X ha legge di Rayleigh, se la sua densità è

2x −x2 /α
fα (x) := e 1(0,+∞) (x),
α
ove α > 0.
(a) Si mostri che fα è effettivamente una densità di probabilità;
(b) si calcolino la media e la varianza di X;
(c) si determini la legge della v.a. Y := X 2 ;
2
(d) si determini la legge della v.a. Z := e−X /α
;
(e) se il vettore aleatorio (S, T ) ha densità definita da
ϕ(x, y) := β fα (x) y 1{(x,y):0<y<x} (x, y),
si determini la costante β, si trovino le densità marginali e si dica se siano indipendenti

la v.a. S e S/T .
61. Sia ϕ : R+ → R una funzione di classe C1 , cioè derivabile e con derivata continua, tale
che ϕ(0) = 0. Se X è una v.a. a valori positivi vale
Z +∞ Z +∞
E (ϕ ◦ X) = ϕ0 (t) P(X ≥ t) dt = ϕ0 (t) P(X > t) dt .
0 0
Una v.a. X con f.r. F e densità f è integrabile se, e solo se, valgono le due diseguaglianze
Z +∞ Z 0
{1 − F (t)} dt < +∞ e F (t) dt < +∞ ;
0 −∞
in tal caso la speranza è data da

Z +∞ Z 0
E(X) = {1 − F (t)} dt − F (t) dt .
0 −∞
Si interpreti questo risultato dal punto di vista geometrico. Se X hA speranza finita, allora
lim x {1 − F (x)} = 0 ,
x→+∞
lim x F (x) = 0 .
x→−∞
62. Se X è una v.a. che assume solo valori interi positivi, allora
X
E(X) = P(X ≥ n) .
n∈N
63. L’equazione funzionale di Cauchy per una funzione f : R → R è
f (x + y) = f (x) + f (y) (x, y ∈ R) .
(a) f (0) = 0;
(b) f (−x) = −f (x);

(c) f (q) = c q per ogni q razionale (q ∈ Q);
(d) ∀ x ∈ R f (x) = cx, se f è derivabile in R;
(e) ∀ x ∈ R f (x) = cx, se f è continua in R;
(f) ∀ x ∈ R f (x) = cx, se f è continua in un punto x0 ∈ R;
(g) ∀ x ∈ R f (x) = cx, se f è monotona;
(h) ∀ x ∈ R f (x) = cx, se f è integrabile;
(i) ∀ x ∈ R f (x) = cx, se f è limitata in un intervallo.
Per il vasto campo delle equazioni funzionali si vedano i libri Aczél (1966) e Aczél & Dhom-
bres (1989). Le equazioni funzionali ricorrono spesso nella caretterizzazioni delle leggi di
probabilità. Quello dell’esercizio che segue è l’esempio piú facile.
64. Si supponga che ϕ : ]0, +∞[ → R soddisfaccia all’equazione funzionale
ϕ(x + y) = ϕ(x)ϕ(y) (x, y > 0) .
Se ne trovino le soluzioni continue.
65. Se X è una v.a. con legge esponenziale e s e t sono numeri strettamente positivi, vale
P (X > s + t | X > s) = P(X > t) .
Viceversa si supponga che una v.a. X verifichi quest’ultima relazione per ogni coppia s e t
di numeri reali. Si mostri, nell’ordine, che, se F è la f.r. di X,
(a) F (0) = 0, o, equivalentemente, P(X > 0) = 1;
(b) ∀ x > 0 0 < F (x) < 1;
(c) la v.a. X ha legge esponenziale.
Si mostri che la proprietà (∗), nota sotto il nome di mancanza di memoria, vale nel caso
delle distribuzioni discrete, per la legge geometrica se X rappresenta il tempo al quale si
ha il primo successo nel processo bernoulliano, cioè X := min{n ∈ N : Xn = 1}. Si veda
Nelsen (1987).
66. Sia X una v.a. con legge uniforme in (0, 1).

(a) Qual è la legge della v.a. Y := [X] + nX ove [t] designa la parte intera di t?
(b) Qual è la legge di Y := [2X] + 2X?
67. Si consideri il vettore aleatorio (X, Y ) di densità

 −x
e
, 0 < y ≤ x,
f (x, y) := x
0 , altrove.
Qual è la legge di X/(X + Y )?

68. Siano W e Z v.a. indipendenti, rispettivamente esponenziale di parametro 1, W ∼

Γ(1, 1), e normale ridotta, Z ∼ N (0, 1).
√
(a) Si determini la legge di Y := 2 W ;
√
(b) si determini la legge della v.a. X := 2 W Z.
69. Siano U1 e U2 due v.a. definite sullo stesso spazio di probabilità ed indipendenti, en-
trambe con legge uniforme su (0, 1), Uj ∼ U(0, 1) (j = 1, 2). Se X := ln U2 /U1 , qual è la
legge di X?
70. Siano X e Y due v.a. definite sullo stesso spazio di probabilità ed indipendenti. X
assume i valori +1 e −1 entrambi con probabilità 1/2, mentre Y ha legge esponenziale di
parametro 1, Y ∼ Γ(1, 1). Se Z := X Y , qual è la legge di Z?
p
71. Sia X una v.a. con legge χ(n, σ 2 ); si trovi la legge di X/n. Se X1 ,. . . , Xn sono
indipendenti isonome con Xj ∼ N (0, σ 2 ) con (j = 1, 2, . . . , n), allora la v.a.
 1/2
n
1 X 
V := Xj2
n 
j=1
ha legge χ(n, σ).
72. Siano X e Y v.a. indipendenti e sia
X ∼ N (0, σ 2 ) e Y ∼ χ(n, σ) ;
allora la v.a. X/Y ha legge di Student di parametro n. Si osservi che la legge di Student
non dipende dal parametro σ.
73. Una serie di eventi indipendenti si realizza con legge di Poisson: il parametro λ > 0 è
il numero di eventi per unità di tempo. Il tempo d’attesa Tk sino a che non si verifica il
k–esimo evento ha legge Γ(λ, k).
74. La somma di r v.a. indipendenti, tutte con legge esponenziale di parametro λ > 0, ha
legge Γ(λ, r); in altre parole Γ(r, λ) è la convoluzione di r leggi esponenziali Γ(λ, 1).
75. Sia N , X1 , X2 , . . . , Xn , . . . una successione di v.a. indipendenti. N ha legge geometrica

di parametro p, mentre ogni Xn ha legge esponenziale di parametro λ > 0. Si trovi la legge
della v.a. SN definita da
N (ω)
X
SN (ω) := Xj (ω).
j=1
76. Siano X1 , . . . , Xn v.a. indipendenti; si determinino le leggi delle v.a.
X 00 := max{X1 , X2 , . . . , Xn } = ∨nj=1 Xj ,
X 0 := min{X1 , X2 , . . . , Xn } = ∧nj=1 Xj .
In particolare se ognuna delle v.a. X1 , . . . , Xn è uniformemente distribuita sull’intervallo

(0, 1), si determini la legge della v.a. R := X 00 − X 0 e si calcolino E(R) e V (R).
77. Siano X1 , . . . , Xn v.a. indipendenti ed isonome. Si ordinino le v.a. in modo che sia
X (1) ≤ X (2) ≤ · · · ≤ X (n) .
Si osservi, che con riferimento all’esercizio precedente, è X 00 = X (n) e X 0 = X (1) . Le v.a.

X (j) sono dette, nella Statistica, statistiche d’ordine. Si trovi la legge di X (j) ; si consideri,
in particolare, il caso in cui ognuna delle v.a. X1 , . . . , Xn abbia legge uniforme in (0, 1).
n2 X1
78. Se X1 e X2 sono v.a. indipendenti e Xi ha legge χ2 (ni ) (i = 1, 2), allora T =
ha
n1 X2
legge F (n1 , n2 ), detta legge di Fisher–Snedecor. Se ne calcolino, quando esistano, la media
e la varianza.
79. Se X ha legge F (m, n), allora la v.a.

m −1
T := 1 + X
n
ha legge beta con parametri (m/2) e (n/2).
80. Se X ha legge beta con parametri α e β, allora la v.a.

α 1
S := −1
β X
ha legge F (2β, 2α).
81. Nello spazio di probabilità (Ω, F, P) sia (Xn ) una successione di v.a. indipendenti,
Pn tutte
di legge esponenziale di parametro λ > 0, Xn ∼ Γ(λ, 1). Si ponga, al solito, Sn := j=1 Xj .
Per t > 0, si definisca la v.a. X
Nt := 1{Sn ≤t} .
n∈N
Si mostri che
(a) è , per ogni n ∈ N,
{Nt = n} = {Sn ≤ t} \ {Sn−1 ≤ t};
(b) Nt ha legge di Poisson e se determini il parametro.
82. Siano f1 e f2 due densità di probabilità e siano A > 0, [a1 , b1 ] e [a2 , b2 ] tali che risulti
fi (xi ) ≥ A per ogni xi ∈ [ai , bi ] (i = 1, 2). Si definisca ora ϕ : R2 → R mediante

π a1 + b1 π a2 + b2
ϕ(x, y) := A2 sin x1 − × sin x2 −
b1 − a1 2 b2 − a2 2
se (x, y) ∈ [a1 , b1 ] × [a2 , b2 ], ϕ := 0 altrove. Allora
f (x, y) := f1 (x) f2 (y) + ϕ(x, y)
è una densità di probabilità le cui densità marginali sono f1 e f2 .
83. Siano X e Y due v.a. indipendenti geometriche di parametro p. Si definiscano le v.a.
S := X ∧ Y e T := |X − Y | .
(a) Si trovi la legge congiunta di S e di T ;

(b) si determino le leggi marginali di S e di T .
84. Si consideri un processo di Bernoulli (Xn ) di parametro p, e, sullo stesso spazio di

probabilità (Ω, F, P), la v.a. N , indipendente da quelle
Pn della successione (Xn ) e con legge di
Poisson di parametro λ. Al solito si ponga Sn := j=1 Xj se n ∈ N e S0 := 0. Si determini
la legge della v.a. X
SN := Sn 1{N =n} .
n∈Z+
85. Il problema dei momenti : Data una legge ne restano individuati, se esistono, i momenti
mk := E(X k ) (k ∈ N). Ci si può domandare se la successione
(mk )k∈Z+
individui la legge. La risposta è, in generale, negativa. Sia f la densità della legge
lognormale:
ln2 x

1
f (x) = √ exp − 1]0,+∞[ (x) ;
2π x 2
se a ∈ ]0, 1], si ponga fa (x) := f (x){1 + a sin(2π ln x)}. Allora:
(a) fa definisce una densità di probabilità su R;
(b) mk esiste per ogni k sia per la legge lognormale sia per quella di densità fa e le due
leggi hanno le stesse successioni di momenti.
Per il problema dei momenti in generale, si può consultare la monografia Shohat & Tamarkin
(1943).
86. L’estremo inferiore di una famiglia (non necessariamente numerabile) di f.r. è una f.r.?
e l’estremo superiore?
87. Sia X una v.a. con f.r. continua F ; allora la v.a. F ◦ X ha legge uniforme in [0, 1]. Cosa
accade se F non è continua?
88. Sia F una f.r.; si definisca F̂ : ]0, 1] → R mediante
F̂ (t) := inf{x ∈ R : F (x) ≥ t} .
Allora
(a) ∀ t ∈ ]0, 1] F [F̂ (t)] ≥ t; il segno d’eguaglianza vale se, e solo se, F è continua;
(b) ∀ x ∈ R F̂ [F (x)] ≤ x; il segno d’eguaglianza vale se, e solo se, F è strettamente
crescente.
89. Siano Y una v.a. di legge B(p, q) con p, q ∈ Z+ e p > 1 e X una v.a. di legge binomiale
di parametri p + q − 1 e θ ∈ ] 0, 1[. Allora P(Y ≤ θ) = P(X ≥ p).
90. Anziché usare la formula di Wallis (2.9.8) come nell’ultima parte della Sezione 2.9 si
usi il teorema di de Moivre–Laplace per calcolare il valore della costante c = eξ .
91. In una passeggiata aleatoria di Bernoulli, con p ∈ ]0, 1[, si dimostri che, usando la
notazione usuale, si ha
∀k ∈ Z lim P(Gn = k) = 0 .
n→+∞
92. Sia X una v.a. uniformemente distribuita nell’intervallo (0, 1). Si consideri lo sviluppo
di X in base 10: X xn
X=
10n
n∈N
con xn ∈ {0, 1, . . . , 9}. Qual è la probabilità che in tale sviluppo non compaia mai la cifra
5.
93. Le v.a. X1 , . . . , Xn si dicono scambiabili se la loro f.r. congiunta è una funzione simme-
trica, vale a dire se è invariante per permutazioni. Una successione di v.a. si dice scambiabile
se tale è ogni suo sottoinsieme finito.
(a) Se le v.a. X1 , X2 , . . . , Xn sono scambiabili, sono anche isonome;
(b) se le v.a. X1 , X2 , . . . , Xn indipendenti e isonome sono scambiabili;
(c) se (Xn ) è successione scambiabile nella quale tutte le v.a. hanno varianza finita,
ρ(Xj , Xk ) non dipende dagli indici j e k e ρ(X1 , X2 ) ≥ 0.
94. Per una v.a. X con distribuzione di Pareto di densità
f (x) := 24 x−4 1[2,+∞[
si paragoni la funzione ϕ : ]0, +∞[ → [0, 1] data da
ϕ(δ) := P (|X − E(X)| > δ)
con la limitazione data dalla diseguaglianza di Čebyšev.
95. Sullo spazio di probabilità (Ω, F, P) si consideri la successione (Xn ) di v.a. indipendenti,
tutte di leggePesponenziale di parametro λ > 0, Xn ∼ Γ(λ, 1) per ogni n ∈ N. Posto, al
n
solito, Sn := j=1 Xj , si consideri, per t ≥ 0, la v.a.Nt : Ω → Z+ ∪ {+∞} definita da
X
Nt := 1{Sn ≤t} .
n∈N
(a) Si mostri che, per ogni n ∈ N è
{Nt = n} = {Sn ≤ n} \ {Sn+1 ≤ t} ;
(b) si determini la legge della v.a. Nt ;
(c) si mostri che P(Nt = +∞) = 0;
(d) si mostri che

t
E(Nt ) = .
E(X1 )
96. Siano U una v.a. di legge uniforme su (0, 1) e X1 , X2 , . . . , Xn v.a. indipendenti e isonome
definite sullo stesso spazio di probabilità (Ω, F, P). Se, per j = 1, 2, . . . , n,
P (Xj = 1 | U = x) = x e P (Xj = −1 | U = x) = 1 − x
con x ∈ ]0, 1[ e se Yj := Xj Xj+1 (j = 1, 2, . . . , n − 1), si calcolino media e varianza della
v.a.
n−1
X
S := Yj .
j=1
97. Siano U1 , . . . , Un vettori aleatorı̂ uniformemente distribuiti nel quadrato Q := (0, 1) ×

(0, 1). Se Uj = (Xj , Yj ) (j = 1, 2, . . . , n), siano N e M la v.a. che contano rispettivamente
quante delle v.a. Xj assumono valori in (0, 1/3) e quante delle v.a. Yj assumono valori in
(0, 2/3). Se S è la v.a. che conta quante volte i vettori Uj assumono valori nel rettangolo
(0, 1/3) × (0, 2/3), si calcoli la legge di S subordinata a N e M , cioè si calcoli la probabilità
P (S = l | N = j, M = k) .
98. Tre v.a. indipendenti X0 , X1 e X2 assumono ciascuna valori interi positivi. Si ponga
Y1 := X0 + X1 e Y2 := X0 + X2 .
Siano λ0 , λ1 e λ2 tre costanti strettamente positive. Si determinino le leggi delle tre v.a.
X0 , X1 e X2 , se la legge congiunta di Y1 e Y2 è data da
n∧s
X λk0 λn−k λ2s−k
P(Y1 = n, Y2 = s) = 1
e−(λ0 +λ1 +λ2 ) .
k! (n − k)! (s − k)!
k=0
(Amer. Math. Monthly 103 (1996), 428–429).
99. Si mostri che

1 n k k k k ln n
ln = ln − 1 − ln 1 − +O
n k n n n n n
uniformemente rispetto a k ∈ {0, 1, . . . , n} per n → +∞.
100. Sopra un segmento, che si può supporre di lunghezza unitaria, si segnino a caso ed
indipendentemente due punti. Qual è la probabilità che i tre segmenti cosı́ ottenuti siano i
lati di un triangolo?
101. Siano X e Y due v.a. indipendenti, entrambe di legge N (0, 1). Si determinino:
(a) la legge della v.a. X − Y ;
√
(b) la legge del vettore (X, 2 Y );
(c) la legge del vettore (X, X − Y );
(d) la legge del vettore aleatorio (X + Y, X − Y ); sono indipendenti le componenti X + Y
e X − Y di tale vettore?
102. Siano date le matrici

1 2 3 1 5 −2
A= B= C= .
2 1 2 4 −2 4
Quali tra queste sono matrici di varianza–covarianza?
Bibliografia
[1] D. André, Solution directe du problème résolu par M. Bertrand, C.R. Acad. Sci. Paris
105, 436–437 (1887).
[2] K. Baclawski, M. Cerasoli, G.C. Rota, Introduzione alla probabilità, Monografie
dell’Unione Matematica Italiana, Pitagora, Bologna, 1984.
[3] P. Baldi, Calcolo delle probabilità e statistica, McGraw–Hill, Milano, 1992.
[4] P. Baldi, R. Giuliano, L. Ladelli, Laboratorio di statistica e probabilità, McGraw–Hill,
Milano, 1995.
[5] D.R Bellhouse, Abraham de Moivre: setting the stage for classical probability and its
applications, CRC Press, Boca Raton FL, 2011.
[6] S. Bernstein, Démonstration du théorème de Weierstrass fondée sur le calcul des
probabilités, Soob. Charkov Mat. Obs. 13, 1–2 (1912).
[7] I.J. Bienaymé, Considérations à l’appui de la découverte de Laplace sur la loi des
probabilité dans la méthode des moindres carrés, C.R. Acad. Sci. Paris 37, 309–324
(1853).
[8] I.J. Bienaymé, Considérations à l’appui de la découverte de Laplace sur la loi des
probabilité dans la méthode des moindres carrés, J. Math. Pures Appl. (2) 12, 158–176
(1867).
[9] P. Billingsley, Probability and Measure, Wiley, New York, 1979; terza edizione, 1995.
[10] R.P. Boas jr., A primer of real functions, Mathematical Association of America,
Washington 1960.
[11] É. Borel, Mécanique statistique et irréversibilité, J. Phys. 5e série 3, 189-196 (1913).
[12] C.B. Boyer, A history of mathematics, Wiley, New York, 1968; traduzione italiana
“Storia della matematica”, Arnoldo Mondadori, Milano, 1980.
[13] R.A. Brualdi, Introductory Combinatorics, Elsevier North–Holland, New York 1977.
[14] A. Buonocore, A. Di Crescenzo, L.M. Ricciardi, Appunti di probabilità, Liguori,
Napoli, 2011.
[15] T. Cacoullos, Exercises in probability, Springer, New York, 1989.
[16] G. Castelnuovo, Calcolo delle Probabilità, Zanichelli, Bologna, 1926 (ristampa del
1976).
[17] P.L. Čebyšev, Des valeurs moyennes, J. Math. Pures Appl. (2) 12, 177– 184 (1867);
traduzione inglese in Smith (1929).
[18] M. Cerasoli, Problemi Risolti di Calcolo delle Probabilità, Ambrosiana, Milano, 1991.
119
120 BIBLIOGRAFIA
[19] Y. S. Chow, H. Teicher, Probability Theory. Independence, Interchangeability,

Martingales, Springer, New York–Berlin, 1978.
[20] H. Cramér, Mathematical methods of statistics, Princeton University Press, 1946.
[21] H. Cramér, Half a century with probability theory: some personal recollections, Ann.
Probab. 4, 509–546 (1976); anche in Cramér (1994), pp. 1352–1389.
[22] N. Cufaro Petroni, Lezioni di Calcolo delle Probabilità, Edizioni dal Sud, Modugno
(Bari) (1996).
[23] G. Dall’Aglio, Calcolo delle Probabilità, Zanichelli, Bologna, 1987.
[24] J.W. Dauben, The history of mathematics from antiquity to the present. A selective
bibliography, Garland, New York–London, 1985.
[25] B. de Finetti, Teoria della probabilità, Boringhieri, Torino, 1970.
[26] B. de Finetti, Probabilità, voce del vol. 10 dell’Enciclopedia Einaudi, Torino, 1980.
[27] J. Dieudonné, Abrégé d’histoire des mathématiques 1700–1900, Vol. II, Hermann,
Pari, 1978.
[28] W. Feller, An Introduction to Probability Theory and Its Applications. vol. I, Wiley,
New York, 1950; terza ed., 1968.
[29] T.L. Fine, Theories of probability. An examination of foundations, Academic Press,

New York–London, 1973.
[30] B.V. Gnedenko, The Theory of probability, Mir, Moscow, 1968; traduzione italiana
Teoria delle Probabilità, Editori Riuniti, Roma, 1985.
[31] G. Grimmett, D. Stirzaker, One Thousand Exercises in Probability, Oxford University

Press, 2001.
[32] C.C. Heyde, E. Seneta, I.J. Bienaymé: statistical theory anticipated, Springer, New
York, 1977.
[33] C.C. Heyde, E. Seneta, Statistician of the centuries, Springer, New York, 2001.
[34] N.L. Johnson, S. Kotz, A.W. Kemp, Univariate Discrete Distributions, Wiley, New
York (2nd ed.), 1993.
[35] M. Kline, Mathematical thought from ancient to modern times, Oxford University
Press, New York, 1972; traduzione italiana, Einaudi, Torino.
[36] G. Koch, La matematica del probabile, Aracne, Roma, 1997.
[37] A. N. Kolmogorov, Grundbegriffe der Wahrscheinlichkeitsrechnung, Springer, Berlin,

1933; traduzione inglese Foundations of probability, Chelsea, New York, 1950.
[38] S. Kotz, N.L Johnson, Encyclopedia of Statistical Sciences, Wiley, New York, 1982–
1988.
[39] L. Le Cam, The central limit theorem around 1935, Statistical Science 1, 78-91, 1986.
[40] G. Letta, Probabilità Elementare. Compendio di teoria–Problemi risolti, Zanichelli,

Bologna, 1993.
[41] M. Loève, Probability Theory, Van Nostrand, New York, 1963; quarta edizione in due
volumi Probability Theory I, II, Springer, New York–Heidelberg–Berlin, 1977– 78.
BIBLIOGRAFIA 121
[42] M. Loève, Calcul des probabilités, in (Dieudonné, 1978), pp. 277–313.
[43] G. Loria, Storia della matematiche dall’alba della civiltà al tramonto del XIX secolo,
Hoepli, Milano, 1950; ristampa, Cisalpino–Goliardica, Modena, 1982.
[44] L. E. Maistrov, Probability Theory. A Historical Sketch, Academic Press, New York,
1974.
[45] A.A. Markov, Izv. Fiz.–Matem. Obsch. Kazan Univ. (2) 8, 110–128 (1906); anche in
(Markov, 1951).
[46] A.A. Markov, Ischishenie Veroiatnostei (Calcolo delle Probabilità), Gosizdat, Mosca,
1913.
[47] A.A. Markov, Izbrannie Trudy, ANSSR, Leningrado, 1951.
[48] R. von Mises, Über Auftellungs und Besetzungswahrscheinlichkeiten, Rev. Fac. Sci.
Istanbul, 4, 145–163 (1932); reprinted in Selected Papers of R. Von Mises, Vol. 2,
Amer. Math. Soc., Providence, RI, pp. 313–331.
[49] E. Parzen, Modern probability theory and its applications, Wiley, New York, 1960;
traduzione italiana, La moderna teoria della probabilità e le sue applicazioni, Franco
Angeli, Milano, 1976.
[50] N. Pintacuda, Coupons collectors via the martingales, Bull. Un. Mat. Ital. A (5) 17,
174–177 (1980).
[51] N. Pintacuda, Primo corso di probabilità, Muzzio, Padova, 1983.
[52] G. Pólya, Über den zentralen Grenzwertsatz der Wahrscheinlichkeitsrechnung und das
Momentenproblem, Math. Zeit. 8, 171–181 (1920).
[53] G. Pólya, Über eine Aufgabe der Wahrscheinlichkeitsrechnung betreffend die Infahrt
in Straßenretz, Math. Ann. 84, 149–160 (1921).
[54] N.L. Rabinovitch, Probability in the Talmud, Biometrika 56, 437–441 (1969).
[55] H. Robbins, A remark on Stirling’s formula, Amer. Math. Monthly 62, 26–29 (1962).
[56] J.P. Romano, A.F. Siegel, Counterexamples in probability and statistics, Wadsworth
& Brooks/Cole, Monterey CA, 1986.
[57] H.J. Ryser, Combinatorial mathematics, Mathematics Association of America,

Washington, 1963.
[58] R. Scozzafava, La probabilità soggettiva e le sue applicazioni, Veschi, Roma, 1989.
[59] O.B. Sheynin, Poisson’s work on probability, Arch. Hist. Exact Sci. 18, 245–300
(1978).
[60] D.E. Smith, A source book in mathematics, McGraw–Hill, New York, 1929; ristampa
in due volumi, Dover, New York, 1959.
[61] J.M. Stoyanov, Counterexamples in probability, Wiley, Chichester–New York, 1987.
[62] D. Struik, A concise history of mathematics, Dover, New York, 1947; traduzione
italiana, Matematica: un profilo storico, Il Mulino, Bologna, 1981.
[63] G.J. Székely, Paradoxes in probability theory and mathematical statistics, Reidel, Dor-
drecht, 1986.
122 BIBLIOGRAFIA
[64] K. Weierstraß, Über die analytische Darstellbarkeit sogennanter willkülicher Funk-

tionen reller Argumente, Sitzungsber. Akad. Wiss. Berlin, 633–639; 789– 805 (1885);
anche in Werke. Vol 3, Preuss. Akad. Wiss., 1903.
[65] P. Whittle, Probability via expectation, Springer, New York, 1992.

Probabilità (Laurea Triennale)

Загружено:

Сведения о документе

Авторское право

Доступные форматы

Поделиться этим документом

Поделиться или встроить документ

Параметры публикации

Этот документ был вам полезен?

Это неприемлемый материал?

Авторское право:

Доступные форматы

Probabilità (Laurea Triennale)

Загружено:

Авторское право:

Доступные форматы

Introduzione alla Probabilità

Prof. Carlo Sempi

1.1 Che cos’è la probabilità?

Il concetto di probabilità dovrebbe essere introdotto mediante una definizione pura-

ed è riassunta nella formula

Esempio 1.1.2. Si supponga di lanciare un dado; in questo caso si può scrivere Ω =

Esempio 1.1.3. Come ultimo esempio si prenda in considerazione la misura dell’altezza

Ω = {50, 50.5, 51, 51.5, . . . , 299.5, 300} .

Infine, se uno strumento consentisse di misurare le altezze nel continuo, si adotterebbe

1.2 Operazioni sugli insiemi

La differenza di due insiemi A, B ⊂ Ω è definita da

La differenza simmetrica di due insiemi è definita da

Ovviamente, 1Ω = 1 e 1∅ = 0 (le funzioni identicamente eguali a 1 e 0, rispettivamente). Nei

Ricordiamo che un’operazione binaria ∗ sopra un dato insieme E, si dice stabile se il

Naturalmente, se A è un’algebra (di sottoinsiemi di Ω) e se A e B sono in A, allora vi

Definizione 1.2.2. Si chiama tribú, o σ–algebra, una famiglia F di sottoinsiemi di Ω,

Teorema 1.2.1. Sia F una tribú di sottoinsiemi di Ω. Allora

(a) F è stabile per le unioni finite:

(b) F è stabile rispetto alle intersezioni numerabili:

(c) F è stabile rispetto alle intersezioni finite:

Teorema 1.2.2. Se {Fι : ι ∈ I} è un’arbitraria famiglia di tribú di sottoinsiemi di Ω, è

Quest’ultimo risultato consente di risolvere il problema dell’esistenza della piú piccola

(a) le semirette del tipo ] − ∞, x] (x ∈ R);

(b) gli insiemi aperti di R;

(c) gli insiemi chiusi di R.

Ora ]x, +∞[ = ∪n∈N ]x, x + n] che appartiene a B onde

Infine ]x, y[ = ∪n∈N ]x, y − 1/n] ∈ B1 . Dunque B ⊂ B1 e quindi B1 = B.

1.3 Probabilità discrete

(P.1) P(A) ≥ 0 per ogni insieme A ∈ F;

Si consideri una successione (An ) tale che A1 = Ω e An = ∅ per n ≥ 2; si tratta, eviden-

In un insieme finito risulta impossibile considerare una successione di insiemi disgiunti

Infatti, per la distributività delle operazioni di unione e intersezione, si ha

che è un’unione disgiunta, onde P(B) = P(B ∩ A) + P(B ∩ Ac ).

P(Ac ) = 1 − P(A) . (1.3.4)

A⊂B =⇒ P(A) ≤ P(B) . (1.3.6)

allora, posto A := ∪n∈N An , è

(b) Se (An ) è una successione decrescente di insiemi di F, An ∈ F per ogni n ∈ N,

allora, posto A := ∩n∈N An , è

La nuova successione è costituita da insiemi disgiunti, Bk ∩ Bn = ∅ se k = 6 n; infatti,

Se j ≤ n, si ha Bj ⊂ Aj ⊂ An , sicché vale l’inclusione

Per dimostrare l’inclusione inversa, si consideri un qualsiasi punto ω di An e si introduca

k = k(ω) := min{j ∈ {1, 2, . . . , n} : ω ∈ Bj } ,

Ciò stabilisce la (1.3.12).

Dalla (1.3.12) e dalla proprietà di additività finita si ottiene, per ogni n ∈ N,

d’altro canto, segue dalla definizione di somma di una serie che

vale a dire la (1.3.10).

ciò che dimostra la (1.3.11).

Sia Ω un insieme finito o numerabile, con Ω = {ω1 , . . . , ωn , . . . }. È naturale supporre che

1.4 Alcuni problemi d’urna

numero delle funzioni iniettive da un insieme di cardinalità k ad uno di cardinalità n, si ha,

rappresenta tutti i possibili risultati nell’estrazione delle r palline. Si chiede di calcolare la

Si ha N (Ωk ) = nk (che è il numero delle disposizioni con ripetizione di n oggetti a k a k,

min {k ∈ N : P(Ack ) > 1/2} = 23 .

Esempio 1.4.3. (Probabilità di una coincidenza). Si abbiano n urne numerate da 1 a n e

estratti da {1, 2, . . . , n}. Ora N (BJ ) = Db,k Dc,n−k , sicché

che si interpreta dicendo che vi sono b+c

È questo il numero delle combinazioni con ripetizione di N oggetti a n a n. La dimostrazione

ciò che conclude la dimostrazione.

1.5 Probabilità condizionata e indipendenza

Considerazioni elementari giustificano la seguente

Il risultato seguente è evidente

Dimostrazione. Poiché P (∩ni=1 Ai ) > 0, e

Proposizione 1.5.3. Se {An } è un sistema di costituenti, vale il teorema delle probabilità

Dimostrazione. L’asserto segue dall’osservazione