Академический Документы
Профессиональный Документы
Культура Документы
= P
o
o u
27
dove
u
la frequenza relativa delle risposte affermative delle unit
che costituiscono il campione.
7
La varianza di
P
, (essendo
u
una variabile casuale binomiale) se si
assume che lestrazione delle unit senza ripetizione (o che il tasso
di sondaggio trascurabile), la seguente
( )
( )
( )
( )
( )
2 2
1 - 2 n
- 1
=
1 - 2
V
= P
V
o o
u u u
Il principale problema nellutilizzo di questo stimatore sta nel fatto
che ha una varianza piuttosto elevata a meno che o non sia molto
diverso da 0,5. In questo caso tuttavia le garanzie di segretezza
allintervista non sono ritenute molto soddisfacenti. Infatti pi o
elevato pi probabile che lintervistato sia nella condizione di dover
dare una risposta vera alla prima domanda.
Un metodo alternativo a quello di Warner fu proposto da Simmonis
(Horvitz et al. 1967) che pens di sostituire la seconda domanda con
una domanda neutra che riguarda un carattere diffuso nellintera
popolazione oggetto dinteresse e non collegato in alcun modo alla
domanda principale. La frequenza del carattere nella popolazione
intervistata o nota oppure viene stimata; il valore di questa frequenza
viene indicato con
e
P
che soddisfa la condizione
1 P 0
e
s s
Nel corso dellintervista si pongono (per esempio) le seguenti
domande:
Consuma eroina ?
Si
No
E nato nella prima decade del mese ?
Si
No
Anche in questo caso la risposta alla prima o alla seconda domanda
dipende dal realizzarsi o meno dell'evento E con probabilit nota o. Il
7
Anche ricorrendo al primo metodo illustrato ovvero quello in cui si propongono
due domande (una in forma positiva l'altra in froma negativa) si ottiene la
stessa formula per stimare P.
28
risultato di questo evento, lo ripetiamo, conosciuto solamente
dallintervistato.
Quando si verifica l'evento E, con probabilit nota
o
, l'intervistato
fornisce un risposta veritiera alla prima domanda. In caso contrario,
ovvero quando si verifica levento
E
con probabilit (1-),
lintervistato fornisce la risposta veritiera alla seconda domanda.
In questa situazione la probabilit di ottenere una risposta affermativa
diventa
( ) P - 1 + P =
e
o o u
dove
P
e
la frequenza relativa delle unit della popolazione che
rispondono affermativamente alla seconda domanda. Questo metodo
presuppone, come si gi fatto osservare, che sia conosciuto il valore
P
e
; in alternativa questo valore pu essere appositamente stimato
ricorrendo ad un secondo campione
8
.
Si pu allora calcolare lo stimatore
( )
o
o
e
P - -
= P
1
u
la cui varianza
( )
( ) ( )
2
- 1
=
V
=
o o n
P V
u u u
E stato dimostrato che il metodo di Simmonis, purch
P
e
non sia
inferiore ad 1/3, pi efficiente di quello di Warner. Anche la
varianza di questo stimatore diminuisce se o ha dei valori elevati ma,
come si gi avuto occasione di osservare, diminuiscono pure le
garanzie di segretezza che si offrono allintervistato.
Il metodo delle risposte casualizzate stato studiato e ripreso da molti
autori ed stato esteso a domande che ammettono pi riposte ed anche
a domande riguardanti caratteri quantitativi sia discreti che continui
(Horvitz et al., 1975; Fox e Tracy, 1986).
8
Nel caso della domanda utilizzata in questo esempio (E' nato nella prima
decade del mese) la frequenza della risposta conosciuta dato che si sa
chele nascite si distribuiscono in modo uniforme nelle tre decadi dei mesi.
29
Tuttavia, per quanti sforzi si facciano per eliminare le cause delle
mancate risposte totali, rimane sempre quello che Cochran (1977)
chiama il nocciolo duro dei non rispondenti, costituito da quelle unit
che, per vari motivi, non possono o non vogliono essere intervistate.
Se la percentuale delle mancate risposte totali piccola o se vi sono
motivi per ritenere che le caratteristiche o i comportamenti dei non
rispondenti non differiscano in media da quelli dei rispondenti il
problema indotto dall'errore di non risposta totale pu essere ignorato.
L'errore di mancata risposta totale misurabile con un modello
analogo a quello utilizzato per l'errore di mancata copertura. Tale
errore funzione del tasso di mancata risposta
W
nr
ovvero la
percentuale di non rispondenti, e dalla differenza, nella popolazione
obbiettivo, dei valori medi
Y e Y
r nr
Quindi l'errore di mancata risposta, per lintera popolazione,
misurato dalla seguente espressione:
( )
Y Y W Y Y
r nr r nr
=
.
Anche per questa misura valgono le stesse considerazioni proposte
quando si trattato della misura dell'errore di mancata copertura. Per
valutare il peso di questo errore bisogna evidentemente conoscere il
tasso di non risposta W
nr
ed avere informazioni sulla differenza tra
Y
r
ed
Y
nr
.
Il tasso di non risposta
W
nr
si ricava dagli indicatori relativi
all'andamento dell'indagine.
Le informazioni sulle eventuali differenze tra
Y
r
ed
Y
nr
si possono
ottenere solamente da dati esterni od aggiuntivi rispetto l'indagine.
Tali informazioni possono essere ricavate:
- da una apposita intervista su un campione di non rispondenti fatta
utilizzando un'altra tecnica,
- da informazioni derivate da precedenti indagine realizzate sulla
medesima popolazione,
- da informazioni fornite da unit che hanno le medesime
caratteristiche
dei non rispondenti e che hanno collaborato all'indagine.
L'errore di non risposta totale produce una distorsione nelle
stime dei parametri misura; nel caso in cui si stimi la media di un
carattere Y tale distorsione tanto maggiore quanto maggiore il
30
tasso di non risposta (
W
nr
) e la differenza tra la media della
popolazione rispondente (
Y
r
) e quella della popolazione non
rispondente (
Y
nr
).
La distorsione causata dall'errore di non risposta non diminuisce
allaumentare della numerosit campionaria; pu invece verificarsi
una situazione opposta cos che in campioni molto numerosi
possibile che l'errore sistematico della stima sia relativamente
maggiore di quello dello scarto quadratico medio campionario.
Nel caso di un campione casuale semplice, in presenza dell'errore di
non risposta totale, il campione risulta inoltre meno numeroso di
quanto previsto, quindi la varianza delle stime risulta accresciuta.
Per migliorare la qualit delle rilevazione, nel caso di mancate
risposte totali, sono stati proposti vari procedimenti che possono
essere classificati in due gruppi: in uno si trovano i metodi che
vengono impiegati nella fase della raccolta dei dati, nellaltro i metodi
che sono utilizzati nella fase dellanalisi dei dati.
Si presenteranno di seguito i principali approcci proposti dalla
letteratura iniziando dai metodi impiegati nella fase di raccolta dei
dati
Nel caso di indagini campionarie un metodo utilizzato durante
la rilevazione sul campo consiste nel sostituire le unit non
rispondenti con altre in precedenza selezionate dalla medesima lista.
Tale tecnica ripristina la numerosit campionaria programmata e
quindi si eliminano le influenze sull'errore di campionamento; tuttavia
possono rimanere effetti distorsivi se la popolazione dei rispondenti, a
cui appartengono le unit sostitutive, presenta caratteristiche differenti
da quella dei non rispondenti.
Hansen e Hurwitz (1946) hanno proposto un metodo che
prevede di ricontattare per l'intervista un campione delle persone che
non hanno risposto utilizzando un'altra tecnica di somministrazione
del questionario. Nei casi di interviste telefoniche o di indagini postali
si ricorre ad interviste dirette e, viceversa, nel caso di indagine diretta,
ad un sottocampione tramite intervista telefonica.
Sia n il numero di questionari spediti e
n
1
il numero di quelli che sono
stati restituiti debitamente compilati. Posto
n n n
2
=
1
la tecnica
prevede che
n k
2
/
dei non rispondenti vengano visitati dagli
intervistatori, dove k > 1 una costante prefissata.
31
La popolazione considerata come divisa in due strati: il primo, che
comprende una frazione pari a
W
1
consiste degli individui che
rispondono al questionario postale, gli altri, la cui frequenza relativa
viene denotata con
W W
2 1
1 =
, che per ipotesi sono tutti disposti a
rispondere agli intervistatori, formano un secondo strato.
Indicate con Y e Y
1 2
le medie nei due strati, la media generale della
popolazione data da:
Y WY WY = +
1 1 2 2
Dal campione si ottiene la stima corrispondente:
y w y w y = +
1 1 2 2
dove
y e y
1 2
sono le medie relative, rispettivamente, al sondaggio
postale e alle interviste, con
w n n n n
1 1 2
= = / / e w
2
. Se si verifica
l'ipotesi, non sempre del tutto realistica, che nella seconda fase tutti
rispondano, lo stimatore corretto,
( ) E y Y =
.
Un altro metodo quello della domanda cruciale; al momento
del rifiuto dell'intervista, durante i contatti preliminari e
nell'imminente interruzione degli stessi, l'intervistatore deve affrettarsi
a porre una sola domanda in sostituzione del nucleo centrale
dell'intervista; a quanti non sono reperibili presso il loro domicilio il
quesito cruciale pu essere posto telefonicamente. Se i due gruppi, dei
rispondenti e dei non rispondenti, hanno risposto alla domanda
cruciale questa informazione pu essere utilizzata per migliorare la
stima della variabile in questione, con riferimento, anche in questo
caso, alla stima del valore medio di un carattere Y essendo
y
r
il
valore medio campionario della variabile cruciale per rispondenti ( n
r
)
ed
y
nr
quello per i non rispondenti (
n
nr
) e quindi la stima pu essere
calcolata utilizzando l'espressione seguente nella quale compaiono
come pesi le proporzioni dei rispondenti e dei non rispondenti:
y
n
n
y
n
n
y
r
r
nr
nr
= +
Lo stimatore corretto solo se coloro che rispondono alla domanda
cruciale sono un campione causale, quindi non selezionato, dei non
rispondenti.
32
Altri approcci per migliorare la qualit delle rilevazioni in
presenza di mancate risposte totali consistono, come si detto,
nell'intervenire a livello dell'analisi dei dati.
Una tecnica molto diffusa quella della ponderazione che serve
a riprorzionare la composizione del campione rispetto a quella della
popolazione obbiettivo, da cui si discosta a causa della mancanza di
alcune delle unit del campione, cos da poter eliminare gran parte
della distorsione causata da tale mancanza.
Anche l'applicazione di questa tecnica si fonda sull'ipotesi che, a
parit di certe caratteristiche della popolazione correlate con la
variabile di interesse, le determinazioni assunte da questa non si
modifichino sostanzialmente passando da coloro che hanno risposto a
coloro che non hanno risposto. L'accettabilit di tale ipotesi dipende
naturalmente dal profilo dei non rispondenti e dalla variabile
considerata.
Nel caso della stima della media aritmetica di un carattere Y, si
supponga di aver suddiviso il campione in C classi, essendo n la
numerosit del campione e
n n n
C 1 2
, ,... ,
le unit campionarie di
ciascuna classe. Siano ancora
n n n
r r Cr 1 2
, ,... ,
i rispondenti nelle C
classi. Queste classi vengono scelte in funzione del carattere
analizzato in modo da poter fare lipotesi che per ciascuna di queste
classi il valore della media aritmetica del carattere Y dei rispondenti
sia uguale a quello dei non rispondenti ovvero che in ciascuna classe
leffetto selezione non esista o meglio sia minimo. Per compensare le
non risposte viene attribuito un fattore correttivo ad ogni classe, nel
senso che ad ogni valore campionario
y
ij
(con i = 1, 2,..., C e j = 1,
2,...,
n
ir
) si associa il peso
n n
i ir
/
ossia il reciproco del tasso di
risposta di ciascuna classe i. Ci equivale ad imputare a ciascun non
rispondente il valore medio delle informazioni rilevate nella classe a
cui risulta attribuito.
Lo stimatore della media aritmetica dato in questo caso
dall'espressione:
( )
( )
y
n n y
n n
p y
i ir ij
j
n
i
C
i ir
j
n
i
C i
i
C
ir
ir
ir
= =
/
/
dove:
y
ir
indica il valore medio campionario calcolato sui soli rispondenti
della classe i-esima,
33
p
i
indica il peso relativo di ciascuna classe i-esima nel campione
essendo
p n n
i i
= /
.
Si consideri questo esempio:
Per stimare il consumo annuale medio di un cosmetico si ricorre ad un
indagine campionaria. Il campione casuale utilizzato per lindagine
di 3.000 unit, conclusa lindagine risulta che i rispondenti sono 2406
e i non rispondenti sono 594, il tasso di non risposta quindi pari a
19,8%. Il valore dello stimatore
y
(numero medio di unit di
cosmetico acquistate dalla popolazione obbiettivo nellanno di
riferimento) pari a 15,05.
Le informazioni desunte da precedenti indagini assicurano che il
comportamento dacquisto dei consumatori di questo cosmetico
dipende pressoch esclusivamente dai carattere sesso ed et, secondo
le modalit giovani (15-34 anni) e adulti (35-54 anni); si rende cos
possibile la ripartizione, della popolazione obbiettivo, in quattro
gruppi: MG, MA, FG, FA.
Si suddivide quindi sia il campione iniziale che quello dei rispondenti
secondo i quattro gruppi indicati; le numerosit assolute e percentuali
ottenute sono riportati nella tabella seguente.
E evidente che i non rispondenti sono una popolazione selezionata; si
nota, infatti, una sovrarappresentazione della popolazione giovane (sia
maschile che femminile ) a cui corrsisponde una
sottorappresentazione della popolazione anziana.
Il fenomeno della selezione del campione ha come conseguenze che lo
stimatore
R
y
sia distorto e che, in questo caso, sottostimi il valore
vero (media di unit di cosmetico acquistate in un anno), dato che la
popolazione giovane, sia maschile che femminile, presenta una
propensione molto pi bassa, rispetto alla popolazione anziana,
allacquisto del cosmetico in questione, come mostrano le stime
calcolate per i quattro gruppi.
GR N
T
% N
R
%
MG 600 20 560 23,3
MA 1050 35 748 31,1
FG 450 15 421 17,5
FA 900 30 677 28,1
TOT 3000 100 2406 100,0
34
Applicando il metodo della ponderazione si pu eliminare la
distorsione e calcolare lo stimatore corretto
T
y
.
Si ricorda che lipotesi fondante il metodo della ponderazione
permette di affermare che nei quattro gruppi, in cui stata suddivisa la
popolazione, il comportamento dacquisto dei rispondeti e dei non
rispondenti il medesimo.
Il valore dello stimatore corretto (
T
y
=16,05) si ottiene calcolando la
sommatoria della media ponderata dei degli stimatori dei quattro
gruppi, utilizzando come pesi i valori percentuali dei quattro gruppi
nella popolazione obbiettivo.
La tecnica della post-stratificazione, che presenta forti analogie con
quella della ponderazione, consiste nel classificare a posteriori le
informazioni campionarie, utilizzando in tal modo informazioni
raccolte dallindagine, per ridurre la distorsione derivante dalle
mancate risposte (o dalla mancata copertura di lista).
Nel pi semplice dei casi si supponga di suddividere la popolazione in
L classi in base alle modalit di un carattere qualitativo o quantitativo
(Y) di cui sia nota la distribuzione nella popolazione. Sia
P
h
il peso
relativo della h-esima classe e siano
W
rh
e W
nrh
, rispettivamente, la
frazione dei rispondenti e quella dei non rispondenti nella stessa
classe. La media campionaria dei rispondenti si visto essere uno
stimatore distorto.
Si consideri lo stimatore
y P y
ps h rh
h
L
=
=
1
dove
y
rh
la media campionaria delle unit rispondenti nella
sottoclasse h.
Applicando, allinterno di ogni classe, il modello di errore che stato
analizzato in apertura del paragrafo ovvero
( )
Y Y W Y Y
r nr r nr
=
GR R
%
R
y
T
%
T
y
MG 23,3 4 20 4
MA 31,1 20 35 20
FG 17,5 5 15 5
FA 28,1 25 30 25
TOT 100,0 15,05 100 16,05
35
la distorsione dello stimatore
( ) ( ) B y P W Y Y
ps h nrh
h
L
rh nrh
=
=
1
dove
Y e Y
rh nrh
sono le medie dei rispondenti e dei non rispondenti
nella classe h. Il vantaggio di questo stimatore sta nel fatto che se
Y Y
rh nrh
=
, lo stimatore corretto.
Il punto cruciale dei metodi ora descritti la suddivisione in
classi in modo tale che siano, rispetto al carattere rilevato, il pi
possibile eterogenee tra di loro ed omogenee al loro interno (ovvero
che al loro interno i non rispondenti differiscano, mediamente, il meno
possibile dai rispondenti). Questo perch sia realistico fare lipotesi
che, allinterno delle classi identificate in base alle variabili correlate
al carattere dinteresse, la differenza tra
Y e Y
rh nrh
sia nulla o per lo
meno minima. Le classi definite allo scopo di ridurre la distorsione
per mancate risposte sono dette classi di aggiustamento per mancate
risposte. Se i pesi
P
h
delle classi non sono noti conviene sostituirli con
le loro stime campionarie
p n n
h h
= /
.
Si tenga infine presente che occorre evitare un numero eccessivo di
classi, dato che al diminuire del numero dei rispondenti di ciascuna
classe aumenta la variabilit delle stime e quindi aumenta la varianza
dello stimatore
Y
ps
.
Altre tecniche si richiamano al metodo degli stimatori per
regressione che si usa se per i non rispondenti si conoscono le medie
di una o pi variabili ausiliarie tendenti a collegare i valori della
variabile y con i valori delle variabili ausiliarie. Pu essere utilizzato
anche il metodo dello stimatore per quoziente che si pu ritenere come
un caso particolare dello stimatore per regressione ovvero quando un
o dei due parametri, quello dell'intercetta, nullo.
36
Le mancate risposte parziali
La problematica solamente in parte diversa quando le risposte
sono incomplete, quando cio manca l'informazione richiesta in uno o
pi punti del questionario che per nell'insieme ha trovato risposta.
Nel caso di mancate risposte parziali possono essere adottate due
strategie, per un corretto utilizzo dei dati raccolti: tenendo presente
che, quale che sia la strategia adottata, se la causa delle mancate
risposte non strettamente casuale, si avr sempre una distorsione
delle stime.
Una prima strategia consiste nel limitarsi all'utilizzo dell'insieme
dei dati completi ovvero delle unit che hanno risposto a tutti i quesiti;
in questo caso viene assicurata la comparabilit delle stime poich le
statistiche sono calcolate sulla stessa base di dati, tuttavia tale scelta fa
ricadere nel caso delle non risposte totali con tutti i problemi connessi.
In particolare si verifica una forte riduzione della numerosit
campionaria in funzione delle frequenze di mancata risposta sulle
variabili e del numero di queste.
________________________________________________________
Riduzione delle numerosit campionaria in funzione delle percentuali
di mancata risposta
________________________________________________________
Percentuali di Numero delle variabili rilevate
mancata risposta
10 20 50
1% 90% 82% 60%
5% 60% 36% 8%
________________________________________________________
(Fonte: ISTAT op.cit. vol. 6).
________________________________________________________
La seconda strategia ricorrere allutilizzo di metodi che operano
una qualche forma di correzione sfruttando le informazioni contenute
nelle parti compilate dei questionari incompleti, in questo modo si
eliminano gli inconvenienti della prima strategie.
Limputazione dei dati
37
Mentre le mancate risposte totali vengono sostituite
prevalentemente mediante procedimenti basati sulle ponderazioni, le
mancate risposte parziali vengono corrette con l'imputazione di dati
scelti opportunamente al fine di sostituire quelli mancanti. I principali
metodi di imputazione di mancate risposte parziali sono:
I) In alcuni casi possibile risalire con certezza al dato omesso,
sulla base delle informazioni contenute nelle altre risposte. Si tratta
della cos detta imputazione analitica che, laddove possibile,
rappresenta il metodo migliore in quanto fornisce il valore vero.
II) L'eventuale esistenza di legami di dipendenza fra variabili
rilevanti invece alla base dell'imputazione deterministica. Il valore
mancante viene calcolato a partire dai valori assunti da altre variabili
utilizzando le informazioni raccolte presso la stessa unit. Es.:
l'esistenza di una relazione gerarchica tra reddito disponibile e
consumo per le unit intervistate consente di stimare il reddito a
partire dalle informazioni sul consumo.
III) Limputazione da modello utilizza un'equazione di
regressione che lega la variabile oggetto di imputazione ad altre ad
essa correlate (variabili esplicative) disponibili per tutte le unit
campionarie e quindi anche per chi ha risposto parzialmente. L'ipotesi
di base che i coefficienti della relazione stimata a partire da chi ha
fornito risposte complete sono validi anche nel caso di chi ha risposto
in modo parziale. Una volta stimati i coefficienti della relazione,
possibile ricostruire il valore della variabile da imputare.
Criteri da donatore
Alcuni metodi di correzione si basano sui criteri da donatore che
partono dal presupposto che il valore mancante dell'unit del
campione sia imputato ricorrendo ad informazioni desumibili
dall'insieme di coloro che hanno risposto. Tali valori possono essere
generati utilizzando una distribuzione, semplice o congiunta, desunta
da dati puliti, oppure possono dedotti da quelli presenti in una unit
donatrice pulita (in cui non stato riscontrato alcun errore).
I) Un metodo semplice, ma non privo di inconvenienti, quello
di sostituire, ad ogni dato mancante, la corrispondente media
aritmetica ricavata dalle risposte complete. Il metodo presenta per
l'inconveniente di ridurre la variabilit del carattere nel campione con
il rischio di sottostimare la varianza degli stimatori.
38
II) Una variante meno grossolana consiste nel dividere le unit
campionate in classi, a seconda dei valori assunti da una o pi
variabili di controllo, correlate con le altre variabili oggetto d'interesse
nel questionario. Le unit che non hanno completato il questionario
sono assegnate, sulla base delle informazioni fornite, ad un particolare
strato. Per ogni dato mancante si assumono i valori uguali alle medie
aritmetiche osservate tra i rispondenti. Si supponga, ad esempio, che
le unit di cui si esaminano le risposte relative al carattere reddito
siano state classificate in base al sesso, et, grado di istruzione.
Stabilito a quale classe appartenga l'individuo, di cui manca la risposta
al quesito sul reddito, si attribuisce a tale individuo il reddito medio
della classe; in questo modo si preserva, in parte, la variabilit del
carattere nel campione.
III) Un altro metodo che non si allontana di molto da quelli ora
considerati, consiste nel sostituire al dato mancante il valore dell'unit
pi vicina all'interno dello stesso strato, ovvero quello dell'unit per
cui minima la distanza fra i valori assunti dalle variabili controllo. Si
utilizzano dunque funzioni che misurano la distanza fra chi non ha
risposto ed i singoli rispondenti. Un'altra possibilit consiste nel
sostituire al dato mancante la media aritmetica dei valori delle due
unit pi vicine.
Criteri di casualit
Un'alternativa a metodi fin qui considerati consiste
nellutilizzare dei criteri di casualit nel sostituire il dato mancante.
Nella sua forma pi elementare questo metodo consiste nel sostituire
il dato mancante con un dato scelto a caso tra le unit del campione
che hanno risposto. Un metodo pi articolato consiste invece nel
scegliere il dato, sempre casualmente, all'interno di classi di unit
formate secondo i valori di variabili di controllo; queste classi
vengono indicate come classi di imputazione.
E' da sottolineare che i metodi di imputazione si fondano su
ipotesi sottintese (per esempio sull'identit delle distribuzioni nei
rispondenti e nei non rispondenti parziali) e possono dare luogo ad
errori se tali ipotesi, che di solito non si prestano a verifiche dirette,
non corrispondono alla realt.
Inoltre va segnalato che tutti i metodi presentati influenzano le
relazioni fra caratteri. In particolare la covarianza tra due caratteri
risulta minore di quella che si avrebbe se non ci fossero risposte
mancanti; parimenti risultano attenuate le differenze tra le medie (ad
39
esempio tra maschi e femmine se non si tenuto conto del sesso nella
definizione delle classi di imputazione).
Gli errori di misura
Gli errori di misura sono stati definiti come "errori connessi ad
imperfezione negli strumenti di rilevazione o ... all'imprecisione delle
informazioni possedute dagli intervistati e ad errori di risposta"
(Cicchitelli et al. op.cit.).
Rispetto agli errori fin ora esaminati gli errori di misura risultano pi
difficili da identificare e da misurare dato che o si dovrebbero
conoscere i valori veri o si dovrebbe ripetere l'intervista. Il metodo
della ripetizione dell'intervista risulta costoso e non permette di
conoscere con precisione assoluta gli errori di misura perch anch'essa
pu essere interessata da questo tipo di errore. Tuttavia, nonostante
questi limiti, la ripetizione dellintervista, facendo ricorso a campioni,
un metodo molto utilizzato, per il controllo degli errori di misura,
tenendo, conto del fatto che, specialmente nel caso dei censimenti,
anche la sola individuazione di forti differenze pu fornire utili
elementi per la conoscenza dell'errore di misura anche in vista di
indagini future.
In ogni fase dell'indagine si verificano problemi e
comportamenti che possono causare errori di misura. Tuttavia tali
errori, proprio per le loro caratteristiche, emergono essenzialmente
nella fase di raccolta dei dati, per questo motivo sono chiamati anche
errori di risposta, e sono attribuibili al questionario, al rispondente, all
intervistatore ed ai supervisori
9
. Gli errori di misura spesso sono tra di
loro interdipendenti sia nelle cause che negli effetti, per questo motivo
non sempre risulta facile individuare separatamente la loro influenza
sui risultati delle indagini statistiche.
Gli errori dovuti al rispondente
Durante l'intervista gli errori di misura possono derivare da vari
fattori. Quelli collegati al questionario sono gi stati presentati in
precedenza ora si considerino quelli dovuti al rispondente:
9
La tecnica di somministrazione del questionario ha delle influenze
sull'errore di misura allo stesso modo che ha influenza sull'errore di lista e di
non risposta, per questo motivo non la consideriamo tra le cause specifiche
dell'errore di misura.
40
- non comprensione della domanda,
- scarsa motivazione a rispondere,
- poca attenzione e trascuratezza nella compilazione del questionario,
- insufficiente capacit ad elaborare e comunicare la risposta,
- mancanza di informazione del rispondente,
- la comunicazione della risposta condizionata dall'immagine che il
rispondente vuole dare di se,
- il condizionamento esercitato sul rispondente dalla presenza di terze
persone,
- la difficolt a ricordare.
Quando per qualsiasi dei fattori sopra menzionati l'intervistato
indotto a fornire una risposta non accurata si possono verificare due
situazioni: non risponde (errore di non risposta parziale), fornisce
informazioni non vere (errore di misura)
In particolare se la causa dell'errore collegata all'impossibilit
dell'intervistato a fornire risposte accurate perch non in possesso
della conoscenza richiesta, si tratta della cos detta non accuratezza
involontaria. Le possibili cause della non accuratezza involontaria
dipendono dal fatto che l'intervistato non ha mai conosciuto
l'informazione richiesta (ad esempio : l'intervistato non conosce la
motivazione dell'acquisto di un bene utilizzato dall'intero nucleo
familiare) oppure l'informazione stata dimenticata e non esistono
possibilit di ricostruirla. L'effetto in questi casi quello di una non
risposta parziale, tuttavia se il rispondente non vuole ammettere di non
conoscere la vera risposta fornir informazioni non vere (errore di
misura).
Nel caso di risposte che richiedono di fare ricorso alla memoria si pu
presentare un'altra situazione ovvero il rispondente sbaglia la
collocazione temporale dell'evento (errore di misura)
Gli errori dovuti all'intervistatore
I compiti degli intervistatori sono numerosi e quindi numerose
sono pure le possibilit di contribuire al verificarsi degli errori non
campionari. Anche in questo caso gli errori possono essere in gran
parte di misura; non , tuttavia, escluso che si verifichino degli errori
di non risposta.
Si considereranno, in questo contesto, solamente i fattori che entrano
in gioco dal momento in cui l'intervistato accetta di collaborare (quelli
della fase precedente sono gi stati esaminati).
Tali fattori possono essere :
- le domande sono lette diversamente da come sono state formulate
- vengono commessi errori nella trascrizioni delle risposte
41
- la reazione dell'intervistatore pu essere diversa di fronte a situazioni
impreviste o a difficolt di vario genere le risposte degli intervistati
possono quindi non risultare omogenee
- il comportamento dell'intervistatore influenza l'intervistato (si
possono avere sia errori di misura che errori di non risposta).
Gli errori dovuti al supervisore
Il compito del supervisore consiste essenzialmente nel
controllare l'operato degli intervistatori. affinch seguano
scrupolosamente le istruzioni fornite e nell'aiutarli nei casi dubbi o
difficili. Il comportamento del supervisore pu quindi provocare gravi
errori in funzione anche delle diverse modalit di raccolta dei dati.
Gli errori durante la codifica e la registrazione dei dati
Le operazioni di codifica possono generare i seguenti tipi di
errori:
- errori di trascrizione
- errori derivanti dalle insufficienti istruzioni impartite ai codificatori
- errori derivanti dall'attitudine dei codificatori a interpretare in modo
personale la classificazione.
________________________________________________________
Esempio.
Nel caso di codifica di quesiti aperti due codificatori possono dare
un'interpretazione diversa e quindi un codice diverso ad uno stesso
tipo di risposta, la classificazione non adeguata al tipo di risposte
fornite oppure la lista delle modalit per la codifica incompleta
________________________________________________________
Gli errori di codifica sono classificabili tra gli errori di misura ed
producono delle distorsioni nei risultati finali.
Errori di registrazione
I principali tipi di errore che possono essere commessi durante
il processo di registrazione riguardano il valore del dato e la sua
posizione nel record finale.
L'errore rispetto al valore si verifica quando un certo carattere viene
letto o interpretato male e quindi registrato in modo scorretto. Il
secondo tipo di errore accade quando un carattere viene letto e
42
digitato correttamente rispetto al suo valore ma in una posizione errata
sul record.
Questi errori hanno conseguenze sulle successive elaborazione dei
dati. Alcuni errori possono incidere notevolmente sulla coerenza
interna del questionario; se un errore di registrazione interessa una
variabile-guida pu risultare inficiata la sequenza di campi che da
questi dipendono.
L'effetto di un errore di registrazione, che anch'esso un errore di
misura, va quindi valutato nei termini del suo contenuto informativo
nel contesto del questionario.
Identificazione degli errori di misura
Gli errori di misura che non danno luogo ad incongruenze
logiche o a valori fuori campo, non sono determinabili sulla base dei
soli risultati dell'indagine; la loro identificazione e quantificazione
richiede quindi tecniche particolari
.
Il metodo migliore per scoprire e quantificare gli errori di
misura quello di confrontare le quantit rilevate con i valori veri,
questa tecnica praticabile solo con dati che possono essere accertati
obbiettivamente (data di nascita, stato civile, titolo di studio,...).
Unaltra tecnica quello della reintervista che consiste nel
ripetere l'indagine, o parte di essa, tenendo fisse le condizioni generali
e variando le condizioni particolari che si vogliono controllare oppure
utilizzando mezzi di misurazione che si ritengono pi precisi (ad
esempio: le notizie sulla salute possono essere verificate consultando
le cartelle cliniche).
Anche l'errore di misura pu essere composto dall'errore
sistematico (distorsione) e dall'errore variabile. Con il metodo della
reintervista possibile conoscere sia la distorsione sia la varianza
dovute all'errore di misura. La stima di ciascuna componente richiede
una adeguata tecnica di indagine.
La stima della distorsione richiede un processo di misurazione
pi preciso dell'indagine originaria, allo scopo di appurare il valore
vero. Per ottenere questo si pu utilizzare la reintervista con
riconciliazione della risposta che consiste in un ritorno presso un
campione di unit che vengono reintervistate da un intervistatore pi
esperto o dal precedente assistito dal supervisore. L'intervistatore
43
ripropone i medesimi quesiti (eventualmente utilizzando una versione
pi dettagliata del questionario con domande di controllo) avendo a
disposizione le risposte precedentemente fornite e, in caso di
discordanza accertare, con l'aiuto del rispondente, la risposta vera.
Con questa tecnica si pu tentare di attribuire al rilevatore o al
rispondente le differenze riscontrate separando cos le due possibili
cause di errore. Se, inoltre, sono previste domande sui motivi di tali
differenze e sulle modalit della conduzione dell'intervista originaria,
si possono evidenziare altre fonti di errore, quali, ad esempio, le
carenze nel questionario o nelle istruzioni fornite agli intervistatori.
La stima della varianza dell'errore di misura si basa su una
replica indipendente dell'indagine sotto le stesse condizioni generali
ovvero si effettua una reintervista senza riconciliazione. Se
l'obbiettivo la stima della variabilit dovuta, ad esempio, all'effetto
intervistatore, la reintervista viene condotta da intervistatori diversi da
quelli dell'indagine ma dello stesso grado di abilit, di esperienza e di
preparazione lasciando inalterati tutti gli altri aspetti quali il
questionario, la codifica, la registrazione, i controlli automatici di
correzione e cos via. In questo modo si sicuri dell'indipendenza
delle due indagini e dell'equivalenza delle condizioni essenziali; la
differenza tra i due valori osservati consente di valutare l'influenza
delle mutate condizioni particolari (gli intervistatori). In modo
analogo possono essere analizzati, ad esempio, gli effetti degli errori
di codifica o di registrazione, a parit delle altre condizioni.
Un altro metodo con il quale possibile stimare la variabilit
totale non campionaria quello della compenetrazione campionaria
che non implica la reintervista delle unit. Questo metodo stato
introdotto da Mahalanobis (1946) e ripreso da numerosi autori che lo
hanno adattato alle caratteristiche delle indagini oggetto di studio.
Nella sua formulazione standard tale tecnica consiste nel suddividere,
a caso, un campione casuale di n unit in k campioni di uguale
numerosit n' = n/k, ognuno dei quali costituisce quindi un campione
casuale rappresentativo della popolazione di origine.
Ciascuno di questi campioni viene affidato ad un intervistatore.
Questo implica che nel caso di indagini che interessano zone estese
(una macroregione o lintero paese) il rilevatore deve spostarsi su
tutto il territorio con un forte aumento dei costi sia per i viaggi sia per
il maggior tempo che richiedono questi spostamenti. Per contenere tali
costi si pu ricorrere ad un campionamento stratificato
territorialmente ed utilizzare il metodo della compenetrazione
allinterno di ogni strato.
44
L'elemento di casualizzazione cos introdotto, tutti i k campioni infatti
sono casuali e quindi rappresentano tutti la popolazione obbiettivo,
permette, sotto ipotesi non troppo restrittive ed applicando la tecnica
statistica dellanalisi della varianza, di stimare correttamente la
varianza totale della media campionaria che misura l'effetto
intervistatore. Tale stima si ottiene confrontando la varianza tra le
assegnazioni degli intervistatori (che misura la variabilit tra le medie
di ogni campione e la media generale) e la varianza interna alle
assegnazioni degli intervistatori (che misura la varibilit all'interno di
ogni sottocampione); dato che ogni campione casuale la variabilit
tra le medie dei campioni dovuta alla sola azione degli intervistatori.
La stima dell'effetto proxy
Le tecniche fin qui esaminate non permettono di stimare l'errore
di misura dovuto a cause particolari, come l'effetto proxy e l'effetto
ricordo, per la cui stima sono necessarie delle tecniche particolari.
Per valutare l'entit dell'errore dovuto alla risposta fornita da
altri (risposta proxy) necessario programmare un disegno
sperimentale che preveda il ritorno presso l'unit non rispondente.
Tale metodo permette, inoltre, l'analisi dei fattori che influiscono
sull'entit dell'errore (ad esempio: la natura delle domande, le
caratteristiche individuali,...).
Altre tecniche che possono essere utilizzate per determinare e
quantificare l'effetto proxy sono le seguenti:
- il confronto con i medesimi dati provenienti da altra fonte e relativi
all'unit non rispondente
- indagini condotte su due campioni provenienti dalla stessa
popolazione in uno solo dei quali sono ammesse risposte proxy
- la reintervista con riconciliazione effettuata su un campione di unit
per le quali furono ammesse le risposte proxy.
La stima dell'effetto ricordo
La stima dell'errore dovuto a dimenticanza od errata datazione
degli eventi (effetto telescopico) si pu effettuare solamente
ricorrendo a modelli matematici. Il fattore principale che influenza il
ricordo degli eventi passati la lunghezza dell'intervallo di tempo da
considerare ai fini della risposta. E' stato dimostrato empiricamente
(Sudman e Bradburn 1973) che il ricordo (la proporzione di eventi che
l'individuo ricorda) legato all'ampiezza del periodo di tempo su cui
45
viene esercitata la memoria da una funzione di decadimento di tipo
esponenziale, dove per decadimento si intende il tasso di riduzione del
ricordo. L'influenza che il tempo esercita sulla memoria attraverso
l'effetto telescopico, con lo spostamento in avanti nel tempo degli
eventi ricordati, induce invece ad una sovrastima degli eventi ; si deve
quindi, in questo caso, tenere conto dell'influenza della percezione
soggettiva della durata del tempo.
Il modello matematico proposto dai due autori tiene conto
dell'effetto degli errori di omissione e di spostamento in avanti
dell'evento che l'errore di datazione commesso pi frequentemente.
Per stimare l'errore di omissione stato proposto il seguente modello:
( ) r a exp t
0
= - b
1
dove
r
0
= la proporzione di eventi che l'individuo
ricorda,
t = la lunghezza del periodo di ricordo,
b
1
= un paramento che determina la rapidit di
decadimento del ricordo e che dipende da pi
fattori tra cui: l'importanza dell'evento, la
personalit del rispondente, le condizioni
dell'intervista,
a = un parametro che dipende da quei fattori che
inducono anascondere eventi ricordati (a
assume in questo caso valori minori di uno)
10
.
Nel modello proposto si nota che la proporzione di eventi ricordati
(
r
0
) diminuisce rapidamente al crescere della lunghezza del periodo di
ricordo (t) e del parametro (
b
1
).
Per tenere conto della percezione soggettiva del tempo e della sua
influenza sullerrore di misura stato proposto quest'altro modello:
r
t
= log (
b
2
t)/ t
dove:
10
I parametri (
b
1
) e (a) sono calcolati empiricamente.
46
r
t
= l'errore riferito alla lunghezza del periodo di
ricordo,
b
2
= il parametro che trasforma il tempo
cronologico (t) in tempo soggettivo.
Errore di registrazione
Il controllo a campione
Per il controllo della qualit della registrazione si utilizza un
campione di modelli di questionario che vengono nuovamente digitati
e confrontati con quelli provenienti dalle registrazione originale.
Definizione degli standard di qualit
Per valutare se il materiale proveniente dalla registrazione
affidabile e quindi predisporre la procedura di controllo
fondamentale la definizione del livello di qualit che si ritiene
accettabile od auspicabile, in modo da poter determinare un piano di
campionamento che, con prefissata probabilit di errore, consenta di
accertare se la percentuale di errore nel file registrato soddisfa o meno
il prefissato standard.
Si possono considerare diversi approcci per definire la quantit di
errori riferendosi a:
1) rapporto del numero totale di byte errati sul numero di byte utili
(errore totale), (ad esempio: 5 per mille),
2) rapporto del numero medio di record errati sul totale dei record
digitati, (ad esempio: 5 per cento),
3) esame complessivo dei due parametri precedenti.
Piani di campionamento singolo per attributi
Se si assimila il processo di registrazione ad un processo
produttivo, in cui il pezzo prodotto il singolo dato (record) digitato
possibile applicare alla registrazione alcuni controlli utilizzando piani
di campionamento ideati per i controlli industriali.
Nel caso della registrazione si tratta di verificare se il dato digitato
correttamente, cio se buono, o invece difettoso; opportuno allora
utilizzare per il controllo statistico un piano di campionamento
singolo per attributi, dove la caratteristica qualitativa da studiare
appunto la difettosit.
47
Il test di controllo viene effettuato mediante un piano di
campionamento singolo (con una sola estrazione) per attributi (che
discrimina tra pezzi difettosi e non). Dato un lotto di pezzi di
numerosit N, un piano di campionamento singolo definito da due
parametri: n, la dimensione del campione e c, il numero di
accettazione, cio il numero di pezzi difettosi che si disposti ad
accettare nel campione senza che questo comporti la decisione di
considerare inaccettabile la qualit complessiva della produzione e di
respingere pertanto il lotto in esame.
48
APPENDICE
La lista
Si indica con lista sia l'elenco ordinato delle etichette che
contrassegnano tutte le unit della popolazione e che contengono le
informazioni necessarie alla loro individuazione sia tutti quegli
elementi e procedimenti che possono essere usati per selezionare le
unit, nel caso d'indagine campionaria, e, in generale, per reperire le
unit sul campo.
Il termine nominativo viene usato per indicare l'etichetta come
compare nella lista pu trattarsi anche di un indirizzo, di un punto su
una carta topografica, di una cartella clinica, di un numero.
La lista pu contenere, inoltre, per ciascun nominativo, delle
informazioni che la rendano adatta ad essere utilizzata per particolari
operazioni previste dal piano di rilevazione o di campionamento (ad
es.: le variabili da utilizzare nel caso si debba procedere ad una
sostituzione delle unit campionate oppure le variabili necessarie alla
stratificazione
11
).
In molti casi la lista funge anche da archivio di informazioni utilizzato
per il conteggio delle unit (es.: la lista dell'anagrafe per valutare la
consistenza della popolazione) o per il loro raggruppamento in strati
(es.: il codice della circoscrizione amministrativa).
Rispetto alla popolazione obbiettivo la lista deve risultare:
- completa: contenere tutti i nominativi delle unit di rilevazione della
popolazione designata e nessun nominativo estraneo o ripetuto,
- aggiornata: contenere tutti i nominativi della popolazione alla data
pi vicina nel tempo all'indagine,
- informativa: ciascun nominativo deve essere distinguibile dagli altri
ed individuabile.
11
La stratificazione una tecnica che utilizzando caratteri conosciuti della
popolazione tende a migliorare lefficienza del piano di campionamento. Per
procedere ad un campionamento stratificato si suddivide la popolazione,
costituita da N unit, in L sottopopolazioni o strati, all'interno dei quali le
unit siano omogenee secondo criterio che dipendono dai caratteri
conosciuti. Da ciascuno si estrae poi, in modo indipendente, un campione
casuale semplice (Cichitelli et al. 1992).
49
Per la singola indagine si pu costruire una lista oppure
utilizzare un elenco preesistente. La predisposizione di una lista
mirata per l'indagine ed esente da errori risulterebbe dispendiosa, si
tratterebbe infatti di effettuare un censimento (es.: nel caso di una
indagine campionaria a due stadi sulla popolazione occorrerebbe
effettuare il censimento delle famiglie nei comuni campione
12
).
Risulta pi economico e pratico utilizzare liste gi esistenti, anche se
tali liste non possiedono i requisiti sopra indicati. Le liste vengono
aggiornate con cadenze diverse dalle date di riferimento dell'indagine
e spesso risultano incomplete. In questi casi necessario, prima della
rilevazione, sottoporre la lista ad un'opera accurata di revisione e di
aggiornamento.
Le unit oggetto di rilevazione sono dette includibili nella lista e
vengono designate mediante il criterio di includibilit che deriva dalla
definizione della popolazione obbiettivo. Una unit includibile nella
lista se appartiene alla popolazione obbiettivo.
Nel caso si proceda ad un'indagine campionaria bisogna verificare
l'esistenza di una lista nella quale compaiano tutti gli elementi che
costituiscono la popolazione. La lista rappresenta la base, per ci
detta anche base campionaria, da cui si scelgono gli elementi del
campione.
Tale lista deve identificare, senza ambiguit, tutti gli elementi e
fornire per ciascuno delle informazioni (indirizzo) che permettano di
reperirli sul terreno. Un modo per indicare gli elementi consiste nel
classificarli numericamente in modo che:
- tutti gli elementi abbiano un numero,
- due elementi non abbiano lo stesso numero,
- ogni numero corrisponda effettivamente ad un elemento.
Una delle liste pi note quella costituita, a livello comunale, a
partire dai risultati del censimento della popolazione (che in alcuni
paesi, tra cui l'Italia, sono utilizzate anche per aggiornare gli elenchi -
liste- anagrafici
13
), se questi dati contengono degli errori di misura (es.
12
Quando si in presenza di una popolazione le cui unit elementari sono riuniti in
grappoli (nell'esempio i grappoli sono rappresentati dai comuni) possibile
effettuare un campionamento a due stadi che consiste nell'estrarre, senza ripetizione,
un campione causale di grappoli e nell'estrarre, senza ripetizione, da ogni grappolo
estratto un certo numero di unit elementari (Cicchitelli et al. op.cit.).
13
In Italia i comuni devono provvedere in occasione di ogni censimento al
confronto censimento-anagrafe. Questa revisione consiste nel confronto tra le
persone censite residenti ed i residenti iscritti in anagrafe; tale confronto permette di
assicurare la rispondenza dell'anagrafe alla situazione della popolazione risultante ai
50
lerrore di copertura) essi si ripercuotono sulla lista, inoltre essa
rimane invariata per un periodo di molti anni - ovvero per tutto il
periodo intercensuario che solitamente decennale - e non rispecchia
in tal modo l'evoluzione della popolazione. Bench gli elenchi
anagrafici dei comuni siano continuamente aggiornati presentano
rilevanti incompletezze per quel che riguarda i trasferimenti della
residenza delle famiglie. In Italia le liste anagrafiche sono accessibili
solo agli enti pubblici e agli organismi privati con finalit pubbliche.
Si possono invece utilizzare le liste elettorali
14
che sono liste di
cittadini superiori a 18 anni, sono, per legge, aggiornate ogni sei mesi
e sono suddivise per aree territoriali (le sezioni elettorali) di circa 500
elettori. Le liste elettorali sono una buona base campionaria quando la
popolazione obbiettivo quella maggiorenne e possono, inoltre,
essere impiegate per un campionamento a stadi. Se tali liste elettorali
vengono, invece, utilizzate come base campionaria per indagini
familiari bisogna tenere conto che in esse sono presenti tutte le
persone che hanno compiuto 18 anni; quindi pi elevato il numero
dei componenti maggiorenni di una famiglia pi elevata sar la
probabilit che ha la famiglia di essere estratta.
E' inoltre sempre pi frequente l'utilizzo di liste derivate dagli elenchi
degli abbonati al telefono anche in relazione al ricorso, ormai molto
diffuso, alle indagini telefoniche. Tuttavia anche queste liste sono
interessate in questi ultimi anni da problemi di completezza, in
rapporto alla popolazione obbiettivo, causati da due fenomeni
sviluppatisi in questi ultima anni: la diffusione della telefonia mobile e
dei numeri riservati.
Si tenga presente, infine, che una lista anche l'elenco degli iscritti
alla Facolt di Economia dell'Universit degli Studi di Milano-
Bicocca o l'elenco degli associati alla Federtessili della provincia di
Como. Il tipo di lista da utilizzare dipende evidentemente dalla
popolazione obbiettivo dell'indagine.
A questo punto si deve introdurre la distinzione tra popolazione
obbiettivo e popolazione osservata. La prima, si visto, la
popolazione oggetto dinteresse della ricerca, la seconda quella da
cui vengono estratte le unit nel caso di indagini campionarie o la
popolazione totale di riferimento nel caso di indagini totali. Le due
popolazioni possono non coincidere: con un'indagine si vuole, ad es.,
analizzare i consumi delle famiglie presenti nella provincia di Milano
(popolazione obbiettivo) mentre le famiglie osservate ed utilizzate
censimenti e al tempo stesso di apportare le eventuali correzioni ai risultati del
censimento.
14
La consultazione di queste liste consentita a chiunque ne faccia richiesta.
51
come base campionaria sono quelle presenti nell'elenco degli abbonati
al telefono (popolazione osservata).
Nei casi in cui non si disponga di una lista di individui ma di
una lista di gruppi di individui (lista di famiglie, lista di comuni)
questa lista pu essere utilizzata per campionamenti a pi stadi. Si
ricorda che molto interessanti risultano essere le liste che contengono,
oltre alle informazioni necessarie ad identificare l'individuo, anche
altre caratteristiche che possono essere utilizzate per suddividere la
popolazione in strati (campionamento stratificato) al fine di
aumentare la precisione degli stimatori senza aumentare la dimensione
del campione e quindi il costo dell'indagine
Il campionamento
In funzione del tipo di tecniche utilizzate per selezionare il campione,
le indagini campionarie si suddividono in indagini che utilizzano
campioni probabilistici ed in indagini che utilizzano campioni non
probabilistici.
I campioni probabilistici
I campioni probabilistici sono quei campioni in cui ogni unit
della popolazione ha probabilit nota e non nulla di entrare a fare
parte del campione. La selezione probabilistica quindi strettamente
legata a procedure casuali di estrazione del campione. Si pu dire che
quando si seleziona un campione probabilistico si affida al caso il
fatto che esso rappresenti bene le caratteristiche della popolazione
obbiettivo. Il vantaggio dei campioni probabilistici che gli stimatori
hanno propriet conosciute cos che si pu calcolare il loro grado di
precisione.
Linsieme delle informazioni utili allestrazione di un campione
probabilistico la lista o base campionaria che uno strumento di
identificazione e di individuazione degli elementi della popolazione.
Prima di procedere allestrazione di un campione il ricercatore deve
decidere quale disegno campionario (o piano di campionamento)
intende utilizzare a tal fine. Il disegno campionario la procedura
(insieme di tecniche e decisioni) con cui viene formato il campione.
A caratterizzare il disegno campionario concorrono la dimensione del
campione e gli schemi probabilistici che si adottano per lestrazione
delle unit; tale questione strettamente legata al grado di precisione
che si fissa per il risultato dellindagine.
52
La scelta del disegno campionario viene fatta: tenendo conto del tipo
di fenomeno da studiare ed avendo come obbiettivo primario quello di
migliorare la propriet degli stimatori utilizzando al meglio le risorse
disponibili.
Si passeranno ora in rassegna i vari disegni di campionamento.
Il campionamento casuale semplice senza ripetizione
Questo tipo di campionamento il disegno di campionamento
fondamentale. Infatti, pur avendo limitate applicazioni dirette, ha una
straordinaria importanza per due motivi:
- costituisce una tecnica di base elementare che interviene nellambito
di altri disegni;
- costituisce il termine di paragone per altri disegni di cui si voglia
misurare lefficienza relativa (effetto disegno);
Misura dellefficienza:
^ ^
Dati due stimatori 1 e 2 di , entrambi non distorti, si dice che:
^ ^ ^ ^
1 pi efficiente di 2 se: VAR ( 1 ) < VAR ( 2 ).
La misura dellefficienza di due stimatori corretti data da:
^ ^
EFF. = VAR ( 1 ) / VAR ( 2 )
Si noti che, se:
^ ^
- EFF. < 1 1 pi efficiente di 2;
- EFF. = 1 uguale efficienza;
^ ^
- EFF. > 1 1 meno efficiente di 2;
Il campionamento casuale semplice senza riposizione caratterizzato
dal fatto che le unit vengono estratte ad una ad una, rimuovendo dalla
popolazione la singola unit estratta. In questo modo data una
popolazione di N unit, ciascuno dei campioni possibili di n unit ha
la stessa probabilit di essere estratto; inoltre, la probabilit di
inclusione nel campione uguale per tutte le unit della popolazione e
coincide con il tasso di sondaggio f = n / N.
53
Il campionamento stratificato
La stratificazione va annoverata tra le tecniche con cui,
muovendo da talune conoscenze a priori sulla popolazione, si tende
a migliorare lefficienza del piano di campionamento. Si tratta di
una sorta di restrizione cui viene sottoposto il processo aleatorio di
estrazione delle unit campionarie.
Per effettuare un campionamento casuale stratificato si
suddivide la popolazione iniziale, costituita da N unit, in L
sottopopolazioni o strati, allinterno dei quali le unit siano omogenee
per qualche criterio.
Da ciascuno strato si estrae poi, in modo indipendente, un campione
casuale semplice. Bisogna precisare che le caratteristiche per la
stratificazione devono essere note prima della selezione per ogni unit
statistica, che le variabili in base alle quali si suddivide in strati
possono essere di natura qualitativa o quantitativa, che tali variabili
devono essere connesse con la variabile oggetto di studi e che ogni
unit statistica appartiene ad un solo strato.
Tenendo conto delle sue caratteristiche, la tecnica della
stratificazione permette di perseguire i seguenti obbiettivi.
- Individuare sottopopolazioni al massimo omogenee rispetto alla
variabile o alle variabili da rilevare.
Lomogeneit degli strati va intesa in modo diverso a seconda delle
finalit che con la stratificazione si vogliono perseguire.
Un singolo strato potrebbe delimitare uno specifico dominio di studio,
cio una sottopopolazione di cui si vogliono stimare i parametri. Una
stratificazione delle citt, in una indagine a carattere socio-economico,
in grandi, medie e piccole dimensioni, pu, tra laltro essere
giustificata dallopportunit di ottenere risultati (stime) distinti per i
tre tipi di comune, che configurano cos differenti domini di studio.
Una delle motivazioni prevalenti, che sta alla base della
stratificazione, che essa consente un miglioramento delle stime. In
questo contesto lomogeneit va intesa in senso tecnico, cio come
ridotta variabilit del carattere studiato nello strato, che pu essere
misurata ad esempio dalla deviazione standard (scarto quadratico
medio). Si intuisce infatti che la pi forte somiglianza tra le unit di
ciascuno strato fa si che, a livello di strato, il campione rappresenti
meglio le caratteristiche della sottopopolazione di riferimento. Ne
consegue che dal campione stratificato si attendono stime pi
54
efficienti rispetto ad un campione non stratificato della stessa
dimensione.
- Individuare unit che si vogliono osservare con tecniche
particolari.
In unindagine attraverso famiglie si pu decidere di raggiungere
quelle che hanno il telefono tramite questo mezzo e quelle che non lo
possiedono tramite posta o intervista diretta. Oppure, in una indagine
relativa ad aziende industriali, quelle di elevate dimensioni che sono
in numero limitato ma che hanno un peso determinante per la maggior
parte delle variabili di interesse potrebbero essere sistemate in
appositi strati cos da sfruttare lesistenza di liste affidabili per un
campionamento casuale semplice, sistematico o di altro tipo. Per
quanto riguarda invece aziende di piccole dimensioni, a causa del loro
numero elevato e della loro elevata natalit/mortalit, molto difficile
disporre di una lista affidabile; si pu allora ricorrere ad un
campionamento stratificato a due stadi. Nel primo stadio si potrebbero
selezionare i comuni o opportune aree (questo si chiama
campionamento areale) dentro le quali censire le piccole aziende per
poi estrarre un campione.
- Introdurre sulla selezione il massimo controllo, pur mantenendola
casuale.
Nel campionamento da una lista di comuni conveniente mettere in
strati a parte i grandi comuni, per non rischiare di selezionare un
campione casuale semplice che non ne comprenda alcuno.
- Far fronte ad esigenze di tipo operativo.
La stratificazione geografica pu rispondere ad esigenze di tipo
organizzativo, nel senso che i singoli strati possono essere affidati per
rilevazione e controllo a soggetti distinti. Se la raccolta dati
organizzata a livello territoriale (regione, provincia) la stratificazione
geografica permetter di assegnare ad uffici organizzati
territorialmente le unit campionarie presenti su un determinato
territorio.
Se la lista esiste in forma di sottoliste (es. residenti nei comuni, liste
elettorali) conveniente sia dal punto di vista operativo che
economico estrarre il campione dalle sottoliste che identificano cos
degli strati (es. i comuni).
Una stratificazione forzata quella che risulta quando due
sottopopolazioni si trovano su due liste distinte e si preferisce che
restino separate anche ai fini dellindagine. Per esempio, se si estrae
un campione sistematico da liste elettorali, nelle quali le schedine
55
delle femmine seguono quelle dei maschi ed hanno un diverso colore,
si ottiene una stratificazione per sesso della popolazione.
Campionamento a grappoli
Presupposto di questo schema di campionamento la
circostanza che la popolazione sia suddivisa in modo naturale (o
artificiale) in segmenti, in sottoinsiemi di unit elementari legate da
vincoli di continuit spaziali o di altra natura. Si pensi alle famiglie in
unindagine sulle persone, alle classi in unindagine sugli alunni di
una certa scuola, i punti di vendita in unindagine sui clienti di una
catena di supermercati. Questi gruppi di unit (famiglie, classi, punti
di vendita) vengono chiamati grappoli.
Spesso i grappoli si presentano gi precostituiti (come negli esempi
sopra riportati). A volte possibile operare sulla formazione dei
grappoli. Ad esempio, dovendo campionare i comuni italiani, si
possono raggruppare per provincia o per classi di ampiezza
demografica.
In termini generali, con il campionamento a grappoli, le unit
campionarie non vengono scelte in modo diretto, attingendo alla lista
delle unit elementari che compongono la popolazione oggetto di
studio, ma viene estratto un certo numero di grappoli e tutte le unit
ad essi appartenenti entrano a far parte del campione.
Va osservato che tale piano campionario genera campioni di ampiezza
variabile nel caso in cui i grappoli contengano un numero variabile di
unit. Inoltre, rispetto al campionamento casuale semplice,
generalmente meno efficiente dato che le unit campionarie che
provengono dallo stesso grappolo presentano facilmente un certo
grado di somiglianza od omogeneit.
Il procedimento pu essere motivato da ragioni diverse; le
principali sono: la non disponibilit di liste complete relative alle unit
elementari e le necessit o opportunit di tipo organizzativo.
Si consideri di dover svolgere unindagine sulle abitazioni di una
grande citt. Unalternativa ragionevole al campionamento casuale
semplice consiste nel suddividere la citt in aree opportunamente
definite su una mappa, che includano una o pi vie, e che siano di
ampiezza comparabile per quanto riguarda il numero delle abitazioni,
e nel formare poi un campione casuale semplice di aree. Le aree
costituiscono grappoli di unit elementari, cio di abitazioni. In questo
modo si hanno dei notevoli vantaggi di tipo organizzativo ed
56
economico dato che la raccolta dei dati richiede meno tempo (meno
spostamenti) e quindi meno costosa.
Campionamento a stadi
- Campionamento a due stadi
Le ragioni che sottendono la scelta di questo schema sono in
parte comuni al campionamento a grappoli: infatti, vengono scelti
casualmente alcuni grappoli di unit elementari, conseguendo gli
stessi vantaggi dal punto di vista organizzativo ed economico.
Tuttavia, nel caso in esame, solo una parte delle unit elementari
contenute nei grappoli estratti entrano a far parte del campione e
questo ne aumenta lefficienza rispetto ad esso.
Si chiama campionamento a due stadi il piano consistente
nellestrarre un campione casuale di grappoli, e nel selezionare, da
ogni grappolo estratto, un certo numero di unit elementari.
I grappoli, ossia le unit di primo stadio, vengono anche chiamati
unit primarie, mentre sono chiamate unit secondarie gli elementi
estratti al secondo stadio, cio le unit elementari.
Come esempio di un campionamento a due stadi si pu pensare ad una
indagine sulle famiglie in cui il grappolo di unit elementari siano i
comuni e poi da ciascun comune si estrae un dato numero di famiglie.
difficile pensare al campionamento casuale semplice per una simile
indagine: occorrerebbe preparare una lista completa di tutte le
famiglie del paese. pi conveniente selezionare prima un insieme di
comuni (grappoli di unit elementari) e poi estrarre da ogni comune
selezionato un dato numero di famiglie.
In questo modo si supera la difficolt connessa con la formazione
della lista delle unit elementari e si ottiene un vantaggio per la
rilevazione dei dati.
- Campionamento a pi stadi
La definizione del campionamento a pi stadi pu essere
facilmente generalizzata al caso di tre o pi stadi. Ad esempio, se le
unit elementari sono aggregate in modo da configurare dei grappoli
che a loro volta sono strutturati in grappoli di ordine superiore, il
campionamento pu essere a tre stadi: al primo verranno estratti i
grappoli del secondo ordine, che possono chiamarsi unit primarie, al
secondo stadio verranno estratti, dalle unit primarie selezionate, i
grappoli di unit elementari, cio le unit secondarie e, infine, al terzo
stadio verranno estratte le unit elementari.
Come esempio di campionamento a tre stadi si pu pensare ad
unindagine sulla popolazione, in cui le unit primarie sono i comuni,
57
le unit secondarie le famiglie e lunit elementare il singolo
componente della famiglia.
Diverse possono essere le ragioni che inducono allutilizzo del
piano di campionamento a pi stadi.
chiaro che per selezionare un campione ad un certo livello
necessaria la lista delle unit. Quindi per ogni stadio devono essere
disponibili delle liste. Ma, ad ogni stadio, sono necessarie solo le liste
delle sottopopolazioni contenute nelle unit selezionate al livello
superiore. Cos per unindagine sulle forze lavoro si consulta
lanagrafe solo dei comuni selezionati (mettiamo il 20%) e non
bisogna estrarre un campione avendo come base lanagrafe di tutti i
comuni italiani.
Un altro sicuro vantaggio del campionamento a pi stadi, soprattutto
per indagini su vasta scala, che le unit si trovano concentrate sui
punti selezionati al primo stadio, nei nostri esempi gli individui o le
famiglie si trovano solo in alcuni comuni. Questo consente una
migliore organizzazione del lavoro in loco (formazione delle liste,
reclutamento del personale, lavoro di supervisione) e una migliore
rilevazione con costi minori (minori spostamenti, tempi pi brevi,
maggior conoscenza del contesto in cui si svolge lindagine). Tutto
questo vale evidentemente per le indagini che utilizzano le interviste
dirette.
Lestrazione del campione si pu effettuare con criteri differenti a
ogni stadio. Pu avvenire con probabilit costanti o variabili, da liste
variamente stratificate. Non solo, stabilita la numerosit finale del
campione, si pu decidere di estrarre pi unit agli stadi superiori e
proporzionalmente meno allultimo, oppure viceversa. La selezione su
pi stadi si caratterizza dunque per la flessibilit e per la conseguente
adattabilit alle svariate situazioni che si presentano in concreto nelle
indagini statistiche.
Le contropartite dei vantaggi menzionati sono: la maggior complessit
della metodologia di stima ed il rischio di una perdita di efficienza
delle stime rispetto al casuale semplice.
- Stratificazione delle unit primarie
La stratificazione un elemento che si coniuga in modo naturale
con il campionamento a grappoli e con il campionamento a pi stadi.
Anche in questo contesto le finalit della stratificazione sono
essenzialmente quelle che si sono viste per il campionamento di unit
elementari, ossia il miglioramento della precisione degli stimatori e
lopportunit di configurare mediante strati i cos detti domini di
studio; si pensi ad esempio alle regioni o altre aree territoriali quando
58
con lindagine si desideri ottenere informazioni riferibili allambito
territoriale prescelto.
Inoltre, generalmente meno costoso stratificare gruppi di unit
elementari che le unit elementari stesse, anche i considerazione delle
maggiori informazioni a priori generalmente disponibili. Si pensi ai
comuni italiani come unit di primo stadio ed al corredo di
informazioni che li accompagna. Se le unit di primo stadio non sono
di grandi dimensioni raro che si ricorra alla stratificazione delle
unit di campionamento al loro interno.
Campionamento in pi fasi o doppio
Si consideri una popolazione dalla quale selezionato un
campione. Da questo campione si seleziona un campione per altre
analisi. Eventualmente, da questo secondo campione se ne estrae un
terzo, e cos di seguito. Si dice campione in pi fasi quello che deriva
da una successione di selezione del tipo delineato.
Ci limiteremo a considerare il caso in cui le selezioni siano due e si
parler quindi di campionamento in due fasi o doppio. Si ricorre a
questo tipo di campionamento quando:
- il ricercatore interessato allottenimento di stime molto precise su
alcune caratteristiche strutturali (anagrafiche, catastali, fiscali, ecc.)
della popolazione o ad approfondire aspetti particolari della
popolazione individuati nellanalisi pi generale (per esempio: in una
prima fase si analizzano i dati registrati su cartelle cliniche e poi si
svolgono analisi cliniche su un campione di persone individuate a
partire dalle cartelle esaminate).
- le unit danalisi sono rare nella popolazione e si sfrutta la prima
selezione, pi ampia, per individuarne il pi possibile e sottoporle a
campionamento se il numero eccessivo.
- in unindagine su vasta scala territoriale, le informazioni raccolte
nella prima fase permettono di aggregare le unit vicine in grappoli
che, sottoposti a campionamento nella fase successiva, permettono di
ridurre i costi di viaggio e lo sforzo organizzativo nellesecuzione
della rilevazione sul campo.
- non sempre si dispone di tutti gli elementi di informazione
richiesti per la realizzazione di una strategia campionaria prescelta
(per esempio: fissato un criterio di stratificazione pu darsi che non
siano noti i pesi corrispondenti ai singoli strati), oppure pu essere
ignoto il totale della variabile ausiliaria che richiesto per calcolare
gli stimatori per quoziente o per regressione. In questa situazione, non
59
molto rara, talvolta conveniente ricorrere al campionamento doppio;
si estrae un campione di grande dimensione, con cui vengono stimati i
dati necessari, da questo campione viene poi estratto un
sottocampione di numerosit minore che sar utilizzato per lindagine.
Non bisogna confondere questo piano di campionamento con
quello a due stadi, nel quale la popolazione divisa in un certo
numero di unit primarie da cui vengono poi selezionate le unit
elementari.
Si noti che per un campionamento in due fasi occorre disporre di una
lista completa di tutte le unit elementari, mentre per il
campionamento a due stadi sufficiente avere le liste delle unit
primarie che fanno parte del campione.
Rispetto al campionamento casuale semplice il campionamento
doppio, a causa dei costi della prima fase, di dimensioni inferiori (a
uguale costo). Si tratta perci di stabilire se il guadagno di efficienza
conseguibile mediante la stratificazione, o mediante la stima per
quoziente o per regressione tale da bilanciare questo svantaggio.
I campioni non probabilistici
Le indagini campionarie probabilistiche risultano in alcuni casi di
non facile realizzazione e costose. E necessario infatti, per poter
effettuare unindagine campionaria, avere una buona lista della
popolazione ed adatta al tipo di indagine che si voglia eseguire, bisogna
predisporre ed effettuare un piano di campionamento ed intervistare
tutte le unit estratte anche quando non sono facilmente raggiungibili
(si pensi ad un individuo o ad una famiglia che abitino in una casa
isolata o in alta montagna) il che fa aumentare di molto il costo
dellindagine. Per questi ed altri motivi che si analizzeranno pi
dettagliatamente in seguito in alcune situazioni si preferisce ricorrere ad
indagini campionarie che utilizzano campioni non probabilistici.
Un campione si dice non probabilistico quando le unit che lo
compongono sono selezionate utilizzando metodi non casuali cos che
non possibile assegnare ad esse un probabilit nota.
Nei campioni non probabilistici il problema pi rilevante costituito
dal fatto che non si conosce la probabilit che lerrore degli stimatori
sia contenuto entro certi limiti.
Malgrado questi limiti in molti casi si fa ricorso a campioni non
probabilistici : ad esempio quando non si dispone di una lista della
popolazione ed impossibile per il ricercatore costruirne una adatta
60
alle sua esigenze oppure in quei casi in cui. Si passeranno ora in
rassegna alcuni campionamenti non probabilistici.
Campionamenti per accessibilit
In questo tipo di campionamento quelle parte della popolazione
che realmente accessibile, indaga cio su quelle unit che si possono
prelevare o intervistare pi facilmente. Noto lesempio della ricerca
sul peso dei pezzi di carbone presenti in un vagone ferroviario, il
ricercatore in questo caso prelever i pezzi di carbone dal vagone
aperto limitandosi alla parte superiore del carico data la grande
difficolt a prelevare quelli che si trovano sul fondo. Questo
campionamento viene detto anche campionamento accidentale
(haphazard)
Campionamento di volontari
Una variante del campionamento per accessibilit quello che
utilizza dei volontari, questo il solo possibile in certe indagine
mediche. Un esempio classico il rapporto Kinsey sul comportamento
sessuale femminile, in questa ricerca una gran parte delle intervistate
furono donne carcerate dato che furono tra le poche donne disponibili
a sottoporsi a questo tipo di interviste.
Campionamento a scelta ragionata
I campioni a scelta ragionata si basano sul giudizio del
ricercatore che ricorre ad informazioni preliminari e a lui note sulla
popolazione indagata. Il ricercatore effettua una scelta delle unit in
modo da scegliere un campione che ritiene che ben rappresenti la
popolazione oggetto dellindagine.
Campionamento a valanga
Questo tipo di campionamento molto utile per le ricerche volte
a studi di comunit soprattutto a carattere sociologico. E un
campionamento che parte dal presupposto che la popolazione indagata
sia un sistema organico le cui singole unit sono legate fra loro da
relazioni sociali, di parentela o di conoscenza. Questo metodo si basa
infatti sulle relazioni che legano un individuo ad un altro. E un
campionamento particolarmente utile quando si vuole studiare una
variabile rara nella popolazione oppure impossibile ad identificare con
i metodi classici.
61
Il campionamento a valanga viene condotto in diverse fasi. La prima
fase consiste nel selezionare alcune unit che possiedono le
caratteristiche richieste per entrare a far parte del campione. Queste
unit vengono prima intervistate e successivamente si cerca di
ottenere altri nominativi di persone che possiedono la caratteristica di
interesse. Nella fase successiva si intervisteranno le persone indicate
nella prima fase e queste a loro volta daranno nominativi di altre
persone da intervistare e cos via.
Si chiama campionamento a valanga perch ricorda una valanga che
nasce piccola e man mano che scende a valle si ingrossa, nello stesso
modo si parte da un piccolo campione e si arriva ad un campione con
numerosit maggiore formato da unit legate fra loro da alcune
relazioni.
Tenhuten ed altri (1971) hanno elaborato una strategia per ottenere un
campionamento a valanga probabilistico in modo da consentire stime
dellerrore di campionamento e lutilizzazione di misure di
significativit statistica.
Campionamento per quote
Nel campionamento per quote si identificano, in base a dei
caratteri di controllo, quali strati debbano essere rilevati per lindagine
che si deve condurre. In seguito si determina, per ogni strato, la
numerosit del campione (quota) in base alle distribuzioni conosciute
dei caratteri controllo nella popolazione obbiettivo. Si fa in modo
dunque che la struttura del campione sia esattamente uguale alla
struttura dellintera popolazione obbiettivo per quel che concerne i
caratteri di controllo individuati.
Ad esempio se la popolazione obbiettivo costituita da 45% di uomini
e 55% di donne, nel campione si dovr avere una uguale percentuale
di uomini e di donne. In questo tipo di campionamento il principio
dellinferenza probabilistica viene sostituito dallipotesi che il
campione costituisce un modello, in scala, della popolazione e che i
valori raccolti per il campione possono essere estesi a tutta la
popolazione.
Questo metodo si basa sul presupposto che si possano considerare, per
identificare le quote, tutte le principali variabili esplicative del
carattere o del comportamento che si intende rilevare tramite il
campione. Per esempio, si realizza unindagine su un determinato tipo
di consumi e si sa, da precedenti studi o da altre informazioni, che le
caratteristiche di questi consumi sono determinati in grandissima parte
dalle variabili sesso ed et. Si pu quindi basare le quote del campione
sullincrocio sesso-et lasciando liberi gli intervistatori di intervistare
chi desidera per ciascun incrocio sesso-et.. Se, per, i consumi
62
analizzati dipendono anche dal livello del reddito e questa variabile
non inclusa nelle quote lintervistatore pu selezionare degli
individui che hanno redditi elevati. Si introduce cos una distorsione
nel calcolo dei parametri che si vogliono conoscere. Questa si chiama
distorsione di selezione e non misurabile in nessun modo. Si pu
diminuire questa distorsione raccomandando allintervistatore di
evitare di selezionare unit che hanno le medesime caratteristiche ad
esempio distribuendo in tutte le ore della giornata le interviste,
lescludere le ore serali introdurrebbe nel campione una grande
percentuale di non attivi, eec.
Si pu utilizzare, in funzione delle ipotesi fatte e delle informazioni in
possesso, un campione per quote incrociate o per quote marginali. Se,
ad esempio, si conosce, di una popolazione, la struttura per sesso, per
et e per professione ma non si conoscono gli incroci di questi tre
caratteri si obbligati a utilizzare un campionamento per quote
marginali. Evidentemente un campione per quote marginali sar un
modello meno rappresentativo della popolazione obbiettivo che un
campione per quote incrociate.
__________________________________________________________
Esempio
Scheda di un intervistatore in un indagine per quote marginali.
Interviste da realizzare : 50
SESSO Uomini
Donne
26
24
63
ETA 18-34
35-49
50-64
65 e +
24
16
6
4
CONDIZ.
PROFES.
Artigiani
Commercianti
Liberi
professionisti
Dirigenti
Quadri
Operai
Non occupati
2
1
4
1
19
19
4
TOTALE 50
________________________________________________________
Lintervistatore deve intervistare, tra le persone contattate, quelle che
hanno le caratteristiche richieste fino quando, per ogni quota, sia
raggiunta la numerosit prefissata.
E un tipo di campionamento che combina il campionamento a
scelta ragionata e quello per accessibilit. E inoltre vicino al
campionamento stratificato proporzionale, la differenza consiste nel
fatto che nel campionamento stratificato le unit sono scelte
casualmente mentre in quello per quote la scelte lasciata alla
decisione dellintervistatore. In questo modo tuttavia si mettono dei
limiti allarbitrariet delle scelte dellintervistatore.
Il campionamento per quote permette di superare il problema
costituito dalla mancanza della lista ed evita quello dei non
rispondenti dato che lunit non che risponde viene sostituita da un
altra che possiede le stesse caratteristiche. Questo tipo di
campionamento si basa sul principio che se nel campione vengono
rispettate le quote e queste sono costruite rispettando la distribuzione
dei caratteri di controllo nella popolazione obbiettivo si pu ritenere
che il campione sia rappresentativo anche per il carattere oggetto di
indagine.
Il campionamento per quote viene molto utilizzato per le indagini
demoscopiche e di opinione, per le ricerche di mercato e sui consumi
perch, come si visto, non necessita di una base campionaria e
permette di condurre indagini pi rapide e meno costose di quelle che
ricorrono a campioni probabilistici
64
La precisione dei parametri del campionamento per quote non si
pu calcolare dato che essendo un campione non casuale non si
conosce nessuna probabilit.
Daltra parte il rispetto delle proporzioni, imposto dalle quote, limita il
margine di errore lasciato al caso. Si pu infatti ritenere che la
varianza di un parametro di campionamento per quota sia piuttosto
piccola se la caratteristica dinteresse ben spiegata dai criteri sui
quali sono basate le quote.
Dunque nel caso di piccoli campioni il campionamento probabilistico
pu avere una distorsione nulla e una varianza molto grande (si ricordi
che la varianza inversamente proporzionale alla numerosit
campionaria). Nelle medesime condizioni il campionamento per quote
pu essere leggermente distorto ma in forza delle limitazioni
introdotte dalle quote avere una varianza piccola. Se invece la
numerosit del campione aumenta la varianza nel campionamento
casuale diminuisce (e la distorsione resta nulla) mentre nel
campionamento per quote la distorsione di selezione rimane la stessa e
allora il campionamento probabilistico diventa senza alcun dubbio
preferibile al campionamento per quote.
In conclusione si pu affermare : preferibile il campionamento per
quota per i piccoli campioni e quello probabilistico per i grandi
campioni. Fornire una soglia per la numerosit del campione al di
sotto della quale ricorrere ai campionamenti per quote impossibile,
tuttavia nella pratica per i campioni al di sotto delle 1000 unit si
ricorre facilmente alle quote.
Le indagini ripetute nel tempo
Le indagini statistiche si possono suddividere tra indagini non
ripetute nel tempo (ricerche di monoperiodo) ed indagini ripetute nel
tempo (ricerche continuative)
Le indagini non ripetute nel tempo si effettuano in un determinato
momento del tempo e si ritengono compiute quando con lindagine
predisposta si sono raccolte le informazioni necessarie.
Le indagini ripetute nel tempo sono utilizzate quando si
interessati a studiare l'evoluzione temporale delle caratteristiche della
popolazione o del cmportamento della popolazione stessa. Tali
indagini limitano, infatti, l'errore di misura che, come si visto in
precedenza, si incontra sempre quando si fa ricorso alla memoria
65
dell'individuo per conoscere il verificarsi di un evento o le
caratteristiche di questo evento.
Secondo le caratteristiche del campione si distinguono tre tipi di
indagini ripetute nel tempo :
- le indagini che utilizzano i panel ovvero campioni permanenti nel
tempo di individui. Quando lobiettivo essenziale dellindagine
seguire gli individui nel corso del tempo (es. : il percorso
professionale dei laureati di una facolt, oppure controllare lo stato di
salute di una popolazione) si parla anche di indagini longitudinali
- le indagini ripetute nel tempo con campioni indipendenti, chiamate
anche indagini periodiche o trasversali
- le indagini che utilizzano i panel ruotati ovvero campioni permanenti
nel tempo rinnovati parzialmente ad ogni indagine.
Le indagini che utilizzano i panel
Uno studio di panel unindagine che si svolge ricorrendo ad un
campione permanente di individui che vengono intervistati
regolarmente sulle loro opinioni, sul loro comportamento o sulle loro
caratteristiche.
Lutilizzo del panel si impone nel caso in cui si utilizzano degli
strumenti per raccogliere i dati (es.: lindagine Auditel che rileva le
audiences televisive ricorrendo al meter uno strumento telematico
concepito per questi tipi di raccolta di informazioni)
Lindagine panel permette di seguire nel tempo gli eventuali
cambiamenti che possono essere intervenuti a livello individuale. Si
possono cos stimare i flussi ovvero il numero di unit che nel tempo
passano da una condizione (o comportamento o opinione) ad unaltra.
66
________________________________________________________________
Forze di lavoro occupate e in cerca di occupazione in Italia nelle rilevazioni
di aprile del 1984 e 1985 (dati in migliaia)
____________________________________________________________
_
Aprile 1985
____________________________________________________________
_
Occupati In cerca Non forze Totale
occupaz. lavoro
____________________________________________________________
Occupati 18640 355 1234 20299
Aprile in cerca 668 1225 429 2322
1984 occupaz.
Non forze 1270 748 31138 33156
lavoro
Totale 20578 2328 32801 55707
____________________________________________________________
_
Fonte : ISTAT, 1985
______________________________________________________
Conoscendo i cambiamenti individuali di stato, secondo le tre
categorie utilizzate nellindagine Istat sulle forze di lavoro, delle
persone intervistate si pu misurare la consistenza dei flussi da uno
stato allaltro. Cos che si pu vedere che il 52.7% delle persone in
cerca di lavoro nellaprile del 1984 un anno dopo non ha ancora
trovato lavoro, che il 28,8% ha trovato lavoro e che il 18,5% passato
tra le non forze di lavoro
I panel di consumatori permettono cos realizzare degli studi di fedelt
o di cambiamenti tra marche di prodotti oppure di individuare i casi di
primo acquisto o di riacquisto nel caso di prodotti nuovi. Questa
tecnica di indagine si utilizza in alternativa a quella che ricorre ad una
successione di indagini ripetute nel tempo ma con campioni
indipendenti (indagini periodiche) e che fornisce una misura dei
mutamenti dei caratteri analizzati solo a livello aggregato.
Lutilizzo di un panel permette di ottenere una maggior
precisione nelle misure dellevoluzione di un fenomeno. Se per
stimare la differenza
Y Y
2 1
uno stimatore
non distorto della vera evoluzione sconosciuta
Y Y
2 1
.
Per le propriet della varianza, dato che i due campioni non sono
indipendenti, si ottiene:
( ) ( ) ( ) ( ) Var y y Var y Var y Cov y y
2 1 1 2 1 2
2 = + ,
ed anche:
68
( ) ( ) ( ) ( ) ( ) = + Var y Var y r y y y y
1 2 1 2 1 2
2 , o o
dove
( ) ( ) Var y
1
e Var y
2
rappresentano la varianza rispettivamente di
y
1
e y
2
e
( ) r y y
1 2
,
il loro coefficiente di correlazione lineare.
Nel caso di campioni indipendenti
( ) r y y
1 2
,
uguale a 0 e quindi si
ottiene:
( ) ( ) ( ) Var y y Var y Var y
2 1 1 2
= +
.
Quando il coefficiente di correlazione lineare
( ) r y , y
1 2
positivo
l'indagine panel fornisce stimatori la cui varianza inferiore a quella
che si avrebbe con le indagini periodiche con campioni indipendenti.
Quando, invece, il coefficiente negativo lutilizzo di campioni
indipendenti permette di misurare levoluzione carattere della
popolazione con maggior precisione.
Dato che il panel scelto all'inizio dell'indagine il costo per la
formazione del campione limitato al primo campionamento e alla
sostituzione dei non rispondenti. In questo modo si possono utilizzare
campioni di grande taglia. All'inizio di una indagine panel si possono
anche ottenere, una volta per tutte, molte informazioni dettagliate su
differenti caratteristiche della popolazione che possono essere
utilizzate sia come fattori esplicativi sia per permettere un miglior
trattamento dei dati nel caso di non risposte.
Il campione permanente permette anche la verifica della qualit del
lavoro dell'intervistatore e l'esattezza delle risposte delle persone
interrogate.
I problemi specifici di un'indagine panel
Problemi legati alla rappresentativit del panel
I principali problemi che possono avere uninfluenza sulla
rappresentativit statistica di un panel sono dovuti a tre cause.
1) La distorsione di reclutamento
I rifiuti a partecipare all'indagine non sono un problema
specifico delle indagini panel ma di tutte le indagini. Tuttavia, nelle
69
indagini panel, dato l'impegno che richiedono, il tasso di rifiuto
molto alto (in alcuni casi anche del 60/70 %). Quindi anche se il panel
risulta rappresentativo per quel riguarda le caratteristiche socio-
demografiche ed economiche classiche della popolazione ci si pone la
domanda se il comportamento degli individui che accettano di
partecipare allindagine sia, rispetto alloggetto d'interesse, differente
da quello di chi non vuole partecipare a tale indagine. Il campione
risulta allora distorto ovvero non rappresentativo della popolazione
oggetto dell'indagine. Le non molte informazioni che si hanno
(Marbach, 1992) mettono in luce che i rifiuti riguardano gruppi
selezionati, quindi con caratteristiche particolari, diversi da paese a
paese. In alcune indagini stato difficile reclutare, nel caso di panel di
consumatori, le famiglie nelle quali la donna giovane ; in altre
indagini le difficolt maggiori si incontrano nelle classi o molto
elevate o molto basse, per i vecchi o per i giovani che vivono soli.
Uno studio fatto in Francia mostra che gli individui che rifiutano di
entrare a fare parte di un panel di ascolto radiofonico (con in libretto
da compilare) hanno un livello dascolto minore (Aglietta, Martinet,
1977) di coloro che accettano di entrare nel panel
Lutilizzo che si sta diffondendo, anche nel caso dei panel,
dellutilizzo di tecnologie telematiche ed informatiche per la raccolta
dei dati pu rendere pi importante la differenza di comportamento di
coloro che accettano di partecipare al panel rispetto a coloro che
rifiutano di partecipare.
70
2) L'uscita dal panel degli intervistati.
L'uscita dal panel degli intervistati in una delle fasi successive
dell' indagine, che causa quindi delle non risposte totali, fa sorgere
anch'essa il problema della rappresentativit del panel, oltre che quello
dovuto alla diminuzione della precisione.
Le maggiori percentuali di abbandoni si hanno nella fase di prima
costituzione del panel e quindi nel corso della prime rilevazione
(normalmente nel corso del primo anno) leleminazione spontanea dei
partecipanti molto elevata (gli istituti di ricercano propongono
percentuali che vanno dal 15% al 50% dipende anche dalla quantit di
tempo richiesta per partecipare al panel e dal tipo di periodicit della
rilevazione). Tali abbandoni sono detti cadute iniziali e sono dovuti
soprattutto al fatto che molti individui non sono disposti sottoporsi ad
un impegno continuo e non indifferente in termini di tempo richiesto.
Le cadute iniziali riguardano gruppi particolari, diversi secondo paesi
e tipo di panel. Vi sono per alcuni gruppi che in generale sono pi
interessati di altri da questo fenomeno : le persone pi giovani (sotto i
25/30) o pi anziane (oltre i 50/55), individui appartenenti a classi
sociali molto basse o molto alte, famiglie composte da una o due
persone o famiglie molto numerose, lavoratori dipendenti di bassa
qualifica e lavoratori indipendenti.
In seguito il tasso di abbandono si riduce drasticamente ; in questo
caso gli abbandoni sono indicati come mortalit spontanea o mobilit
fisiologica allinterno del campione permanente, i tassi annui di
abbandono vanno da un minimo del 2% ad un massimo del 15%
annuo.
Le informazioni che si hanno indicano che anche per la mobilit
fisologica gli abbandoni interessano particolari categorie di intervistati
che non si discostano molto da quelle individuate nel caso della
mobilit iniziale.
Le cause degli abbandoni sono dovuti a stanchezza, diminuito
interesse o perch si ritiene di non aver pi nulla da dire.
In ambedue le situazioni esaminate un raddrizzamento del campione,
che pur tenga conto delle caratteristiche di chi rifiuta o di chi
abbandona, non sufficiente ad eliminare la distorsione che tali
fenomeni provocano nei parametri che si vogliono stimare perch
come si gi detto si riscontato un diverso comportamento (ad
esempio : nel tipo di acquisti nel caso di panel di consumatori) tra
individui che continuano a partecipare al panel e quelli che lo lasciano
pur se hanno le medesime caratterisiche socio-economiche.
Luscita degli intervistati da un panel pu avvenire anche per altre
cause : morte naturale, cambiamento di categoria (soprattutto nel caso
di imprese), cambiamenti di domicilio.
71
L'uscita degli individui dalla popolazione per morte o per
cambiamento di categoria socioeconomica non modifica, secondo
alcuni autori
15
, la rappresentativit del panel ma diminuisce solamente
la precisione delle stime.
Si concorda invece sul fatto che luscita per cambio di residenza
introduce delle distorsioni nei dati del panel. Si ritenere infatti che
queste categorie di individui abbiano, per motivi diversi, un
comportamento differente da coloro che rimangono, anche quando si
sia in presenza di individui con le medesime caratteristiche sociali ed
economiche.
3) Leffetto panel
L'effetto panel o effetto condizionamento degli intervistati causato
dalla loro permanenza nel campione per un lungo periodo e provoca
dei cambiamenti nel loro comportamento. Gli intervistati, infatti,
diventano "esperti" dell'indagine ed hanno tendenza a razionalizzare il
loro comportamento. Nel caso di indagini sul consumo l'effetto panel
pu fare variare la composizione qualitativa-quantitativa dei prodotti
(i partecipanti al panel potrebbero essere pi attenti ai prezzi o pi
fedeli ad una marca) o rendere l'intervistato maggiormente sensibile
ad alcune strategie di marketing delle aziende modificando
latteggiamento spontaneo nei confronti delle marche e delle
pubblicit di queste.
L'effetto panel pu avere una diversa influenza secondo il tema
dell'indagine e pu sovrapporsi ad un'evoluzione nel modo di
compilare il libretto degli acquisti, nel caso si ricorra a questa tecnica
per l'indagine. Gli intervistati possono, infatti, compilare in maniera
pi corretta il libretto oppure la compilazione del libretto si degrada a
causa dell'effetto stanchezza.
4) Linvecchiamento del panel
In situazioni in cui le caratteristiche della popolazione mutano
rapidamente, il panel "invecchia" altrettanto rapidamente cos che non
rappresenta pi in modo adeguato la popolazione obiettivo.
15
E' questa l'opinione di Ardilly (1994); Miller (1991) ritiene invece che la
mortalit non sia causale perch colpisce in modo differente le persone
secondo le categorie di appartenenza, si noti tuttavia che in questo caso
l'uscita dal panel non dovuta ad un fattore legato alla variabile che si vuole
studiare quindi il problema pu essere risolto con una riponderazione del
campione)
72
Le indagini con campione ruotato o panel ruotato
Questa tecnica di indagine utilizza un campione casuale la cui
popolazione viene parzialmente rinnovata ad ogni nuova tappa
dell'indagine.
La rotazione del panel si pu dividere in due componenti :
- la rotazione naturale o spontanea dovuta al fatto, come si visto, che
alcuni individui abbandonano, per diversi motivi, il panel (questo tipo
di rotazione introduce possibili sorgenti di errore nei dati raccolti)
- la rotazione programmata o pilotata, della quale si tratter in questo
paragrafo, tesa a migliorare la qualit delle informazioni fornite dal
panel.
Le indagini con campione ruotato programmato sono utilizzate
per diminuire i problemi legati agli abbandoni degli intervistati e
all'effetto condizionamento; inoltre permettono di mantenere la
rappresentativit del campione in una situazione in cui la popolazione
sia in rapida evoluzione limitando in questo modo le conseguenze
legate allinvecchiamento del panel
16
Le unit che escono dal campione possono uscire definitivamente o
possono rientrare dopo un certo periodo di tempo in funzione dello
schema di rotazione utilizzato dal ricercatore.
Nella scelta del tasso di rotazione del panel si deve tenere conto di due
esigenze contrapposte : il mantenimento di un campione il pi
possibile fisso in modo da migliorare le stime delle variazioni tra
periodi e poter condurre analisi longitudinali su una base campionaria
pi ampia ; la riduzione dei problemi legati alluso di un campione
fisso nel tempo
17
.
Indagini ripetute nel tempo con campioni indipendenti (indagini
periodiche)
Le indagini ripetute nel tempo, con campioni indipendenti, sono
utilizzate quando si interessati a seguire l'evoluzione dei parametri
della popolazione ma non il mutamento dei comportamenti individuali
e quando si vogliono ottenere le stime dei parametri della popolazione
per un lungo periodo il che elimina gli effetti della stagionalit che si
16
Per un approfondimento delle tecniche di rotazione dei panel si veda
Fabbris (1989)
17
Il lettore che volesse conoscere lespressione dello stimatore ottimale nel
caso di panel ruotato potr trovarla in Grosbras (1987).
73
possono incontrare nelle indagini che coprono lunghi periodi (es. : le
vendite annuali di un prodotto stagionale ottenute aggregando i dati
mensili). Queste indagini evitano inoltre i problemi specifici delle
indagini panel.
Lutilizzo di campioni indipendenti, inoltre, fa s che queste
indagini determinano con maggior precisione, che le indagini panel, i
parametri della popolazione calcolati sull'insieme del periodo coperto
dall'indagine. In questo caso, infatti, la media di tali parametri, in
presenza di una correlazione positiva tra i valori, ha una varianza
minore.
Si supponga di fare un'indagine con campioni indipendenti data t=1 e
alla data t=2. Si sa che le medie
y
1
e y
2
dei due campioni indipendenti
sono degli stimatori non distorti rispettivamente di
Y
1
e di Y
2
.
Per le propriet del valore atteso
y y
2
1 2
+
uno stimatore non distorto della vera media sconosciuta
Y Y
2 1
2
+
Per le propriet della varianza, dato che i due campioni sono
indipendenti, si ottiene:
( ) ( ) { }
Var
y y
2
1
4
Var y Var y
1 2
1 2
+
|
\
|
.
| = +
Nel caso di indagini panel dato lutilizzo di un campione permanente
si ottiene:
( ) ( ) ( ) ( ) ( ) { }
Var
y y
2
1
4
Var y Var y 2r y , y y y
1 2
1 2 1 2 1 2
+ |
\
|
.
| = + + o o
il che porta a conclusioni opposte a quelle viste per la stima
dell'evoluzione di un carattere della popolazione. Quando il
coefficiente di correlazione
( ) r y , y
1 2
positivo l'utilizzo di
un'indagine con campioni indipendenti per stimare il valore di un
74
parametro in un lungo periodo di tempo fornisce dei dati pi precisi
dato che la varianza risulta minore che nel caso di panel.
Il CATI
Il CATI (computer assisted telephone interviewing) consiste in
un sistema che assiste lintervistatore tramite la conduzione
automatica di una indagine statistica realizzata tramite interviste
telefoniche e che si basa su uno specifico programma elettronico per
computer.
Il CATI pu gestire tutte le fasi dell'indagine: la estrazione casuale dei
numeri da chiamare, la conduzione automatica delle telefonata e degli
appuntamenti concordati con l'intervistato, il controllo automatico
della somministrazione del questionario. Si ha un caricamento
immediato dei dati, un simultaneo ed automatico controllo degli stessi
e all'intervistatore vengono segnalati eventuali errori od
incompatibilit presenti. Il programma esegue anche la correzione dei
dati ed elabora i dati raccolti.
Il questionario e la gestione dell'intervista
Grazie allo sviluppo di sistemi informatici sempre pi avanzati
si possono predisporre questionari CATI completamente assistiti e con
strutture molto complesse.
Gestione dei contatti: numeri telefonici generati casualmente e
controllati; gestione dellagenda delle interviste: contatti,
appuntamenti, ricorso ai nominativi di riserva tenendo conto delle
loro caratteristiche (3/4 contatti telefonici prima di ottenere una
intervista completa).
Esiste la possibilit di controllare in tempo reale le quote di
campionamento (per tutto il sistema di rilevazione) e verificare la
percentuale di interviste compiute per ciascuna quota.
Il percorso dell'intervista controllato automaticamente cos che
vengono fortemente ridotte le possibilit di errori dell'intervistatore.
Le domande e le relative istruzioni per l'intervistatore sono
visualizzate sullo schermo, la funzione di aiuto pu essere richiamata
senza abbandonare lo schermo dell'intervista cos che possibile
avere istruzioni dettagliate al momento stesso in cui l'intervistatore ne
avesse bisogno. Il CATI permette anche di accedere in tempo reale a
qualsiasi tipo di informazione utile per lo svolgimento dell'intervista:
in un indagine ripetuta nel tempo o nel caso di reinterviste possono
75
essere richiamate le risposte date in precedenza per svolgere controlli
di coerenza od altri tipi di confronto.
Le domande possono essere personalizzare conservando la memoria
delle risposte precedenti (sostituire i nomi propri degli intervistati
nelle domande, riformularle in funzione del sesso, dello stato civile,
ecc.).
La scelta delle domande, quando esistano percorsi differenziali,
effettua automaticamente, in funzione delle risposte date alle domande
precedenti. Il programma CATI pu fornire, automaticamente o su
richiesta dell'intervistatore, formulazioni alternative della domanda;
pu alternare l'ordine delle domande o ruotarle in modo da evitare gli
effetti causati dalla sequenza delle domande e delle modalit di
risposta; consente di richiamare, in ogni momento, uno qualunque
degli schermi precedenti per controllare le informazioni raccolte.
Effettua la verifica di completezza e coerenza delle risposte fornite
dall'intervistato e alla fine dell'intervista prevede l'indicazione delle
domande in cui si sono riscontrati degli errori.
L'attivit del supervisore assume un ruolo ed una importanza
fondamentale nelle indagini CATI, egli pu intervenire od essere
interpellato dall'intervistatore in ogni momento dell'intervista
attraverso lo scambio di messaggi via terminale.
Il CATI registra, oltre le risposte alle domande, anche tutti gli
avvenimenti che accadono nel corso dell'intervista (numero di
contatti effettuati : libero e risponde, occupato non risponde,
segreteria telefonica, fax, ecc.; contatti a buon fine che non hanno
prodotto interviste: rifiuto, impossibilit a rispondere, abbandoni,
interviste sospese, motivi) ed i tempi di riferimenti temporali dei vari
contatti e dell'intervista; queste informazioni registrate
automaticamente possono essere utili e per la valutazione
dell'andamento dell'intervista e per la valutazione e il controllo degli
intervistatori.
Il programma di interviste CATI, per il suo alto grado di
standardizzazione e per le forme di controllo che consente,
contribuisce a ridurre la distorsione dovuta al comportamento
dell'intervistatore. Tale risultato dipende anche da quanto il ricercatore
riesce a prevedere e ad anticipare di ogni situazione che si pu
verificare e a dotare l'intervistatore degli strumenti per far fronte a tali
circostanza.
Il sistema di codifica
Il CATI ha portato ad una riduzione dei problemi di codifica;
alcuni sistemi consentono un ulteriore esame della correttezza della
registrazione operata dall'intervistatore in fase di codifica che avviene
76
simultaneamente se si opera con una rete di calcolatori o
separatamente se non si in rete. In caso di dubbi o di problemi la
contemporaneit tra rilevazione e codifica facilita il controllo e la
ricostruzione della risposta, esiste inoltre la possibilit di una
immediata elaborazione e tabulazione dei dati quando al sistema
CATI abbinato un programma per lelaborazione dei dati e la loro
presentazione si sotto forma di tabelle che di grafici
Vantaggi e svantaggi del metodo CATI
Lutilizzo del metodo CATI nella gestione del questionario
comporta un miglioramento nella qualit dei dati ottenuti, rispetto ad
una indagine telefonica tradizionale. In un esperimento compiuto da
Catlin ed Ingram (1988) emerso che la percentuale delle risposte
prive di senso, dei non so e dei rifiuti rappresentava poco meno del
40% del valore ottenuto con analoga intervista telefonica condotta
senza l'utilizzo del calcolatore. Altri ricercatori (Groves e Mathiowetz,
1988; Tortora, 1985) hanno notato una forte riduzione degli errori
dovuti a salti logici nel caso di interviste fatte con CATI.
In alcune situazioni il CATI pu risultare meno conveniente che
l'intervista telefonica non automatizzata: per indagini che vogliono
essere fatte tempestivamente e per le quali deve essere preparato il
programma; per ricerche di piccole dimensioni, nel qual caso il CATI
risulta pi costoso.
Non pochi sono gli studi in cui sono stati effettuati confronti tra
i costi di indagini svolte con il metodo CATI ed i costi di indagini
effettuate con il questionario cartaceo (Catlin ed Ingram, op.cit.;
Groves e Nicholls, 1986; Weeks, 1992.). I maggiori costi di
un'indagine CATI derivano in gran parte dagli investimenti per le
macchine e per i programmi; inoltre l'addestramento degli
intervistatori richiede tempi pi lunghi ed anche la durata media di
un'intervista CATI risultata essere pi lunga.
Una riduzione dei costi del sistema CATI data invece dalla maggior
rapidit di realizzazione della ricerca che deriva dalla gestione
automatica delle chiamate e degli appuntamenti, dalla verifica
automatica del questionario, dai sistemi centralizzati di controllo della
qualit dei dati, dall'automazione della codifica dell'elaborazione e
della tabulazione.
Altri sistemi di intervista assistita da calcolatore
Il CATI stato il primo metodo di intervista assistita da
calcolatore (CAI) ad essere utilizzato per indagini statistiche, inizi a
77
diffondersi prima negli Stati Uniti e poi in altri paesi a partire dagli
anni settanta del secolo scorso.
In anni pi recenti si sono sviluppati altri metodi che utilizzano il
calcolatore per la raccolta di dati.
Il CAPI (computer assisted personal interviewing)
18
un programma
per indagini statistiche applicato alle interviste dirette ed in questo
caso lintervistatore utilizza un calcolatore portatile. I primi tentativi
di usare il CAPI furono fatti nel 1980 (Saris, 1994), tuttavia a quella
epoca i calcolatori erano trasportabili pi che portatili, quindi poco
adatti, per peso e dimensioni, alla diffusione di questa modalit di
intervista che si svilupp sempre pi man mano che si proposero
calcolatori portatili sempre pi piccoli.
In questi ultimi anni c stato quindi un ritorno alle interviste dirette
(CAPI) svolte utilizzando un notebook che gestisce un questionario
Confrontando il sistema CATI con il sistema CAPI si vede
chiaramente come questi hanno in comune il fatto che i dati raccolti
vengono immagazzinati direttamente in un computer. Il CAPI, a
differenza del CATI, non consente di scaricare immediatamente i dati
nel sistema centrale; questa operazione pu essere effettuata solo
collegandosi ad un modem.
Oggi il sistema CATI maturo, ormai ha poche possibilit di grossi
evoluzioni future. La stessa considerazione vale per lintervista
diretta, al pi possono cambiare i supporti .
Ci si aspetta invece un forte sviluppo delle indagini condotte con
metodi che ricorrono allintervista autogestita dallintervistato (CASI,
computer assisted self-administered interviewing).
Lo specifico di questi metodi si basa sullautocompilazione di un
questionario utilizzando internet. I questionari compilati via internet
sono molto avanzati infatti esistono e continuano a diffondersi
programmi di autocompilazione di alta qualit.
Il metodo classico dellautocompliazione prevede linvio del
questionario per posta o la sua consegna tramite un incaricato che
passa in seguito a ritirarlo.
Con le nuove tecnologie telematiche linvio del questionario e gli
eventuali successivi solleciti possono avvenire tramite e-mail con il
quale si invita a compilare un questionario presente nella mail o messo
on line in un sito web al quale si accede tramite un link presente
nelle-mail.
18
I metodi CAPI sono individuati anche con il nome di metodi CADAC
(computer assisted data collection)
78
Unaltra possibilit di contattare i rispondenti direttamente quando
accedono ad alcuni siti web tramite banner, bottom o pop-up che li
invitano a compilare un questionario
Dal punto di vista dei costi questo tipo di indagine meno
dispendioso sia dellintervista diretta che di quella telefonica.
In questo tipo di indagini si presenta un rilevante problema che
riguarda le modalit di scelta della popolazione da indagare.
Nel caso dellinvio di e-mail il ricercatore deve conoscere tutti gli
indirizzi di posta elettronica dei soggetti che formano la popolazione
obbiettivo o il campione estratto dalla popolazione obbiettivo. Questa
condizione si realizza quando il target ben definito, conosciuto,
omogeneo e dotato di posta elettronica (ad esempio tutti i docenti
dellUniversit di Milano-Bicocca).
Quando si vuole fare unindagine su una popolazione vasta e
disomogenea impossibile avere una lista utile di tutti i componenti
della popolazione obbiettivo dato che non tutta la popolazione di un
paese o di una regione possiede il computer ed fornita di indirizzo e-
mail.
In questa situazione si usa il secondo metodo di contatto (quello
diretto via web) con la conseguenza che chiunque pu compilare il
questionario ed inoltre non facile controllare lidentit del
rispondente. E evidente che la popolazione dei rispondenti non per
nulla assimilabile a quella di un campione probabilistico e nemmeno
a quella di un campionamento per quote.
Inoltre anche in questo caso impossibile raggiungere popolazioni
che non accedono ad internet e che hanno particolari caratteristiche
socio-economiche (ad esempio: le casalinghe ed le persone anziane)
Una parte di problemi che riguardano la compilazione di un
questionario on line si discostano di poco da quelli delle indagini
postali. Innanzitutto non sempre i soggetti contattati rispondono o
perch utilizzano poco la posta elettronica (quindi ad esempio si
dimenticano di compilare il questionario) o perch proprio non
vogliono rispondere. Anche in questo caso si pu pensare ad un piano
di solleciti, inviando dei messaggi per non pi di due volte.
Un altro problema quello relativo alla segretezza, esiste il problema
delle repliche. Si deve fare in modo che una persona non possa
compilare pi volte un questionario e, per evitare questo, si dovrebbe
associare un codice agli intervistati, ma in questo modo diminuisce la
riservatezza e si creano problemi di privacy.
79
Per quanto riguarda la compilazione, il questionario deve essere
semplice, facile da compilare e deve sempre indicare un numero verde
o un indirizzo e-mail da poter contattare per avere chiarimenti. Anche
in questo caso i dati vengono codificati e registrati in automatico con
linvio del questionario.
Un problema prevalentemente tecnico quello che riguarda la
trasmissione del questionario: come far scorrere le pagine e i quesiti,
se inviare pagina per pagina o lintero questionario, ecc
Unaltra possibilit di utilizzo dellautocompilazione sul web riguarda
la costituzione di panel. Si scelgono persone non casualmente, ma
esperti; si creano campioni ragionati che vengono contattati per
rispondere a certi tipi di questionari. Si possono fare anche panel
casuali e indagini panel autocompilate tramite internet. Con i
questionari non si domandano sempre le stesse cose, ma si affrontano
argomenti diversi intervistando per sempre le stesse persone. In
questi tipi di intervista si possono prevedere dei gruppi di domande
che non variano mai e che per questo consentono di vedere e seguire
levoluzione di un fenomeno.
Ci possono essere buone prospettive future per gli strumenti di
indagine telematica solo se si hanno target specifici, omogenei,
raggiungibili ed identificabili. Lo strumento non ancora ben diffuso
e anche se lo fosse non sarebbe facile identificare le persone che
partecipano allindagine, vale a dire chi c dietro allindirizzo e-mail.
Tale metodo molto utile per fare indagini mirate, per le quali si
conosce la popolazione obiettivo. Attualmente si svolgono molte
indagini per conoscere le caratteristiche di chi utilizza internet.