10. inferenza statistica

10. INFERENZA STATISTICA
Carla Rossi
Dipartimento di Matematica - Università di Roma “Tor Vergata”
10.1. L’induzione
La forma di ragionamento valida nell’ambito della logica del certo, ossia della logica
propriamente detta, è quella del ragionamento deduttivo. Non si può giungere, con il
ragionamento, a conclusioni certe se non provando che sono incluse in fatti già noti,
ossia facendo discendere il particolare dal generale. E’ evidente, però, che, in questo
modo, non si può mai giungere ad allargare effettivamente il campo delle
conoscenze. E’ solo possibile rendere esplicita qualche proprietà implicitamente
acquisita ma ancora non evidente. Tutti i teoremi dimostrati all’interno di una teoria
matematica non sono altro che esplicitazione di proprietà già contenute negli
assiomi. C’è un solo modo per ampliare realmente le conoscenze: utilizzare il
ragionamento induttivo, che si basa sulla logica dell’incertezza, ovvero sul Calcolo
delle Probabilità, e permette di raggiungere conclusioni generali, ma incerte, a
partire da osservazioni particolari.
Il campo dell’induzione si estende in ogni ambito e ad ogni livello: dal vaglio degli
argomenti pro e contro l’attendibilità di diverse teorie scientifiche o pro e contro la
colpevolezza di questo o quell’indiziato di un crimine, ai metodi per stabilire, in
base all’osservazione, le condizioni per determinati tipi di assicurazione e a quelli
per ottenere valutazioni ragionevolmente precise di una grandezza mediante misure
imprecise.
Particolarmente istruttivo è pensare al processo con cui nuove concezioni o ipotesi
scientifiche vengono formulate in base a intuizioni suggerite da qualche particolare
circostanza osservata, che possiamo definire fatto, e poi discusse, spesso con alterne
vicende, in base a nuove risultanze da confrontare con le previsioni offerte dalla
teoria. Per illustrare meglio la situazione, possiamo pensare allo scienziato, che
elabora una teoria, come ad un detective la cui attività è volta verso una meta:
risolvere un problema.
Einstein, che viene considerato uno dei maggiori scienziati di tutti i tempi, così
descrive tale attività:
“ In quasi tutti i romanzi polizieschi, dai mirabili racconti di Conan Doyle in poi, vi
è un momento in cui il detective ha raccolto tutti i dati necessari per arrivare almeno
ad una certa comprensione del problema. Spesso questi fatti appaiono strani,
contraddittori, privi di legami. Ciononostante il grande ricercatore capisce che a
questo punto è inutile proseguire le ricerche e che solo la riflessione gli permetterà
di stabilire una correlazione fra i dati raccolti.
Così si mette a suonare il violino o si allunga nella poltrona fumando con gusto la
1
pipa: improvvisamente, per bacco!, ha trovato! Non solo una spiegazione per gli
indizi di cui dispone, ma sa anche che certi altri fatti devono essere accaduti; dato
che sa esattamente dove cercarli, può, se lo desidera, uscire a raccogliere
un’ulteriore conferma della sua teoria.” (Eistein A. & Infeld I. “The evolution of
Physics, Simon & Schuster, NY, 1952).
Per comprendere meglio il significato di quanto affermato sopra, possiamo
considerare lo sviluppo di una teoria scientifica, originata da osservazioni effettuate
da Darwin durante il suo famoso viaggio intorno al mondo: la teoria sulla
formazione degli atolli.
10.1.1. COME SI SONO FORMATE LE ISOLE CORALLINE?
Nell’anno 1931 Charles Darwin inizio una spedizione scientifica intorno al mondo.
Nel Pacifico meridionale si interessò in particolare alle isole coralline. Queste isole
coralline, gli atolli, sono abitualmente a forma di anello e ciascuna di esse racchiude
una massa centrale d’acqua chiamata laguna. Il loro diametro varia da un centinaio
di metri a circa una ventina di chilometri e sono costituite da calcare depositato da
minuscole piante e animaletti.
“Quasi tutti i viaggiatori che hanno attraversato il Pacifico – nota Darwin – si sono
meravigliati alla vista degli atolli e hanno tentato di trovare una qualche
spiegazione…” (Darwin C. “The Voyage of the Beagle (1840), Harper & Brother,
NY, 1959). Il problema che stimolò la curiosità di Darwin può essere definito come
segue:
Perché queste isole sono abitualmente a forma di anello e perché racchiudono
una laguna?
Possiamo esaminare alcune delle ipotesi avanzate per la soluzione di questo
problema.
All’epoca di Darwin la formazione degli atolli veniva generalmente spiegata nel
modo seguente:
1. c’erano crateri di vulcani estinti nelle profondità dell’oceano;
2. la roccia corallina si era accumulata sull’orlo dei crateri;
3. i banchi corallini erano affiorati sulla superficie dell’oceano.
Secondo tale ipotesi le isole avrebbero assunto la forma dei crateri vulcanici su cui
erano costruite e si sarebbero formate dal basso verso l’alto.
Una seconda ipotesi, quella dei “cumuli corallini”, si basava sui seguenti
presupposti:
1. animali corallini sviluppatisi su elevazioni del fondo oceanico si erano
accumulati gli uni sugli altri in modo da raggiungere la superficie delle acque;
2. di questi animali, quelli che si trovavano all’esterno del cumulo si procuravano il
cibo nel mare aperto, e quelli all’interno, non potendosi procurare il cibo,
morivano;
2
3. il mare aveva gradualmente formato una laguna sopra la parte centrale dell’isola
corallina.
Anche in questo caso la formazione sarebbe avvenuta per accumulo dal basso verso
l’alto.
Durante il viaggio di Darwin venne misurata la profondità del versante oceanico
degli atolli e si rilevò che la terra franava facilmente. La composizione del fondo
oceanico intorno alle isole a diverse profondità si rivelò molto interessante. Fino a
18 metri al di sotto del livello del mare si trovò solo roccia corallina. Ad una
profondità di 50 metri si trovò una composizione mista di corallo e sabbia, ma oltre
50 metri non c’era traccia di corallo.
L’osservazione che oltre 50 metri non c’era roccia corallina suggerì a Darwin che il
corallo non poteva essersi formato dal basso verso l’alto. Era ragionevole supporre,
inoltre, che il corallo vivesse solo in acque poco profonde. Per spiegare tali
osservazioni Darwin formulò le seguenti ipotesi:
1. che una montagna di origine vulcanica fosse emersa dalla superficie dell’oceano;
2. che animali corallini si fossero attaccati ai versanti della montagna in
corrispondenza alla superficie dell’oceano e che la roccia corallina avesse
cominciato ad accumularsi;
3. che, successivamente, la montagna fosse lentamente sprofondata fino ad avere la
vetta sommersa; man mano che la montagna ed il corallo ad essa attaccato
affondavano si sarebbe formata altra roccia corallina in prossimità del livello
dell’acqua, ma questo sarebbe avvenuto principalmente sul versante oceanico
delle isole e non nelle lagune. In tal modo gli atolli corallini a forma di anello
testimonierebbero la passata esistenza di montagne emerse.
Questa ipotesi spiega sia la forma ad anello degli atolli che la mancanza di corallo
nelle acque più profonde lungo la linea costiera.
L’ipotesi di Darwin non soddisfò tutti, ma contribuì efficacemente a riaccendere
l’interesse sul problema della formazione degli atolli. Darwin capì che le
controversie sono spesso fonte di nuove scoperte e di idee in campo scientifico e
scrisse:
“Se ho torto, quanto prima verrò smentito e messo a tacere, tanto meglio
sarà…Vorrei che qualche straricco milionario si mettesse in testa di effettuare
perforazioni in alcuni atolli dell’Oceano Indiano e Pacifico e tornasse con campioni
presi a 150 o 200 metri di profondità”. (Darwin C. “The Autobiography of Charles
Darwin”, Dover, NY, 1958).
Da questo possiamo dedurre che Darwin aveva trovato un metodo per verificare la
sua ipotesi; questa spiegava, infatti, moltissimi fatti e conteneva anche una
previsione, poiché prevedeva che perforazioni effettuate a una certa profondità
sull’atollo avrebbero portato alla superficie solo campioni di roccia vulcanica privi
di residui corallini.
3
Fin dal 1900 sono state compiute numerose perforazioni sugli atolli. Una
perforazione effettuata sull’isola di Eniwetock urtò contro roccia vulcanica dopo
essere penetrata per 1200 metri nel calcare. Sebbene la roccia vulcanica si trovasse
ad una profondità superiore a quella prevista da Darwin, tuttavia si ebbe la conferma
della sua ipotesi che tali isole poggiano effettivamente su una base vulcanica ora
sommersa.
Molti anni dopo Reginald Daly della Harvard University formulò una nuova ipotesi
in cui si prendevano in considerazione i grandi ghiacciai continentali che, come è
noto, si produssero durante l’ultimo milione di anni. Si pensava che nel periodo di
formazione dei ghiacciai una massa d’acqua sufficiente ad abbassare il livello del
mare di qualche centinaio di metri fosse stata sottratta agli oceani. Un tale
abbassamento del livello del mare avrebbe così portato alla superficie molte vette di
monti altrimenti sommerse, le quali sarebbero state soggette al logorio delle onde.
Secondo tale teoria gli animali corallini si sarebbero attaccati all’orlo delle superfici
erose. Successivamente, col fondersi dei ghiacciai e l’aumentare del livello del mare,
le montagne sarebbero state nuovamente sommerse, ma il corallo si sarebbe
accumulato verso l’alto col progressivo elevarsi del livello del mare. Tuttavia la
profondità di 1200 metri del calcare sull’isola Eniwetok appoggiava la tesi
darwiniana secondo la quale le montagne erano lentamente sprofondate.
Attualmente, per interpretare il fenomeno degli atolli, si prendono in considerazione
sia la tesi darwiniana che quella dei ghiacciai, in attesa che nuovi fatti e nuove
ipotesi portino ad ulteriori conoscenze. In ogni caso, ogni ulteriore ipotesi dovrà
spiegare i tre fatti fondamentali che Darwin aveva osservato e spiegato con le sue
ipotesi:
1. che le isole racchiudono delle lagune;
2. che le spiagge all’esterno delle isole franano facilmente;
3. che non si trova traccia di corallo oltre una certa profondità.
Ma oltre a spiegare fatti noti, un’ipotesi deve condurre alla previsione di “nuovi”
fatti. Se l’ipotesi prevede altri fatti e questi vengono sperimentalmente osservati
allora l’ipotesi verrà consolidata, ma non si potrà, comunque, mai escludere che
un’altra ipotesi possa spiegare altrettanto bene tutti i fatti noti su un certo fenomeno
di interesse.
Come diceva Einstein: “Quando cerchiamo di capire la realtà siamo paragonabili a
un uomo che vuole capire il meccanismo di un orologio chiuso. Ne vede il quadrante
e le lancette mobili, ne ode il ticchettio, ma non sa come aprire la cassa. Se è un
uomo di ingegno potrà immaginare un meccanismo reponsabile di tutto quello che
osserva, ma non potrà mai essere certo che la sua interpretazione sia la sola capace
di spiegare le sue osservazioni”. (Eistein A. & Infeld I. “The evolution of Physics,
Simon & Schuster, NY, 1952).
Un diverso e significativo esempio di ragionamento induttivo si trova nella Bibbia.
4
10.1.2.Il giudizio di Salomone (La Bibbia, 3° Re 3).
In quel tempo vennero due donne meretrici al re e si presentarono dinanzi a lui. Una
di esse disse: “Ascoltami, te ne prego, o mio signore; io e questa donna abitavamo
nella medesima casa, e io partorii presso di essa nella stessa stanza. Tre giorni dopo
che io ebbi partorito, anche costei ebbe un figliolo, e stavamo insieme, e non v’era
altri con noi nella casa all’infuori di noi due. Ora morì il figliolo di questa donna
durante la notte, avendolo essa soffocato mentre dormiva. Levatasi allora nel cuor
della notte, di nascosto tolse il mio figlio dal fianco della tua ancella, che dormiva, e
se lo collocò sul suo seno, mentre il suo figlio, che era morto, lo pose sul mio seno.
Il mattino nell’alzarmi per dare il latte al figliol mio, lo vidi morto; ma avendo
guardato con maggior diligenza alla luce del giorno, m’accorsi che non era quello
che io aveva generato”. L’altra donna rispose: “Non è vero quanto tu dici, ma il
figlio tuo è morto; il mio vive”. Al contrario l’altra diceva: “ Tu menti poiché il mio
figlio vive e il tuo è morto”; e così litigavano alla presenza del re.
Allora il re disse: “Una dice: - il mio figlio vive e il figlio tuo è morto. – E l’altra
risponde: - No, ma è il figlio tuo che è morto, il mio vive –“. E il re continuò:
“Portatemi una spada”. Quando ebbero portata la spada davanti al re, egli soggiunse:
“Dividete il bambino vivo in due parti e datene una metà all’una e una metà
all’altra”. La donna, madre del figlio vivo, (siccome si sentì commuovere le viscere
per amor del proprio figliolo), disse al re: “Te ne scongiuro, o signore, dà a lei il
bambino vivo e non volerlo uccidere”. Al contrario l’altra diceva: “Non sia né mio,
né tuo, ma sia diviso”. Rispose allora il re e disse: “Date a costei il bambino vivo e
non si uccida, poiché costei è la vera madre”.
Tutto Israele seppe del giudizio pronunziato dal re e temette il re, vedendo che la
sapienza di Dio era in lui per amministrare la giustizia.
Che cosa hanno i due esempi citati in comune? Evidentemente seguono un analogo
paradigma logico induttivo, che può essere così schematizzato:
1. sono stati osservati dei fatti, indichiamoli con le lettere A, B, C, e
identifichiamoli con degli eventi;
2. per spiegare tali fatti vengono avanzate delle ipotesi, che possiamo denotare con
le lettere H1, H2,..,Hn, e identificare ancora con degli eventi, alla cui veridicità
attribuiamo una certa probabilità P(Hi). Tali ipotesi implicano, con una certa
probabilità, eventualmente anche 0 o 1, il verificarsi anche di altri fatti (eventi),
diciamo D, E, F. Denotiamo le rispettive probabilità: P(D/H i),…;
3. effettuiamo degli esperimenti per osservare D, E,… e aggiorniamo, di
conseguenza, le valutazioni di probabilità sulle ipotesi. Per quest’ultima
operazione abbiamo a disposizione il teorema di Bayes.
5
Tutto si riduce, allora, alla nozione e alla valutazione di probabilità condizionate e
all’utilizzo dello schema induttivo di Bayes per incorporare ogni nuova
informazione acquisita accidentalmente o sperimentalmente.
Il ragionamento induttivo è tutto qui. Esso indica come imparare dall’esperienza e
deve essere ben charo che l’esperienza non insegna a creare dal nulla un’opinione,
ma soltanto ad aggiornare un’opinione precedentemente formulata
Naturalmente il risultato finale non sempre permette di decidere deterministicamente
per un’ipotesi; nel migliore dei casi, se un fatto osservato risulta incompatibile con
qualche spiegazione (v. giudizio di Salomone), si può escludere qualche ipotesi con
certezza, ma non si può mai essere certi, nell’accettare una spiegazione plausibile,
che non ce ne sia un’altra almeno altrettanto plausibile.
Per sintetizzare in termini rigorosi i punti precedenti possiamo dire che il
ragionamento induttivo è lo strumento che si utilizza quando, a partire da
osservazioni su un certo fenomeno (eventi, variabili aleatorie…), che costituiscono
dati osservazionali, si desidera costruire un modello esplicativo (fisico, biologico,
economico, matematico…), che consente delle previsioni su altri fatti osservabili
(eventi, variabili aleatorie), da identificare o verificare attraverso osservazioni
pianificate (dati sperimentali) sulle variabili previste.
Quando si può operare su un “certo” numero di eventi o variabili aleatorie in
qualche modo omogenei, per esempio diverse rilevazioni di uno stesso carattere su
unità statistiche appartenenti ad una stessa popolazione, il ragionamento induttivo
diventa, secondo l’accezione comunemente usata, induzione statistica o inferenza
statistica. In realtà, la distinzione è fittizia e fuorviante in quanto anche
l’osservazione su una singola unità statistica modifica l’informazione su cui basare il
ragionamento: le conclusioni cui si giunge sulla base di una massa di dati sono
determinate, non globalmente, ma come risultante, come effetto cumulativo,
dell’apporto di ogni singolo dato. Conoscere l’esito di un certo numero di prove,
grande o piccolo che sia, omogeneo o no, conduce dall’opinione iniziale all’opinione
finale esattamente allo stesso modo che si otterrebbe pensando di venire a
conoscenza dell’esito delle singole prove, una per volta, e di modificare di volta in
volta l’opinione conformemente all’influsso di ogni singola osservazione. Quello
che è fondamentale, invece, è il fatto che interessi la conoscenza di un certo
fenomeno, che non risulta generalmente osservabile direttamente, o perché troppo
vasto (tutta una popolazione) o perché si è già svolto (formazione degli atolli, morte
del neonato del giudizio di Salomone), occorre, allora, procedere ad osservare altri
fatti più o meno direttamente legati, attraverso un opportuno modello, al fenomeno
di interesse, e utilizzare, quindi, i fatti osservati come informazione per trarre
conseguenze, necessariamente non certe, sul fenomeno che interessa.
10.2. La statistica inferenziale.
6
La statistica inferenziale consiste nella modellizzazione del processo di produzione
dei dati (fatti osservabili), in forma più o meno parametrica, e nell’identificazione
del relativo modello attraverso la stima dei coefficienti incogniti, ovvero dei
parametri del modello, che compaiono nelle relazioni generali, mediante
l’ottimizzazione di opportuni indicatori, che misurano l’adeguatezza del modello a
rappresentare i dati effettivamente osservati.
Se il problema prevede la valutazione dei parametri del modello, stiamo risolvendo
un problema di stima, se è prevista la possibilità di “cambiare” il modello, stiamo
risolvendo un problema di verifica di ipotesi.
Si possono proporre diversi metodi matematici per risolvere questi problemi. Tali
metodi vengono valutati sulla base delle proprietà generali dei risultati che
producono.
Per avere un’idea dei problemi e dei metodi per risolverli, oltre a quanto riportato
nel precedente paragrafo, si può pensare a quanto già visto parlando di regressione,
dove tutte le situazioni citate erano presenti. In quel caso i modelli di produzione dei
dati relativi alla variabile dipendente Y erano i cosiddetti modelli lineari (nei
parametri). I parametri erano i coefficienti incogniti presenti nei modelli. Il problema
di stima consisteva nel determinare il valore dei parametri ottimizzando un indice
statistico opportuno (la devianza residua), corrispondente al metodo di stima dei
minimi quadrati. La verifica di ipotesi sul modello veniva proposta analizzando
l’adattamento ai dati sia con metodi grafici (residui, rappresentazioni grafiche) sia
mediante l’utilizzo di R2. Il metodo dei minimi quadrati veniva confrontato con altri
sulla base delle proprietà statistiche dei risultati ottenuti.
Un problema inferenziale prevede una fase “diretta” in cui viene costruito il modello
per il processo di produzione dei dati e una fase “inversa” in cui, dal confronto tra le
previsioni prodotte dal modello e i valori effettivamente osservati sulla base del
criterio scelto, vengono prodotte le stime dei parametri incogniti o verificata
l’adeguatezza del modello.
Non ci sono divergenze di scuola nella fase diretta, che consiste nel lavoro di tipo
modellistico ed obbedisce ad uno schema logico ipotetico-deduttivo. Al contrario,
nell’approccio alla soluzione del problema inverso di stima o di verifica delle
ipotesi, secondo un opportuno schema induttivo, è possibile, ma non equivalente,
procedere secondo diverse impostazioni che hanno i propri sostenitori.
L’impostazione più usuale si basa su modelli di osservazione che producono dati
scambiabili, ovvero su misure o osservazioni che si possa supporre siano avvenute
sempre nella stessa situazione sperimentale o osservazionale e indipendentemente
una dall’altra. Si dicono scambiabili perché, nella situazione considerata, l’ordine
con cui si presentano le osservazioni non fornisce alcuna informazione per il
problema di interesse. In generale, in questa impostazione, i diversi metodi di
soluzione del problema vengono valutati attraverso le proprietà probabilistiche che
possiedono quando si pensi di ripetere la procedura di osservazione allo stesso modo
un numero rilevante di volte e di studiare le caratteristiche statistiche (distribuzione,
7
indici sintetici) dei risultati ottenuti interpretando ogni ripetizione come un’unità
statistica con caratteri da rilevare dati dai diversi risultati ottenuti per la soluzione
del problema inverso di stima o di verifica di ipotesi. Tale schema teorico è lo
schema del campionamento ripetuto.
Una seconda impostazione (attraverso la teoria delle verosimiglianza) basa le sue
conclusioni sui dati effettivamente osservati massimizzandone la probabilità
calcolata in forma parametrica in base al modello utilizzato e fornendo così la stima
dei parametri incogniti. Anche in questo caso, benché la teoria della verosimiglianza
faccia riferimento solo ai dati effettivamente osservati e non a eventuali ripetizioni
delle osservazioni, si studiano, in generale, le proprietà dei metodi e dei modelli
utilizzati mediante lo schema del campionamento ripetuto.
L’impostazione bayesiana, invece, formalizza il problema induttivo mediante
modelli che esprimono direttamente l’incertezza sui parametri in forma di
valutazioni probabilistiche e procede all’aggiornamento delle valutazioni mediante
la formula di Bayes, via via che nuove informazioni sul fenomeno di interesse
diventano disponibili.
E’ importante sottolineare, ancora una volta, che il problema dell’inferenza nasce, in
generale, dall’impossibilità di poter effettuare direttamente delle osservazioni su una
variabile che si considera importante per la soluzione di un certo problema, a causa
di motivi tecnici, di costi troppo elevati o tempi di rilevazione troppo prolungati.
Così, non è possibile misurare direttamente, con mezzi semplici, l’accelerazione di
gravità, allora si utilizza un modello che “simula” la generazione dei dati
effettivamente osservabili: l’equazione che esprime lo spazio in funzione del tempo
per la caduta di gravi, o il periodo di oscillazione di un pendolo in funzione della
lunghezza del filo, o altro, in cui il parametro “g” (accelerazione di gravità) compare
come coefficiente incognito. Sulla base dei dati di laboratorio, rilevati sotto ben
fissate condizioni sperimentali e con errori di misura casuali (non sistematici), è
possibile determinare la migliore stima del parametro incognito “g”, secondo
qualche fissato criterio di ottimizzazione, utilizzando, per esempio, l’analisi della
regressione. In questo caso le variabili statistiche osservabili sono variabili legate
funzionalmente al parametro e la loro conoscenza ci permette di stimare g.
In altre situazioni l’impossibilità di osservare direttamente la variabile di interesse
può derivare da questioni pratiche. Per esempio, se si vogliono fare previsioni sulla
vittoria al ballottaggio di un certo candidato sindaco, solo a posteriori, quando non è
più di interesse, è possibile osservare la proporzione di cittadini che lo ha
effettivamente votato (parametro di interesse), a priori è solo possibile osservare
alcuni fatti legati alle intenzioni di voto dei cittadini, per esempio la proporzione di
cittadini che, intervistata, dichiara di voler votare quel candidato. Non è, però,
possibile intervistare tutti i cittadini, ma solo un sottoinsieme, che si cerca di
scegliere in modo il più possibile rappresentativo, ovvero con caratteristiche simili a
quelle dell’insieme dei votanti, in modo da non introdurre distorsioni sistematiche.
8
Dai risultati dell’indagine campionaria si cerca poi di stimare la vera proporzione di
votanti favorevoli al candidato di interesse.
Ogni altra situazione generale in cui occorre risolvere problemi di stima è, più o
meno, schematicamente riconducibile alle due situazioni considerate:
- popolazione infinita e campionamento casuale dalla popolazione (potenziali infinite
prove sperimentali di caduta dei gravi di cui se ne osserva un numero finito),
difficoltà di misurare direttamente la variabile di interesse ma esistenza di un
modello matematico che la lega a variabili osservabili, utilizzo, quindi, di opportuni
metodi di stima per la determinazione del parametro incognito;
- popolazione finita (eventualmente approssimabile per semplicità con una infinita) e
campionamento casuale dalla popolazione, osservazione diretta della variabile di
interesse sul campione, utilizzo di metodi inferenziali per estendere il risultato
campionario all’intera popolazione di interesse.
10.3. Alcuni semplici problemi di stima parametrica.
Ci occuperemo di formalizzare matematicamente la situazione a partire da problemi
semplici, ma reali. Consideriamo il problema del ballottaggio di due candidati alla
carica di sindaco. Supponiamo che il candidato A voglia farsi un’idea della
probabilità che ha di superare il candidato B. Per essere più precisi, supponiamo che
voglia conoscere in anticipo quale proporzione dei suoi concittadini intende votare
per lui. Come possiamo schematizzare e risolvere il problema? Supponiamo,
innanzitutto, di non poter procedere ad intervistare tutti i cittadini votanti, altrimenti,
se così non fosse, dovremmo solo risolvere un problema statistico e non un
problema inferenziale, perché potremmo osservare direttamente la variabile che
interessa su tutte le unità statistiche della popolazione. Se non possiamo osservare
tutta la popolazione, occorre scegliere in modo opportuno un campione
rappresentativo di cittadini da intervistare sulle intenzioni di voto, supponiamo via
telefono. Immaginiamo, per semplicità, che sia possibile disporre di un’unica lista di
cittadini, per esempio in ordine alfabetico. Possiamo, pertanto, immaginare che ad
ogni cittadino corrisponda in modo biunivoco un numero naturale compreso tra 1 e
L, se il numero totale di votanti è L. Per estrarre un campione rappresentativo
possiamo procedere secondo diversi schemi. Consideriamo, prima, il più semplice e
immaginiamo di estrarre n numeri naturali compresi tra 1 e L con ripetizione e
inserire nel campione da intervistare i corrispondenti soggetti. In tal modo
costituiamo un campione casuale semplice di n unità statistiche, su ciascuna
rileviamo, supponiamo senza errore, un attributo dicotomico: voto favorevole ad A,
o no. Dato lo schema di campionamento utilizzato e il fatto che il risultato della
rilevazione su ogni unità statistica possa essere schematizzato da un evento tipo
successo/insuccesso, possiamo definire molto semplicemente la variabile osservabile
di interesse X, che non può che essere il numero di successi sulle n prove. Data la
9
proporzione incognita di votanti per A, che possiamo denotare con , il problema
diretto è risolto esprimendo la distribuzione di probabilità della variabile aleatoria X
in funzione di n, che è noto e denotato numerosità campionaria, e del parametro
incognito . In questa situazione utilizziamo un modello statistico ben noto: il
modello binomiale Bin(n,):
10
 n
 k
P(X = k) =   k(1-)n-k.
Osserviamo che, per evidenziare che stiamo affrontando un problema inferenziale
riguardante un parametro incognito, utilizziamo  al posto di p nell’espressione della
distribuzione binomiale. Tale notazione è la notazione standard nella statistica
inferenziale. D’ora in poi utilizzeremo sempre  per denotare dei parametri incogniti
e  per denotare lo spazio in cui variano.
A questo punto occorre passare alla soluzione del problema inverso e determinare
una valutazione, in termini tecnici si dirà una stima, per . Per risolvere il problema
occorre, in realtà, procedere in due passi:
1. determinare, secondo qualche criterio opportuno, una regola generale che,
applicata in ogni caso analogo, permetta di valutare ; dovrà trattarsi di definire
una funzione =(n,X);
2. nel caso specifico, dati i valori osservati di n e di X (x), calcolare il
corrispondente valore di , applicando la regola definita nel passo precedente,
ovvero calcolare =(n,x).
Dal punto di vista tecnico, la regola definita nel passo 1. viene denotata stimatore di
, il suo valore, calcolato nel passo 2., si dice, invece, stima di . Lo stimatore di un
parametro, essendo funzione di variabili aleatorie, è una variabile aleatoria, la stima
è un valore numerico (scalare o vettoriale).
Per procedere nell’applicazione occorre, allora, scegliere un criterio di stima.
Considereremo sequenzialmente i diversi approcci proposti.
10.3.1. Il metodo di stima dei momenti.
Innanzitutto consideriamo il significato probabilistico del parametro incognito 
nell’ambito dello schema di campionamento scelto. La procedura può essere
schematizzata come un serie di estrazioni con reimbussolamento da un’urna
contenente una proporzione  di palline bianche (votanti a favore di A) e 1- di
palline nere. Il parametro, allora, non è altro che la probabilità di successo in ogni
singola estrazione (se successo è “estrazione di pallina bianca”) e le prove possono
considerarsi equivalenti e indipendenti, dato che la composizione dell’urna rimane
sempre invariata (reimbussolamento). Questo implica che ogni sequenza di n
estrazioni contenente un fissato numero X di successi ha probabilità X(1-)n-X e, se,
come è in questo caso, i risultati sono scambiabili, l’informazione non dipende
dall’ordine, ma solo dal numero dei successi, che costituisce la variabile osservabile
di interesse, come detto sopra.
11
Il problema è, allora, quello di valutare una probabilità , utilizzando una sequenza
di eventi analoghi. Un primo approccio “naive” è di utilizzare la valutazione
statistica della probabilità attraverso la frequenza relativa di successo fn(X)=X/n. Il
ragionamento è intuitivo ed è inquadrabile nell’ambito del metodo di stima dei
momenti.
Nell’ambito di tale approccio i problemi di stima dei parametri vengono risolti
uguagliando i momenti teorici relativi al modello statistico scelto, espressi in
funzione del parametro incognito, agli analoghi momenti statistici (o empirici),
calcolati numericamente sulla base dei dati disponibili, e risolvendo le equazioni (o
l’equazione) rispetto al parametro incognito. Nel caso considerato si uguaglia la
probabilità  (momento teorico) alla frequenza relativa fn, che esprime
statisticamente sui dati osservati lo stesso concetto. Lo stimatore risulta allora dato
da (X)=fn(X)=X/n e la stima relativa da (x)=fn(x)=x/n. Per precisare meglio
consideriamo un altro esempio.
Consideriamo il controllo di qualità sulla durata di funzionamento di componenti
elettronici effettuato secondo lo schema seguente. Dalla produzione, potenzialmente
infinita, di una macchina, si estraggono e sottopongono a prova i primi n pezzi
prodotti in un certo periodo. Tali pezzi costituiscono un campione casuale semplice
dalla popolazione dei pezzi prodotti dalla macchina, se si suppone che non ci siano
cambiamenti nelle modalità di produzione nel periodo considerato, e vengono
osservati fino al momento di guasto. Gli n tempi di guasto vengono registrati e
costituiscono il campione T1,T2,…,Tndelle variabili osservabili di interesse.
Supponiamo che il modello statistico adeguato sia di tipo esponenziale e che il
parametro di tale modello, che rappresenta il reciproco del valor medio, sia
incognito. Indichiamo tale parametro con . La funzione di densità di ogni tempo T i
si può allora scrivere come:
e t
per x  0
f (t )  
 0 per x  0
Uguagliando il momento teorico (media) del modello (1/) al momento empirico
corrispondente (media aritmetica delle osservazioni) e risolvendo rispetto a  si
ottiene:
( T1,T2,…,Tn)=1/T per lo stimatore e
( t1,t2,…,tn)=1/t per la stima del parametro incognito.
Con lo stesso approccio possono risolversi altri problemi di stima. Ma come valutare
le proprietà degli stimatori ottenuti?
10.3.2. Le proprietà degli stimatori e lo schema del campionamento ripetuto.
12
Si è detto che gli stimatori sono delle variabili aleatorie, come tali sono caratterizzati
dalla loro distribuzione di probabilità, che dipende dal modello di produzione dei
dati e dalla numerosità campionaria. Tale distribuzione fornisce le informazioni
probabilistiche sul modo di variare dello stimatore al variare del campione di dati
scelto e condizionatamente alla numerosità campionaria. Il fatto che si consideri lo
stimatore al variare del campione giustifica il nome di campionamento ripetuto (si
intende nelle stesse condizioni) per l’approccio in cui gli stimatori vengono valutati
in base alle proprietà della loro distribuzione di probabilità.
Consideriamo ancora il problema del sondaggio e studiamo le proprietà
probabilistiche dello stimatore attraverso i parametri sintetici della sua distribuzione
di probabilità. In particolare, prendiamo in considerazione la media e lo scarto
standard.
Possiamo scrivere lo stimatore come:
(X)=fn(X)=X/n
da cui si ricava:
E((X))=E(X)/n=n/n=
e:
((X))=[2((X)]=[(1-)/n]=(1/n)
dove con  si denota lo scarto standard relativo ad una sola prova.
I risultati ottenuti permettono di trarre alcune conclusioni interessanti:
1. per qualsiasi valore di n, il valore centrale della distribuzione dello stimatore
coincide con il parametro da stimare, ovvero la distribuzione dello stimatore è
centrata attorno al parametro da stimare;
2. la dispersione della distribuzione dello stimatore, misurata dallo scarto standard,
decresce con la numerosità campionaria n, ovvero la distribuzione dello
stimatore è tanto più concentrata attorno al parametro da stimare quanto
maggiore è la numerosità campionaria.
Se ora consideriamo che cosa succede al limite per n che tende a infinito, ovvero al
crescere della numerosità campionaria, possiamo applicare la legge dei grandi
numeri e il teorema centrale e stabilire che:
1. lo stimatore (X) tende in probabilità a ;
2. la distribuzione di n[(X)-]/ tende alla normale standardizzata.
E’ evidente che si tratta di buone proprietà in quanto ci assicurano:
13
1. che la regola di stima utilizzata (stimatore) non introduce mediamente distorsioni
sistematiche nella stima (non tende a sottostimare, né a sovrastimare il
parametro);
2. che, se si aumenta la numerosità campionaria, l’informazione fornita dallo
stimatore è più precisa in quanto diminuisce la variabilità (la dispersione) della
sua distribuzione.
Possiamo ribaltare il discorso e richiedere fin dall’inizio ad uno stimatore qualsiasi
di soddisfare le due proprietà viste, possiamo, cioè, richiedere che lo stimatore
possieda la proprietà di correttezza o di non distorsione:
1. per qualsiasi valore di n, il valore centrale della distribuzione dello stimatore
coincide con il parametro da stimare, ovvero la distribuzione dello stimatore è
centrata attorno al parametro da stimare;
e la proprietà di consistenza:
2. lo stimatore (X) tende in probabilità a .
Prima di parlare di un altro approccio alla soluzione dei problemi di stima di
parametri, consideriamo un altro esempio di interesse. Supponiamo di voler valutare
la misura incognita di una certa grandezza effettuando misurazioni con uno
strumento “impreciso” e supponiamo di definire la precisione p dello strumento
come l’inverso della varianza della distribuzione delle misure effettivamente
prodotte.
E’ ben noto che si utilizza, come modello statistico, la distribuzione normale quando
si voglia descrivere i risultati di un certo numero di misurazioni di una grandezza, la
cui misura in assenza di errori è , effettuate con uno strumento di precisione p.
Sotto tali ipotesi, se si suppone che le diverse misure siano effettuate
indipendentemente e nelle stesse condizioni, si può proporre come modello per la
variabile aleatoria X=“misura rilevata in una certa prova”, la distribuzione normale
con media  e varianza 2=1/p, che ha densità di probabilità espressa da:
f ( x) 
1


exp 
( x   ) 2 .
2
 2 2

1

Fin qui il problema “diretto” di modellizzazione. Se interessa risolvere il problema
inverso occorre, innanzitutto, definire l’incognita di interesse. In questo caso
possono presentarsi tre diversi problemi:
1. stima della misura della grandezza con strumento di precisione nota;
14
2. stima della precisione dello strumento utilizzando una grandezza di misura nota;
3. stima della misura della grandezza e, contemporaneamente, della precisione
incognita dello strumento.
Poniamoci nel caso più generale (caso 3.) e indichiamo con 1 il valore della misura
incognita (media della distribuzione della variabile ossservabile X) e con 2 la
varianza della distribuzione, ovvero l’inverso del parametro di precisione dello
strumento di misura. In tal caso il modello statistico relativo ad una singola
osservazione di X si scrive:
f ( x) 
1
2 2


1
exp 
( x  1 ) 2 .
 2 2

Per risolvere il problema di stimare entrambi i parametri utilizziamo il metodo dei
momenti e uguagliamo le incognite ai corrispondenti momenti statistici calcolati su
un campione casuale semplice di n misure rilevate sempre con lo stesso strumento e
nelle stesse condizioni. Abbiamo, cioè, a disposizione un’n-pla di variabili aleatorie
scambiabili X1,X2,…,Xn, tutte con densità di probabilità data dall’espressione
sopra riportata. Applicando la regola generale data dal metodo dei momenti,
otteniamo:
1(X1,X2,…,Xn)=X
e:
 Xi  X 
n
2(X1,X2,…,Xn)=
i 1
2
.
n
Possiamo ora chiederci se i due stimatori ottenuti in questo modo soddisfano le
proprietà di correttezza e consistenza. Si ottiene immediatamente, e si lascia per
esercizio, che entrambe le proprietà valgono per 1(X1,X2,…,Xn)=X. Vediamo,
 Xi  X 
n
allora, se valgono anche per 2(X1,X2,…,Xn)=
Consideriamo:
15
i 1
n
2
.
 Xi  X 
n
2
E(2(X1,X2,…,Xn))= E[ i 1
 E  X i   1    1  X 
n
]= i 1
2
.
n
n
Sviluppando il quadrato, si ottiene:
n

E Xi   1
E(2(X1,X2,…,Xn))= i 1
 2  E  1  X 
2
2 E ( X i   1
 X   1 
.
n
Considerando separatamente i tre addendi, sostituendo ad X la sua espressione nel
prodotto misto, e ricordando che le variabili sono indipendenti e pertanto la
covarianza è nulla, si ottiene:
2
n
2
2 
    2 
n
n  = n 1 2 .
E[2(X1,X2,…,Xn)]= i 1

n
n
Lo stimatore della varianza, ottenuto con il metodo dei momenti, è, pertanto, distorto
e tende a sottostimare il parametro incognito. Dal risultato ottenuto, possiamo, però,
ricavare la regola corretta:
 Xi  X 
n
2’(X1,X2,…,Xn)= i 1
n 1
2
.
Non è difficile giustificare il risultato appena ottenuto. Se risolviamo il problema 2.,
infatti, quello consistente nello stimare la precisione incognita dello strumento con
una grandezza di misura nota, otteniamo che lo stimatore della varianza, ottenuto dal
metodo dei momenti e che risulta formalmente identico a quello considerato sopra
ma con il valore noto della media  al posto della sua stima X, soddisfa la
proprietà di correttezza. Il problema, allora, non dipende dalla forma dello stimatore,
ma, presumibilmente, dal fatto di aver sostituito un valore noto, che entra nel calcolo
della varianza empirica, con il suo stimatore. In effetti, per stimare la varianza, nel
caso 3., occorre prima aver stimato la media sulla base dell’n-pla di osservazioni che
costituisce il campione di misure X1,X2,…,Xn. Se consideriamo di nuovo i due
stimatori possiamo affermare che:
16
1. 1(X1,X2,…,Xn)=X si ottiene come media delle n osservazioni scambiabili che
costituiscono un vettore in uno spazio n-dimensionale, in termini tecnici si dice
che lo stimatore ha n gradi di libertà;
 Xi  X 
n
2. 2(X1,X2,…,Xn)=
2
si ottiene come media dei quadrati delle n
i 1
n
componenti della variabile scarto.
Ricordando che la proprietà che caratterizza la variabile scarto è di avere media
nulla, si ha che le componenti di tale variabile appartengono ad uno spazio a n-1
dimensioni e non più ad n dimensioni. Il calcolo dello stimatore della varianza è
basato su n-1 informazioni indipendenti e non più su n. Lo stimatore della varianza,
nel caso in cui anche la media sia incognita e debba essere stimata, ha n-1 gradi di
libertà.
Possiamo sintetizzare dicendo che un campione di n variabili scambiabili ha n gradi
di libertà. Se si calcolano delle trasformate di tali variabili, introducendo nel calcolo
delle relazioni tra le variabili stesse, come fatto sopra per la variabile scarto, il
numero di gradi di libertà si riduce di 1 unità per ogni relazione introdotta. Così,
quando si utilizzano le nuove variabili trasformate per risolvere altri problemi di
stima, ogni media si basa sul numero di gradi di libertà residui. Per ottenere
stimatori non distorti occorre, quindi, che al denominatore delle medie compaia il
numero effettivo di gradi di libertà e non la numerosità campionaria iniziale.
Osserviamo che, per n che cresce, la differenza tra lo stimatore della varianza
ottenuto dal metodo dei momenti e lo stimatore corretto tende a diminuire e al limite
scompare. Questo fatto si sintetizza dicendo che lo stimatore della varianza ottenuto
dal metodo dei momenti è asintoticamente corretto.
Tornando ai tre problemi posti, si ottiene subito che la proprietà di consistenza è
sempre verificata, dato che le varianze degli stimatori dipendono, comunque,
inversamente da n. Si lascia per esercizio la verifica
10.3.3. La verosimiglianza.
Consideriamo ancora il problema del controllo di qualità sulla durata di
funzionamento di componenti elettronici effettuato secondo uno schema diverso dal
precedente. Dalla produzione, potenzialmente infinita, di una macchina, si
estraggono e sottopongono a prova i primi n pezzi prodotti in un certo periodo. Tali
pezzi, vengono osservati fino al momento di guasto del k-esimo (k<n). I k tempi di
guasto vengono registrati e costituiscono il campione T1,T2,…,Tk di tempi
osservati, che supponiamo ordinati in ordine crescente. Degli altri componenti si sa
soltanto che il loro tempo di guasto non è stato osservato perché risulta maggiore di
Tk. Supponiamo ancora che il modello statistico adeguato sia di tipo esponenziale e
17
che il parametro di tale modello, che rappresenta il reciproco del valor medio, sia
incognito. Indichiamo tale parametro con . La probabilità dell’evento che interessa
ed è sintetizzato dall’informazione T1,T2,…,Tk, n-k tempi maggiori di Tk si può
esprimere come segue:
P[(T1t1,T2t2,…,Tktk)(Tk+1tk,Tk+2tk,…,Tntk)]=f(t1)f(t2)…f(tk)dt1dt2…dtk[1-F(tk)]n-k
Infatti, le variabili considerate sono indipendenti e quindi vale la regola del prodotto;
per ognuna di esse la probabilità che sia circa uguale ad un valore dato si ottiene dal
prodotto della funzione densità f per l’incremento infinitesimo e la probabilità che
una singola variabile sia maggiore di un valore dato si ottiene dal complemento a 1
della funzione di ripartizione F. Sostituendo le espressioni di f ed F relative alla
distribuzione esponenziale si ottiene:
P[(T1t1,T2t2,..,Tktk)(Tk+1tk,Tk+2tk,..,Tntk)]=
=kexp-(t1+t2+..+tk)dt1dt2…dtk exp-(n-k)tk.
Considerando la formula riportata sopra in funzione della sola densità per quanto
riguarda i tempi effettivamente osservati e denotandola con L(;n,t1,t2,..,tk),
otteniamo:
L(;n,t1,t2,..,tk)= kexp-(t1+t2+..+tk) exp-(n-k)tk.
La funzione appena definita è una funzione di due gruppi di variabili di significato
diverso:
1. il primo gruppo, una volta fissata la numerosità campionaria n, è costituito dalle
variabili osservabili,t1,t2,..,tk;
2. il secondo gruppo è costituito dai parametri incogniti da stimare, nel caso in
esame il solo parametro  della distribuzione esponenziale.
Tale funzione, se si considera fissato , esprime la distribuzione di probabilità (o la
densità di probabilità) delle variabili osservabili e soddisfa le proprietà generali
relative ad una distribuzione di probabilità o funzione di densità. Se, invece,
supponiamo di aver osservato le variabili, la funzione diventa funzione solo dei
parametri incogniti da stimare, è non negativa, e, al variare di , permette di
calcolare la distribuzione del campione effettivamente osservato in funzione del
parametro incognito. Quando tale funzione è studiata come funzione del parametro,
essendo noti e fissati i valori delle variabili osservabili, si chiama funzione di
verosimiglianza di .
Se consideriamo due possibili valori di : 1 e 2, diremo che 1 è più verosimile di
2 se L(1;n,t1,t2,..,tk)>L(2;n,t1,t2,..,tk). E’ abbastanza ragionevole, allora,
18
considerare come possibile regola per individuare uno stimatore di , quella
consistente nell’assumere il valore più verosimile tra tutti i valori possibili. In tale
regola “di buon senso” consiste il metodo di stima di massima verosimiglianza.
Osserviamo che la massimizzazione si ottiene con gli usuali metodi dell’analisi e
che, data l’espressione della funzione di verosimiglianza in forma di prodotto in tutti
i casi di scambiabilità, si utilizza, in pratica, il logaritmo della funzione di
verosimiglianza detto funzione di logverosimiglianza e denotato con l(;n,t1,t2,..,tk).
Se calcoliamo lo stimatore di massima verosimiglianza per il caso considerato,
otteniamo:
(n,T1,T2,..,Tk)= k , dove si è posto Tk+1=Tk+2=…=Tn=Tk.
 Ti 
n
i 1
Si lascia per esercizio di esprimere la funzione di verosimiglianza per il caso
gaussiano, nelle tre situazioni relative alla non conoscenza dei parametri poste sopra.
Una volta determinata la funzione di verosimiglianza, mediante massimizzazione si
ottengono immediatamente gli stimatori di massima verosimiglianza. Il calcolo è
lasciato per esercizio.
Valgono i due seguenti principi di verosimiglianza:
1. Principio debole: con riferimento ad un dato modello statistico F(x/) con 
due osservazioni Y e Z tali che L(;Y)=L(;Z) devono condurre alle stesse
conclusioni inferenziali su .
2. Principio forte: un’osservazione Y, con riferimento ad un dato modello statistico
F(x/) con , e un’osservazione Z, con riferimento ad un dato modello
statistico G(x/) con , tali che LF(;Y)=LG(;Z) devono condurre alle stesse
conclusioni inferenziali su .
Per comprendere il significato e le differenze tra i due principi consideriamo degli
esempi.
1. Consideriamo ancora il problema del ballottaggio di due candidati alla carica di
sindaco, con lo schema di campionamento già utilizzato in precedenza. In
questo caso, sappiamo già che il problema diretto è risolto esprimendo la
distribuzione di probabilità della variabile aleatoria X in funzione di n e del
parametro incognito  attraverso il modello binomiale Bin(n,):
P(X = k) =  n k(1-)n-k.
 k
La corrispondente funzione di verosimiglianza si scrive:
19
L(; n,k)= k(1-)n-k
Osserviamo che, dato il significato e l’utilizzo della funzione, una volta noto il
campione, è possibile trascurare i fattori costanti rispetto all’incognita . Questo
equivale a considerare appartenenti ad una stessa classe di equivalenza le
funzioni di verosimiglianza individuate a meno di un fattore non dipendente da
. In modo più rigoroso questo si esprime dicendo che la funzione di
verosimiglianza è individuata a meno di un fattore.
2. Consideriamo ora lo stesso problema, ma utilizziamo un diverso schema
sperimentale, ovvero fissiamo il numero di successi e continuiamo ad intervistare
i votanti fino a raggiungere tale numero, diciamo k, di risposte posistive per A.
In questo caso la variabile aleatoria è il numero di prove necessario per
raggiungere k successi, che indichiamo con N. E’ noto che, se poniamo k=1,
otteniamo per N la distribuzione geometrica di parametro . Per generalizzare
quel modello al caso di un numero fissato qualsiasi di successi, possiamo
ragionare così: perché il k-esimo successo avvenga all’n-sima prova occorre che
si verifichino i due eventi:
a)
b)
si hanno k-1 successi nelle prime n-1 prove in qualsiasi ordine;
si ha un successo alla k-esima prova.
Trattandosi, comunque, di prove bernoulliane è facile ricavare la distribuzione di
probabilità di N:
P(N=n) =  n  1 k-1(1-)n-k =  n  1 k(1-)n-k.
 k  1
 k  1
Tale distribuzione, che prende il nome di distribuzione binomiale negativa,
conduce ad uno stesso stimatore per  del caso precedente, come si verifica
immediatamente, ed, effettivamente, la situazione ricade nel principio di
verosimiglianza forte. Abbiamo, infatti, usato variabili osservabili diverse e
modelli statistici diversi, ottenendo, però, una stessa forma per la funzione di
verosimiglianza.
Consideriamo ora il principio debole utilizzando, per illustrarlo, il problema del
controllo di qualità effettuato secondo il secondo schema sperimentale visto sopra.
La corrispondente funzione di verosimiglianza risulta:
L(;n,t1,t2,..,tk)= kexp-(t1+t2+..+tk) exp-(n-k)tk.
20
Tale funzione, se lo schema sperimentale (primo schema) prevede di osservare tutti
gli n tempi di guasto, diventa:
L(;n,t1,t2,..,tn)= nexp-(t1+t2+..+tn).
Il massimo si trova, in questo caso, nel punto che coincide con lo stimatore ottenuto
in precedenza con il metodo dei momenti.
Osservando l’espressione della verosimiglianza notiamo che assume valori uguali su
tutte le n-ple (t1,t2,..,tn) che hanno la stessa somma. Le conclusioni che si traggono
sulla base della funzione di verosimiglianza sono, pertanto, le stesse su n-ple
diverse, purché la somma delle variabili sia la stessa. I risultati non dipendono dai
valori delle variabili, ma solo da una loro funzione, una statistica, in questo caso la
somma. Quando questo accade si dice che la statistica che gode di questa proprietà è
una statistica sufficiente per il problema di stima in esame. In termini più rigorosi:
dato un modello statistico per una variabile osservabile X, definito da una
distribuzione di probabilità F(x/), dipendente da un parametro (scalare o
vettoriale) incognito , una statistica T(X) è sufficiente per l’inferenza su  se e
solo se assume valori distinti in corrispondenza a valori della funzione di
verosimiglianza distinti, ovvero: T(Y)=T(Z)
L( ;Y)=L(;Z).
Vale l’ovvia proprietà: date n variabili scambiabili X1,X2,..,Xn, la statistica ordinata
costituita dall’n-pla X(1),X(2),…,X(n), è una statistica sufficiente. Infatti, per
definizione, quando si trattano variabili scambiabili, nessuna informazione rimane
associata all’ordine, le conclusioni inferenziali devono coincidere su qualsiasi
permutazione degli stessi valori. Una qualunque di tali permutazioni può essere,
allora, assunta come rappresentante di tutte, per esempio quella ordinata.
Il caso delle statistiche sufficienti si inquadra nell’ambito del principio debole di
verosimiglianza.
E’ possibile studiare le proprietà generali probabilistiche per gli stimatori di
massima verosimiglianza inquadrandoli nello schema del campionamento ripetuto.
La trattazione esula dai nostri scopi e, inoltre, snatura l’approccio attraverso lo
studio della funzione di verosimiglianza, introdotto per studiare l’andamento in ,
una volta fissato il risultato delle osservazioni, o condizionatamente a tale risultato.
Le variabili osservabili compaiono, pertanto, come costanti nella funzione stessa.
Prima di passare all’impostazione bayesiana dei problemi di stima, consideriamo
ancora un altro esempio.
Consideriamo di nuovo il problema del ballottaggio, ma supponiamo di estrarre il
campione di cittadini da intervistare procedendo con uno schema di estrazione senza
reimbussolamento, come nel gioco del lotto. Come si modifica il modello di
produzione dei dati osservabili? (che sono sempre i cittadini che affermano di votare
o no per A). In questo caso, la probabilità di successo varia da una prova all’altra
perché varia la composizione dell’urna ad ogni estrazione. Sappiamo che l’urna
 L
 
 n
21
contiene all’inizio L elementi, di questi se ne devono estrarre n. Ci sono, allora, in
totale
possibilità di scelta. Se nell’urna ci sono A elementi favorevoli ad A e L-A elementi
contrari, sugli n estratti se ne possono avere esattamente k favorevoli ad A ed n-k
contrari in
 A  L  A
 

 k  n  k 
modi possibili. Se ci chiediamo, pertanto, quale sia la probabilità di ottenere k
elementi favorevoli ad A in un campione di n estratto senza reimbussolamento
(estrazione in blocco), dobbiamo considerare il rapporto tra il numero di possibilità
con k fissato e il numero totale di campioni ottenibili, abbiamo, allora, indicando
ancora con X la variabile aleatoria che misura il numero di successi:
 A  L  A
 

 k  n  k 
P( X  k ) 
 L
 
 n
I valori possibili per k sono compresi tra max(0,n-(L-A)) e min(n,A). Questi limiti
tengono conto del possibile esaurirsi di individui di una classe e si ricavano dalle
relazioni 0kA e 0n-kL-A. La distribuzione appena ottenuta si chiama
distribuzione ipergeometrica. Si può dimostrare che, se L ed A tendono a + in
modo tale che A/L si possa considerare costante e porre pari a p, la distribuzione
ipergeometrica tende alla distribuzione binomiale di parametro p. Il risultato è
abbastanza intuitivo dato che, nelle ipotesi poste, la popolazione cresce fino a
diventare infinita, mantenendo, però, costante la proporzione di individui favorevoli
ad A. E’ come se si tendesse al precedente schema sperimentale delle estrazioni con
reimbussolamento. Se si calcola la media E(X) della distribuzione ipergeometrica, si
trova che è uguale a quella della distribuzione binomiale di parametro p=A/L.
Utilizzando per la stima il metodo dei momenti, se il parametro incognito è =A/L,
è, pertanto, equivalente utilizzare lo schema di estrazione con reimbussolamento o in
blocco. La varianza della distribuzione ipergeometrica di parametro  vale invece:
2 
n (1   )( L  n )
L1
Si tratta della formula della binomiale corretta per il fattore (L-n)/(L-1), che è tanto
più trascurabile (prossimo a 1) quanto più L è grande e n<<L.
22
Considerando, invece, la varianza dello stimatore di  dato dalla frequenza relativa
osservata si ha che tale indice dipende inversamente da n (numerosità campionaria),
pertanto lo stimatore è corretto e consistente. I due schemi sperimentali di estrazione
portano allo stesso stimatore con le stesse proprietà. La funzione di verosimiglianza
risulta, invece, molto meno trattabile nel caso ipergeometrico per la presenza dei
binomiali. Se si vogliono confrontare i due schemi, ai fini dell’inferenza su =A/L,
ci si può basare sulle due varianze. A parità di L ed n, infatti, si ha che la varianza
dello stimatore ottenuto dallo schema ipergeometrico è minore di quella ottenuta
dallo schema binomiale, la distribuzione dello stimatore ipergeometrico è più
concentrata di quella dello stimatore binomiale. In qualche modo l’informazione
fornita dallo schema ipergeometrico è più precisa di quella fornita dallo schema
binomiale. Un confronto di questo genere tra due stimatori, entrambi corretti, di uno
stesso parametro di una popolazione si dice che è basata sull’efficienza. Per essere
più rigorosi si può dire che, dati due stimatori entrambi non distorti di uno stesso
parametro, si dice più efficiente quello cui corrisponde varianza inferiore, a parità di
altre condizioni.
10.3.4. Stime puntuali e stime di intervallo.
Fino a questo punto si è proposto, come soluzione per un problema di stima di un
parametro relativo ad un modello statistico utilizzato in un processo di produzione di
dati, un’unica funzione: lo stimatore, ed un’unico valore da utilizzare come
valutazione del parametro incognito: la stima. Ogni valutazione, però, come si è
visto, risulta dipendere dalla numerosità campionaria, almeno per quanto riguarda la
sua precisione, sintetizzata attraverso le proprietà di dispersione della distribuzione
dello stimatore nello schema del campionamento ripetuto. Si è anche visto che
diversi modelli possono produrre, a parità di numerosità campionaria, diverse
proprietà di dispersione degli stimatori di uno stesso parametro incognito. E’
evidente che tutte queste informazioni devono essere fornite al momento di
comunicare il risultato di un processo di stima e che, pertanto, il risultato costituito
dalla sola stima del parametro non è adeguatamente completo. La stima del
parametro costituita semplicemente dal singolo valore assunto dallo stimatore in
corrispondenza ai dati effettivamente osservati si dice: stima puntuale del parametro
e i metodi per ottenerla sono i metodi di stima puntuale e forniscono come regole gli
stimatori puntuali.
Vediamo, allora, come sia possibile utilizzare le proprietà generali fin qui ottenute
per gli stimatori per fornire un’informazione più completa sui risultati di un processo
di stima. Ricordiamo che fornire un risultato in modo esauriente comporta che debba
essere possibile a chi legge ricostruire tutto il processo di stima effettuato ed,
eventualmente, replicarlo.
Un modo completo di fornire le informazioni rilevanti sul processo è di fornire: il
modello statistico utilizzato, il risultato della stima puntuale, la corrispondente stima
23
dello scarto standard dello stimatore e la numerosità campionaria. Generalmente le
informazioni sul modello e sulla numerosità campionaria vengono riportate nel
momento in cui si descrive l’esperimento o l’osservazione, mentre i risultati relativi
al processo di stima vero e proprio, stima e scarto standard dello stimatore vengono
riportati nella forma standard: stimascarto standard. Per esempio, se, sulla base di
un modello bionomiale e di 100 unità statistiche, si è ottenuto un valore stimato di :
=0.4, si riporta il risultato nel modo seguente: 0.40.024. In questo modo si
determina un intervallo, attorno al valore puntuale, più o meno ampio, a seconda
della numerosità campionaria, una volta stabilito il modello statistico. Questo modo
di fornire l’informazione prevede, pertanto, un risultato finale in forma di intervallo
di cui la stima puntuale costituisce il punto medio. L’approccio al problema di stima
è del tipo stima di intervallo e può essere meglio precisato.
Per esempio, se si conosce esattamente la distribuzione di probabilità dello
stimatore, indichiamolo con (X), è sempre possibile stabilire con che probabilità il
suo valore, una volta osservati i dati effettivi, apparterrà ad un preciso intervallo che,
generalmente, data la dipendenza della distribuzione dal parametro incognito ,
dipenderà da  stesso.
Consideriamo ancora il caso del modello binomiale. Lo stimatore puntuale del
parametro , (X), è, in questo caso: (X)=X/n, con varianza 2(X/n)= (1-)/n, che
può essere, a sua volta, stimata con:
X
X
(1  )
X


n
s2    n
 n
n
Se indichiamo semplicemente con s la radice quadrata di s2(X/n) e supponiamo che
n sia abbastanza grande da poter applicare a X/n il teorema centrale del limite,
possiamo scrivere:
P(-a(-X/n)/s+a)=
e calcolare , una volta fissato il valore di a, utilizzando le tavole della distribuzione
normale standardizzata o viceversa, fissato , determinare a mediante la stessa
tavola.
24
Il significato probabilistico della relazione considerata è il seguente:
dato il modello di osservazione binomiale e la numerosità campionaria n, il valore
dello stimatore non dista più di as dal parametro incognito da stimare con
probabilità .
La relazione considerata si può anche scrivere:
25
P(-a(-X/n)/s+a)= P(X/n-asX/n+as)=
che va letta come segue:
dato il modello di osservazione binomiale e la numerosità campionaria n, con
probabilità , l’intervallo aleatorio di semiampiezza as centrato sullo stimatore
contiene al suo interno il valore del parametro incognito .
Osserviamo che non si può dire, come spesso si vede scritto:
dato il modello di osservazione binomiale e la numerosità campionaria n, il
parametro incognito  appartiene all’intervallo di semiampiezza as centrato sullo
stimatore con probabilità .
Infatti, non essendo  una variabile aleatoria, non ha senso nessuna proposizione
probabilistica definita su di essa. La variabile aleatoria è solo X e espressioni che
coinvolgono il calcolo di probabilità possono riferirsi solo a variabili aleatorie. Per
poter esprimere l’intervallo con riferimento al parametro incognito, non potendo più
utilizzare il concetto di probabilità, occorre cambiare notazione e riferirsi al valore 
come al livello di confidenza. Ci si esprime, pertanto, nel seguente modo:
dato il modello di osservazione binomiale e la numerosità campionaria n, il
parametro incognito  appartiene all’intervallo di semiampiezza as centrato sullo
stimatore con un livello di confidenza .
Nel caso in cui non sia possibile determinare la distribuzione dello stimatore, purché
sia valutabile o nota la sua varianza, si può sempre applicare la disuguaglianza di
Chebyshev e calcolare un intervallo aleatorio che, con un certo livello di probabilità,
contenga al suo interno il parametro da stimare.
E’ evidente che, a parità di livello di probabilità , quanto più è piccolo a tanto più
precisa si può considerare l’informazione di intervallo sul parametro da stimare.
Consideriamo il seguente esempio: sono state rilevate delle misure che si può
supporre provengano da una distribuzione di probabilità normale con media
incognita e varianza nota, indichiamo con  la media incognita e con  lo scarto
standard noto. Supponiamo che il campione sia costituito da n misure. Proviamo ad
esprimere l’intervallo di stima ad un livello di probabilità 95%, utilizzando la Tavola
della distribuzione gaussiana standardizzata. In questo caso lo stimatore puntuale da
considerare è (X1,X2…,Xn)=X, la relazione base per determinare l’intervallo è:
P(-a(-X)/(/n)+a)=0.95.
26
Dalla tavola otteniamo il valore di a che lascia fuori dell’intervallo una probabilità
del 5%, considerando l’ascissa corrispondente al valore 0.975 della funzione di
ripartizione, che risulta essere 1.96. Questo ci permette di determinare l’intervallo di
interesse in funzione di  e X:
[-a,a]=[X-1.96(/n),X+1.96(/n)].
Se non sappiamo da quale distribuzione provengono i nostri dati, ma conosciamo,
comunque, lo scarto standard, possiamo utilizzare la disuguaglianza di Chebyshev e
determinare l’intervallo seguente:
[-a,a]=[X-4.47(/n),X+4.47(/n)].
Come si vede immediatamente, l’informazione legata al tipo di distribuzione ci
permette di ottenere un intervallo molto più piccolo a parità di altre condizioni, ci
consente, cioè, di avere un’informazione molto più precisa sul parametro incognito.
Per ottenere un intervallo paragonabile a quello ottenuto nel caso normale
utilizzando solo la disuguaglianza di Chebyshev, dobbiamo impiegare una
numerosità campionaria oltre 5 volte quella del caso gaussiano. Si lascia per
esercizio di effettuare lo stesso confronto nel caso della distribuzione binomiale, con
n abbastanza grande da poter utilizzare l’approssimazione normale, come visto in
precedenza. Analogamente si può procedere per altri modelli statistici, per esempio
il modello poissoniano.
Inquadrando il problema della ricerca degli intervalli di stima nell’ambito della
teoria della verosimiglianza, si può procedere a determinare gli intervalli di
verosimiglianza, ovvero degli intervalli [1,2], non necessariamente simmetrici,
attorno al valore di  in corrispondenza del quale la funzione L(;x1,x2,..,xn) assume
il suo massimo, indichiamo con L il relativo valore dell’ordinata, e di ampiezza
determinata dalla condizione:
L(;x1,x2,..,xn)k L per [1,2], con k<1.
10.3.5. Impostazione bayesiana.
Fin qui sono stati considerati i diversi approcci ai problemi di stima e i vari sviluppi,
che vanno sotto il nome generale di impostazione classica della teoria della stima.
L’impostazione bayesiana non va, però, vista come un possibile approccio
alternativo, ma, piuttosto, come l’approccio generale e rigoroso ai problemi
inferenziali, di qualunque tipo, a cui tutti i metodi precedentemente trattati possono
27
essere ricondotti facendo ipotesi particolari o semplificative. Si tratta di un
paradigma logico-induttivo che non necessita di giustificazioni di alcun tipo, solo
della teoria generale delle probabilità e, in particolare, delle regole di coerenza e del
teorema di Bayes. In realtà lo schema inferenziale bayesiano è l’unico che permette
di utilizzare la probabilità come misura dell’incertezza in relazione a problemi di
induzione e di trattare l’inferenza come uno sviluppo naturale e, in un certo senso,
banale del calcolo delle probabilità, da un punto di vista logico, inquadrandola
nell’ambito dei problemi inversi di natura probabilistica.
L’approccio bayesiano comporta, però, dal punto di vista tecnico alcune
“complicazioni”, cui si può far fronte, in molti casi, utilizzando opportunamente
anche gli schemi classici visti in precedenza, pur di ricordare sempre sotto quali
ipotesi questo è rigorosamente accettabile e con quali limitazioni. Il miglior modo
per parlarne è, ancora una volta, di utilizzare opportuni esempi.
Si è detto in precedenza che qualunque "fatto" non noto a priori viene definito come
aleatorio, in particolare evento se identificabile con un risultato dicotomico, numero
aleatorio (comunemente variabile aleatoria) se identificabile con un valore numerico
qualsiasi.
Si è anche visto come eventi e variabili aleatorie siano descritti nel modo più
esauriente attraverso le valutazioni di probabilità o le distribuzioni di probabilità. Sia
ora data una distribuzione di probabilità, ovvero un modello statistico, relativo ad
una caratteristica X di una popolazione, che si intende rilevare, e supponiamo, per
semplicità, di sapere che tale distribuzione possiede una densità di probabilità f(x/)
dipendente da un parametro incognito , per esempio sia una densità gaussiana con
varianza nota 2 e media incognita =:
f ( x) 
1
2 2
1


exp 
( x   ) 2 .
2
 2

Supponiamo, inoltre, di aver osservato n misure X1,X2,…,Xn estratte dalla
popolazione in esame, in modo da costituire un campione casuale semplice.
Il nostro obiettivo è quello di determinare, a partire da "tutte" le informazioni
disponibili, una adeguata valutazione per il valore incognito del parametro.
Essendo  incognito, e quindi non noto a priori, possiamo descriverlo come una
variabile aleatoria la cui distribuzione, valutata in base alle informazioni generali sul
fenomeno in esame, denotiamo con p0().
Supponiamo, per semplicità, che  possa assumere valori compresi tra a e b
(eventualmente ) su una scala continua e che p0() sia una densità di probabilità.
Una volta acquisite le informazioni, costituite dai valori osservati {x1, x2,… ,xn}
delle misure X1,X2,…,Xn, possiamo applicare il teorema di Bayes per aggiornare
la valutazione in merito alla densità di probabilità del parametro. Nella versione
relativa alle densità di probabilità il teorema di Bayes ci consente di scrivere:
28
p( / X1  x1 , X  x2 ,..., X n  xn ) 
po ( ) f ( x1 /  ) f ( x2 /  )..... f ( xn /  )
b
o
 p ( ) f ( x1 /  ) f ( x2 /  )..... f ( xn /  )d
a
La densità a posteriori p(/X1=x1,X2=x2,…,Xn=xn) costituisce la previsione più
esauriente sul valore incognito del parametro, tenendo conto sia delle informazioni
preliminari (distribuzione a priori sul fenomeno in esame, p 0(), sia delle misure
effettivamente rilevate, tramite campionamento {x1,x2,…,xn}).
Un opportuno indice sintetico di posizione (la media, la moda, la mediana,..) della
densità a posteriori può essere, quindi, utilizzato come stimatore bayesiano puntuale
di  mentre stime di intervallo si ottengono a partire dall’equazione:
c2
 p( / X 1  x1 , X 2  x2 ,..., X n  xn )  
c1
che permette di determinare c1 e c2, e forniscono effettivamente intervalli di
probabilità e non di confidenza.
Si lascia per esercizio lo sviluppo dell’esempio nel caso gaussiano, a partire da
diverse ipotesi sulla distribuzione a priori.
29
Approfondimenti ed esempi si trovano nei testi citati in bibliografia.
BIBLIOGRAFIA
OTTAVIANI M.G., ROSSI C., SCALIA TOMBA G. "Lezioni sulla statistica, sulla
probabilità e sui problemi di stima con spunti didattici"
L'insegnamento di Probabilità e Statistica nella scuola liceale
MPI QUADERNI FORMAZIONE DOCENTI n.8 1994
ROSSI C. La Matematica dell’Incertezza: didattica della probabilità e della
statistica ZANICHELLI Bologna 1999
30