10. INFERENZA STATISTICA Carla Rossi Dipartimento di Matematica - Università di Roma “Tor Vergata” 10.1. L’induzione La forma di ragionamento valida nell’ambito della logica del certo, ossia della logica propriamente detta, è quella del ragionamento deduttivo. Non si può giungere, con il ragionamento, a conclusioni certe se non provando che sono incluse in fatti già noti, ossia facendo discendere il particolare dal generale. E’ evidente, però, che, in questo modo, non si può mai giungere ad allargare effettivamente il campo delle conoscenze. E’ solo possibile rendere esplicita qualche proprietà implicitamente acquisita ma ancora non evidente. Tutti i teoremi dimostrati all’interno di una teoria matematica non sono altro che esplicitazione di proprietà già contenute negli assiomi. C’è un solo modo per ampliare realmente le conoscenze: utilizzare il ragionamento induttivo, che si basa sulla logica dell’incertezza, ovvero sul Calcolo delle Probabilità, e permette di raggiungere conclusioni generali, ma incerte, a partire da osservazioni particolari. Il campo dell’induzione si estende in ogni ambito e ad ogni livello: dal vaglio degli argomenti pro e contro l’attendibilità di diverse teorie scientifiche o pro e contro la colpevolezza di questo o quell’indiziato di un crimine, ai metodi per stabilire, in base all’osservazione, le condizioni per determinati tipi di assicurazione e a quelli per ottenere valutazioni ragionevolmente precise di una grandezza mediante misure imprecise. Particolarmente istruttivo è pensare al processo con cui nuove concezioni o ipotesi scientifiche vengono formulate in base a intuizioni suggerite da qualche particolare circostanza osservata, che possiamo definire fatto, e poi discusse, spesso con alterne vicende, in base a nuove risultanze da confrontare con le previsioni offerte dalla teoria. Per illustrare meglio la situazione, possiamo pensare allo scienziato, che elabora una teoria, come ad un detective la cui attività è volta verso una meta: risolvere un problema. Einstein, che viene considerato uno dei maggiori scienziati di tutti i tempi, così descrive tale attività: “ In quasi tutti i romanzi polizieschi, dai mirabili racconti di Conan Doyle in poi, vi è un momento in cui il detective ha raccolto tutti i dati necessari per arrivare almeno ad una certa comprensione del problema. Spesso questi fatti appaiono strani, contraddittori, privi di legami. Ciononostante il grande ricercatore capisce che a questo punto è inutile proseguire le ricerche e che solo la riflessione gli permetterà di stabilire una correlazione fra i dati raccolti. Così si mette a suonare il violino o si allunga nella poltrona fumando con gusto la 1 pipa: improvvisamente, per bacco!, ha trovato! Non solo una spiegazione per gli indizi di cui dispone, ma sa anche che certi altri fatti devono essere accaduti; dato che sa esattamente dove cercarli, può, se lo desidera, uscire a raccogliere un’ulteriore conferma della sua teoria.” (Eistein A. & Infeld I. “The evolution of Physics, Simon & Schuster, NY, 1952). Per comprendere meglio il significato di quanto affermato sopra, possiamo considerare lo sviluppo di una teoria scientifica, originata da osservazioni effettuate da Darwin durante il suo famoso viaggio intorno al mondo: la teoria sulla formazione degli atolli. 10.1.1. COME SI SONO FORMATE LE ISOLE CORALLINE? Nell’anno 1931 Charles Darwin inizio una spedizione scientifica intorno al mondo. Nel Pacifico meridionale si interessò in particolare alle isole coralline. Queste isole coralline, gli atolli, sono abitualmente a forma di anello e ciascuna di esse racchiude una massa centrale d’acqua chiamata laguna. Il loro diametro varia da un centinaio di metri a circa una ventina di chilometri e sono costituite da calcare depositato da minuscole piante e animaletti. “Quasi tutti i viaggiatori che hanno attraversato il Pacifico – nota Darwin – si sono meravigliati alla vista degli atolli e hanno tentato di trovare una qualche spiegazione…” (Darwin C. “The Voyage of the Beagle (1840), Harper & Brother, NY, 1959). Il problema che stimolò la curiosità di Darwin può essere definito come segue: Perché queste isole sono abitualmente a forma di anello e perché racchiudono una laguna? Possiamo esaminare alcune delle ipotesi avanzate per la soluzione di questo problema. All’epoca di Darwin la formazione degli atolli veniva generalmente spiegata nel modo seguente: 1. c’erano crateri di vulcani estinti nelle profondità dell’oceano; 2. la roccia corallina si era accumulata sull’orlo dei crateri; 3. i banchi corallini erano affiorati sulla superficie dell’oceano. Secondo tale ipotesi le isole avrebbero assunto la forma dei crateri vulcanici su cui erano costruite e si sarebbero formate dal basso verso l’alto. Una seconda ipotesi, quella dei “cumuli corallini”, si basava sui seguenti presupposti: 1. animali corallini sviluppatisi su elevazioni del fondo oceanico si erano accumulati gli uni sugli altri in modo da raggiungere la superficie delle acque; 2. di questi animali, quelli che si trovavano all’esterno del cumulo si procuravano il cibo nel mare aperto, e quelli all’interno, non potendosi procurare il cibo, morivano; 2 3. il mare aveva gradualmente formato una laguna sopra la parte centrale dell’isola corallina. Anche in questo caso la formazione sarebbe avvenuta per accumulo dal basso verso l’alto. Durante il viaggio di Darwin venne misurata la profondità del versante oceanico degli atolli e si rilevò che la terra franava facilmente. La composizione del fondo oceanico intorno alle isole a diverse profondità si rivelò molto interessante. Fino a 18 metri al di sotto del livello del mare si trovò solo roccia corallina. Ad una profondità di 50 metri si trovò una composizione mista di corallo e sabbia, ma oltre 50 metri non c’era traccia di corallo. L’osservazione che oltre 50 metri non c’era roccia corallina suggerì a Darwin che il corallo non poteva essersi formato dal basso verso l’alto. Era ragionevole supporre, inoltre, che il corallo vivesse solo in acque poco profonde. Per spiegare tali osservazioni Darwin formulò le seguenti ipotesi: 1. che una montagna di origine vulcanica fosse emersa dalla superficie dell’oceano; 2. che animali corallini si fossero attaccati ai versanti della montagna in corrispondenza alla superficie dell’oceano e che la roccia corallina avesse cominciato ad accumularsi; 3. che, successivamente, la montagna fosse lentamente sprofondata fino ad avere la vetta sommersa; man mano che la montagna ed il corallo ad essa attaccato affondavano si sarebbe formata altra roccia corallina in prossimità del livello dell’acqua, ma questo sarebbe avvenuto principalmente sul versante oceanico delle isole e non nelle lagune. In tal modo gli atolli corallini a forma di anello testimonierebbero la passata esistenza di montagne emerse. Questa ipotesi spiega sia la forma ad anello degli atolli che la mancanza di corallo nelle acque più profonde lungo la linea costiera. L’ipotesi di Darwin non soddisfò tutti, ma contribuì efficacemente a riaccendere l’interesse sul problema della formazione degli atolli. Darwin capì che le controversie sono spesso fonte di nuove scoperte e di idee in campo scientifico e scrisse: “Se ho torto, quanto prima verrò smentito e messo a tacere, tanto meglio sarà…Vorrei che qualche straricco milionario si mettesse in testa di effettuare perforazioni in alcuni atolli dell’Oceano Indiano e Pacifico e tornasse con campioni presi a 150 o 200 metri di profondità”. (Darwin C. “The Autobiography of Charles Darwin”, Dover, NY, 1958). Da questo possiamo dedurre che Darwin aveva trovato un metodo per verificare la sua ipotesi; questa spiegava, infatti, moltissimi fatti e conteneva anche una previsione, poiché prevedeva che perforazioni effettuate a una certa profondità sull’atollo avrebbero portato alla superficie solo campioni di roccia vulcanica privi di residui corallini. 3 Fin dal 1900 sono state compiute numerose perforazioni sugli atolli. Una perforazione effettuata sull’isola di Eniwetock urtò contro roccia vulcanica dopo essere penetrata per 1200 metri nel calcare. Sebbene la roccia vulcanica si trovasse ad una profondità superiore a quella prevista da Darwin, tuttavia si ebbe la conferma della sua ipotesi che tali isole poggiano effettivamente su una base vulcanica ora sommersa. Molti anni dopo Reginald Daly della Harvard University formulò una nuova ipotesi in cui si prendevano in considerazione i grandi ghiacciai continentali che, come è noto, si produssero durante l’ultimo milione di anni. Si pensava che nel periodo di formazione dei ghiacciai una massa d’acqua sufficiente ad abbassare il livello del mare di qualche centinaio di metri fosse stata sottratta agli oceani. Un tale abbassamento del livello del mare avrebbe così portato alla superficie molte vette di monti altrimenti sommerse, le quali sarebbero state soggette al logorio delle onde. Secondo tale teoria gli animali corallini si sarebbero attaccati all’orlo delle superfici erose. Successivamente, col fondersi dei ghiacciai e l’aumentare del livello del mare, le montagne sarebbero state nuovamente sommerse, ma il corallo si sarebbe accumulato verso l’alto col progressivo elevarsi del livello del mare. Tuttavia la profondità di 1200 metri del calcare sull’isola Eniwetok appoggiava la tesi darwiniana secondo la quale le montagne erano lentamente sprofondate. Attualmente, per interpretare il fenomeno degli atolli, si prendono in considerazione sia la tesi darwiniana che quella dei ghiacciai, in attesa che nuovi fatti e nuove ipotesi portino ad ulteriori conoscenze. In ogni caso, ogni ulteriore ipotesi dovrà spiegare i tre fatti fondamentali che Darwin aveva osservato e spiegato con le sue ipotesi: 1. che le isole racchiudono delle lagune; 2. che le spiagge all’esterno delle isole franano facilmente; 3. che non si trova traccia di corallo oltre una certa profondità. Ma oltre a spiegare fatti noti, un’ipotesi deve condurre alla previsione di “nuovi” fatti. Se l’ipotesi prevede altri fatti e questi vengono sperimentalmente osservati allora l’ipotesi verrà consolidata, ma non si potrà, comunque, mai escludere che un’altra ipotesi possa spiegare altrettanto bene tutti i fatti noti su un certo fenomeno di interesse. Come diceva Einstein: “Quando cerchiamo di capire la realtà siamo paragonabili a un uomo che vuole capire il meccanismo di un orologio chiuso. Ne vede il quadrante e le lancette mobili, ne ode il ticchettio, ma non sa come aprire la cassa. Se è un uomo di ingegno potrà immaginare un meccanismo reponsabile di tutto quello che osserva, ma non potrà mai essere certo che la sua interpretazione sia la sola capace di spiegare le sue osservazioni”. (Eistein A. & Infeld I. “The evolution of Physics, Simon & Schuster, NY, 1952). Un diverso e significativo esempio di ragionamento induttivo si trova nella Bibbia. 4 10.1.2.Il giudizio di Salomone (La Bibbia, 3° Re 3). In quel tempo vennero due donne meretrici al re e si presentarono dinanzi a lui. Una di esse disse: “Ascoltami, te ne prego, o mio signore; io e questa donna abitavamo nella medesima casa, e io partorii presso di essa nella stessa stanza. Tre giorni dopo che io ebbi partorito, anche costei ebbe un figliolo, e stavamo insieme, e non v’era altri con noi nella casa all’infuori di noi due. Ora morì il figliolo di questa donna durante la notte, avendolo essa soffocato mentre dormiva. Levatasi allora nel cuor della notte, di nascosto tolse il mio figlio dal fianco della tua ancella, che dormiva, e se lo collocò sul suo seno, mentre il suo figlio, che era morto, lo pose sul mio seno. Il mattino nell’alzarmi per dare il latte al figliol mio, lo vidi morto; ma avendo guardato con maggior diligenza alla luce del giorno, m’accorsi che non era quello che io aveva generato”. L’altra donna rispose: “Non è vero quanto tu dici, ma il figlio tuo è morto; il mio vive”. Al contrario l’altra diceva: “ Tu menti poiché il mio figlio vive e il tuo è morto”; e così litigavano alla presenza del re. Allora il re disse: “Una dice: - il mio figlio vive e il figlio tuo è morto. – E l’altra risponde: - No, ma è il figlio tuo che è morto, il mio vive –“. E il re continuò: “Portatemi una spada”. Quando ebbero portata la spada davanti al re, egli soggiunse: “Dividete il bambino vivo in due parti e datene una metà all’una e una metà all’altra”. La donna, madre del figlio vivo, (siccome si sentì commuovere le viscere per amor del proprio figliolo), disse al re: “Te ne scongiuro, o signore, dà a lei il bambino vivo e non volerlo uccidere”. Al contrario l’altra diceva: “Non sia né mio, né tuo, ma sia diviso”. Rispose allora il re e disse: “Date a costei il bambino vivo e non si uccida, poiché costei è la vera madre”. Tutto Israele seppe del giudizio pronunziato dal re e temette il re, vedendo che la sapienza di Dio era in lui per amministrare la giustizia. Che cosa hanno i due esempi citati in comune? Evidentemente seguono un analogo paradigma logico induttivo, che può essere così schematizzato: 1. sono stati osservati dei fatti, indichiamoli con le lettere A, B, C, e identifichiamoli con degli eventi; 2. per spiegare tali fatti vengono avanzate delle ipotesi, che possiamo denotare con le lettere H1, H2,..,Hn, e identificare ancora con degli eventi, alla cui veridicità attribuiamo una certa probabilità P(Hi). Tali ipotesi implicano, con una certa probabilità, eventualmente anche 0 o 1, il verificarsi anche di altri fatti (eventi), diciamo D, E, F. Denotiamo le rispettive probabilità: P(D/H i),…; 3. effettuiamo degli esperimenti per osservare D, E,… e aggiorniamo, di conseguenza, le valutazioni di probabilità sulle ipotesi. Per quest’ultima operazione abbiamo a disposizione il teorema di Bayes. 5 Tutto si riduce, allora, alla nozione e alla valutazione di probabilità condizionate e all’utilizzo dello schema induttivo di Bayes per incorporare ogni nuova informazione acquisita accidentalmente o sperimentalmente. Il ragionamento induttivo è tutto qui. Esso indica come imparare dall’esperienza e deve essere ben charo che l’esperienza non insegna a creare dal nulla un’opinione, ma soltanto ad aggiornare un’opinione precedentemente formulata Naturalmente il risultato finale non sempre permette di decidere deterministicamente per un’ipotesi; nel migliore dei casi, se un fatto osservato risulta incompatibile con qualche spiegazione (v. giudizio di Salomone), si può escludere qualche ipotesi con certezza, ma non si può mai essere certi, nell’accettare una spiegazione plausibile, che non ce ne sia un’altra almeno altrettanto plausibile. Per sintetizzare in termini rigorosi i punti precedenti possiamo dire che il ragionamento induttivo è lo strumento che si utilizza quando, a partire da osservazioni su un certo fenomeno (eventi, variabili aleatorie…), che costituiscono dati osservazionali, si desidera costruire un modello esplicativo (fisico, biologico, economico, matematico…), che consente delle previsioni su altri fatti osservabili (eventi, variabili aleatorie), da identificare o verificare attraverso osservazioni pianificate (dati sperimentali) sulle variabili previste. Quando si può operare su un “certo” numero di eventi o variabili aleatorie in qualche modo omogenei, per esempio diverse rilevazioni di uno stesso carattere su unità statistiche appartenenti ad una stessa popolazione, il ragionamento induttivo diventa, secondo l’accezione comunemente usata, induzione statistica o inferenza statistica. In realtà, la distinzione è fittizia e fuorviante in quanto anche l’osservazione su una singola unità statistica modifica l’informazione su cui basare il ragionamento: le conclusioni cui si giunge sulla base di una massa di dati sono determinate, non globalmente, ma come risultante, come effetto cumulativo, dell’apporto di ogni singolo dato. Conoscere l’esito di un certo numero di prove, grande o piccolo che sia, omogeneo o no, conduce dall’opinione iniziale all’opinione finale esattamente allo stesso modo che si otterrebbe pensando di venire a conoscenza dell’esito delle singole prove, una per volta, e di modificare di volta in volta l’opinione conformemente all’influsso di ogni singola osservazione. Quello che è fondamentale, invece, è il fatto che interessi la conoscenza di un certo fenomeno, che non risulta generalmente osservabile direttamente, o perché troppo vasto (tutta una popolazione) o perché si è già svolto (formazione degli atolli, morte del neonato del giudizio di Salomone), occorre, allora, procedere ad osservare altri fatti più o meno direttamente legati, attraverso un opportuno modello, al fenomeno di interesse, e utilizzare, quindi, i fatti osservati come informazione per trarre conseguenze, necessariamente non certe, sul fenomeno che interessa. 10.2. La statistica inferenziale. 6 La statistica inferenziale consiste nella modellizzazione del processo di produzione dei dati (fatti osservabili), in forma più o meno parametrica, e nell’identificazione del relativo modello attraverso la stima dei coefficienti incogniti, ovvero dei parametri del modello, che compaiono nelle relazioni generali, mediante l’ottimizzazione di opportuni indicatori, che misurano l’adeguatezza del modello a rappresentare i dati effettivamente osservati. Se il problema prevede la valutazione dei parametri del modello, stiamo risolvendo un problema di stima, se è prevista la possibilità di “cambiare” il modello, stiamo risolvendo un problema di verifica di ipotesi. Si possono proporre diversi metodi matematici per risolvere questi problemi. Tali metodi vengono valutati sulla base delle proprietà generali dei risultati che producono. Per avere un’idea dei problemi e dei metodi per risolverli, oltre a quanto riportato nel precedente paragrafo, si può pensare a quanto già visto parlando di regressione, dove tutte le situazioni citate erano presenti. In quel caso i modelli di produzione dei dati relativi alla variabile dipendente Y erano i cosiddetti modelli lineari (nei parametri). I parametri erano i coefficienti incogniti presenti nei modelli. Il problema di stima consisteva nel determinare il valore dei parametri ottimizzando un indice statistico opportuno (la devianza residua), corrispondente al metodo di stima dei minimi quadrati. La verifica di ipotesi sul modello veniva proposta analizzando l’adattamento ai dati sia con metodi grafici (residui, rappresentazioni grafiche) sia mediante l’utilizzo di R2. Il metodo dei minimi quadrati veniva confrontato con altri sulla base delle proprietà statistiche dei risultati ottenuti. Un problema inferenziale prevede una fase “diretta” in cui viene costruito il modello per il processo di produzione dei dati e una fase “inversa” in cui, dal confronto tra le previsioni prodotte dal modello e i valori effettivamente osservati sulla base del criterio scelto, vengono prodotte le stime dei parametri incogniti o verificata l’adeguatezza del modello. Non ci sono divergenze di scuola nella fase diretta, che consiste nel lavoro di tipo modellistico ed obbedisce ad uno schema logico ipotetico-deduttivo. Al contrario, nell’approccio alla soluzione del problema inverso di stima o di verifica delle ipotesi, secondo un opportuno schema induttivo, è possibile, ma non equivalente, procedere secondo diverse impostazioni che hanno i propri sostenitori. L’impostazione più usuale si basa su modelli di osservazione che producono dati scambiabili, ovvero su misure o osservazioni che si possa supporre siano avvenute sempre nella stessa situazione sperimentale o osservazionale e indipendentemente una dall’altra. Si dicono scambiabili perché, nella situazione considerata, l’ordine con cui si presentano le osservazioni non fornisce alcuna informazione per il problema di interesse. In generale, in questa impostazione, i diversi metodi di soluzione del problema vengono valutati attraverso le proprietà probabilistiche che possiedono quando si pensi di ripetere la procedura di osservazione allo stesso modo un numero rilevante di volte e di studiare le caratteristiche statistiche (distribuzione, 7 indici sintetici) dei risultati ottenuti interpretando ogni ripetizione come un’unità statistica con caratteri da rilevare dati dai diversi risultati ottenuti per la soluzione del problema inverso di stima o di verifica di ipotesi. Tale schema teorico è lo schema del campionamento ripetuto. Una seconda impostazione (attraverso la teoria delle verosimiglianza) basa le sue conclusioni sui dati effettivamente osservati massimizzandone la probabilità calcolata in forma parametrica in base al modello utilizzato e fornendo così la stima dei parametri incogniti. Anche in questo caso, benché la teoria della verosimiglianza faccia riferimento solo ai dati effettivamente osservati e non a eventuali ripetizioni delle osservazioni, si studiano, in generale, le proprietà dei metodi e dei modelli utilizzati mediante lo schema del campionamento ripetuto. L’impostazione bayesiana, invece, formalizza il problema induttivo mediante modelli che esprimono direttamente l’incertezza sui parametri in forma di valutazioni probabilistiche e procede all’aggiornamento delle valutazioni mediante la formula di Bayes, via via che nuove informazioni sul fenomeno di interesse diventano disponibili. E’ importante sottolineare, ancora una volta, che il problema dell’inferenza nasce, in generale, dall’impossibilità di poter effettuare direttamente delle osservazioni su una variabile che si considera importante per la soluzione di un certo problema, a causa di motivi tecnici, di costi troppo elevati o tempi di rilevazione troppo prolungati. Così, non è possibile misurare direttamente, con mezzi semplici, l’accelerazione di gravità, allora si utilizza un modello che “simula” la generazione dei dati effettivamente osservabili: l’equazione che esprime lo spazio in funzione del tempo per la caduta di gravi, o il periodo di oscillazione di un pendolo in funzione della lunghezza del filo, o altro, in cui il parametro “g” (accelerazione di gravità) compare come coefficiente incognito. Sulla base dei dati di laboratorio, rilevati sotto ben fissate condizioni sperimentali e con errori di misura casuali (non sistematici), è possibile determinare la migliore stima del parametro incognito “g”, secondo qualche fissato criterio di ottimizzazione, utilizzando, per esempio, l’analisi della regressione. In questo caso le variabili statistiche osservabili sono variabili legate funzionalmente al parametro e la loro conoscenza ci permette di stimare g. In altre situazioni l’impossibilità di osservare direttamente la variabile di interesse può derivare da questioni pratiche. Per esempio, se si vogliono fare previsioni sulla vittoria al ballottaggio di un certo candidato sindaco, solo a posteriori, quando non è più di interesse, è possibile osservare la proporzione di cittadini che lo ha effettivamente votato (parametro di interesse), a priori è solo possibile osservare alcuni fatti legati alle intenzioni di voto dei cittadini, per esempio la proporzione di cittadini che, intervistata, dichiara di voler votare quel candidato. Non è, però, possibile intervistare tutti i cittadini, ma solo un sottoinsieme, che si cerca di scegliere in modo il più possibile rappresentativo, ovvero con caratteristiche simili a quelle dell’insieme dei votanti, in modo da non introdurre distorsioni sistematiche. 8 Dai risultati dell’indagine campionaria si cerca poi di stimare la vera proporzione di votanti favorevoli al candidato di interesse. Ogni altra situazione generale in cui occorre risolvere problemi di stima è, più o meno, schematicamente riconducibile alle due situazioni considerate: - popolazione infinita e campionamento casuale dalla popolazione (potenziali infinite prove sperimentali di caduta dei gravi di cui se ne osserva un numero finito), difficoltà di misurare direttamente la variabile di interesse ma esistenza di un modello matematico che la lega a variabili osservabili, utilizzo, quindi, di opportuni metodi di stima per la determinazione del parametro incognito; - popolazione finita (eventualmente approssimabile per semplicità con una infinita) e campionamento casuale dalla popolazione, osservazione diretta della variabile di interesse sul campione, utilizzo di metodi inferenziali per estendere il risultato campionario all’intera popolazione di interesse. 10.3. Alcuni semplici problemi di stima parametrica. Ci occuperemo di formalizzare matematicamente la situazione a partire da problemi semplici, ma reali. Consideriamo il problema del ballottaggio di due candidati alla carica di sindaco. Supponiamo che il candidato A voglia farsi un’idea della probabilità che ha di superare il candidato B. Per essere più precisi, supponiamo che voglia conoscere in anticipo quale proporzione dei suoi concittadini intende votare per lui. Come possiamo schematizzare e risolvere il problema? Supponiamo, innanzitutto, di non poter procedere ad intervistare tutti i cittadini votanti, altrimenti, se così non fosse, dovremmo solo risolvere un problema statistico e non un problema inferenziale, perché potremmo osservare direttamente la variabile che interessa su tutte le unità statistiche della popolazione. Se non possiamo osservare tutta la popolazione, occorre scegliere in modo opportuno un campione rappresentativo di cittadini da intervistare sulle intenzioni di voto, supponiamo via telefono. Immaginiamo, per semplicità, che sia possibile disporre di un’unica lista di cittadini, per esempio in ordine alfabetico. Possiamo, pertanto, immaginare che ad ogni cittadino corrisponda in modo biunivoco un numero naturale compreso tra 1 e L, se il numero totale di votanti è L. Per estrarre un campione rappresentativo possiamo procedere secondo diversi schemi. Consideriamo, prima, il più semplice e immaginiamo di estrarre n numeri naturali compresi tra 1 e L con ripetizione e inserire nel campione da intervistare i corrispondenti soggetti. In tal modo costituiamo un campione casuale semplice di n unità statistiche, su ciascuna rileviamo, supponiamo senza errore, un attributo dicotomico: voto favorevole ad A, o no. Dato lo schema di campionamento utilizzato e il fatto che il risultato della rilevazione su ogni unità statistica possa essere schematizzato da un evento tipo successo/insuccesso, possiamo definire molto semplicemente la variabile osservabile di interesse X, che non può che essere il numero di successi sulle n prove. Data la 9 proporzione incognita di votanti per A, che possiamo denotare con , il problema diretto è risolto esprimendo la distribuzione di probabilità della variabile aleatoria X in funzione di n, che è noto e denotato numerosità campionaria, e del parametro incognito . In questa situazione utilizziamo un modello statistico ben noto: il modello binomiale Bin(n,): 10 n k P(X = k) = k(1-)n-k. Osserviamo che, per evidenziare che stiamo affrontando un problema inferenziale riguardante un parametro incognito, utilizziamo al posto di p nell’espressione della distribuzione binomiale. Tale notazione è la notazione standard nella statistica inferenziale. D’ora in poi utilizzeremo sempre per denotare dei parametri incogniti e per denotare lo spazio in cui variano. A questo punto occorre passare alla soluzione del problema inverso e determinare una valutazione, in termini tecnici si dirà una stima, per . Per risolvere il problema occorre, in realtà, procedere in due passi: 1. determinare, secondo qualche criterio opportuno, una regola generale che, applicata in ogni caso analogo, permetta di valutare ; dovrà trattarsi di definire una funzione =(n,X); 2. nel caso specifico, dati i valori osservati di n e di X (x), calcolare il corrispondente valore di , applicando la regola definita nel passo precedente, ovvero calcolare =(n,x). Dal punto di vista tecnico, la regola definita nel passo 1. viene denotata stimatore di , il suo valore, calcolato nel passo 2., si dice, invece, stima di . Lo stimatore di un parametro, essendo funzione di variabili aleatorie, è una variabile aleatoria, la stima è un valore numerico (scalare o vettoriale). Per procedere nell’applicazione occorre, allora, scegliere un criterio di stima. Considereremo sequenzialmente i diversi approcci proposti. 10.3.1. Il metodo di stima dei momenti. Innanzitutto consideriamo il significato probabilistico del parametro incognito nell’ambito dello schema di campionamento scelto. La procedura può essere schematizzata come un serie di estrazioni con reimbussolamento da un’urna contenente una proporzione di palline bianche (votanti a favore di A) e 1- di palline nere. Il parametro, allora, non è altro che la probabilità di successo in ogni singola estrazione (se successo è “estrazione di pallina bianca”) e le prove possono considerarsi equivalenti e indipendenti, dato che la composizione dell’urna rimane sempre invariata (reimbussolamento). Questo implica che ogni sequenza di n estrazioni contenente un fissato numero X di successi ha probabilità X(1-)n-X e, se, come è in questo caso, i risultati sono scambiabili, l’informazione non dipende dall’ordine, ma solo dal numero dei successi, che costituisce la variabile osservabile di interesse, come detto sopra. 11 Il problema è, allora, quello di valutare una probabilità , utilizzando una sequenza di eventi analoghi. Un primo approccio “naive” è di utilizzare la valutazione statistica della probabilità attraverso la frequenza relativa di successo fn(X)=X/n. Il ragionamento è intuitivo ed è inquadrabile nell’ambito del metodo di stima dei momenti. Nell’ambito di tale approccio i problemi di stima dei parametri vengono risolti uguagliando i momenti teorici relativi al modello statistico scelto, espressi in funzione del parametro incognito, agli analoghi momenti statistici (o empirici), calcolati numericamente sulla base dei dati disponibili, e risolvendo le equazioni (o l’equazione) rispetto al parametro incognito. Nel caso considerato si uguaglia la probabilità (momento teorico) alla frequenza relativa fn, che esprime statisticamente sui dati osservati lo stesso concetto. Lo stimatore risulta allora dato da (X)=fn(X)=X/n e la stima relativa da (x)=fn(x)=x/n. Per precisare meglio consideriamo un altro esempio. Consideriamo il controllo di qualità sulla durata di funzionamento di componenti elettronici effettuato secondo lo schema seguente. Dalla produzione, potenzialmente infinita, di una macchina, si estraggono e sottopongono a prova i primi n pezzi prodotti in un certo periodo. Tali pezzi costituiscono un campione casuale semplice dalla popolazione dei pezzi prodotti dalla macchina, se si suppone che non ci siano cambiamenti nelle modalità di produzione nel periodo considerato, e vengono osservati fino al momento di guasto. Gli n tempi di guasto vengono registrati e costituiscono il campione T1,T2,…,Tndelle variabili osservabili di interesse. Supponiamo che il modello statistico adeguato sia di tipo esponenziale e che il parametro di tale modello, che rappresenta il reciproco del valor medio, sia incognito. Indichiamo tale parametro con . La funzione di densità di ogni tempo T i si può allora scrivere come: e t per x 0 f (t ) 0 per x 0 Uguagliando il momento teorico (media) del modello (1/) al momento empirico corrispondente (media aritmetica delle osservazioni) e risolvendo rispetto a si ottiene: ( T1,T2,…,Tn)=1/T per lo stimatore e ( t1,t2,…,tn)=1/t per la stima del parametro incognito. Con lo stesso approccio possono risolversi altri problemi di stima. Ma come valutare le proprietà degli stimatori ottenuti? 10.3.2. Le proprietà degli stimatori e lo schema del campionamento ripetuto. 12 Si è detto che gli stimatori sono delle variabili aleatorie, come tali sono caratterizzati dalla loro distribuzione di probabilità, che dipende dal modello di produzione dei dati e dalla numerosità campionaria. Tale distribuzione fornisce le informazioni probabilistiche sul modo di variare dello stimatore al variare del campione di dati scelto e condizionatamente alla numerosità campionaria. Il fatto che si consideri lo stimatore al variare del campione giustifica il nome di campionamento ripetuto (si intende nelle stesse condizioni) per l’approccio in cui gli stimatori vengono valutati in base alle proprietà della loro distribuzione di probabilità. Consideriamo ancora il problema del sondaggio e studiamo le proprietà probabilistiche dello stimatore attraverso i parametri sintetici della sua distribuzione di probabilità. In particolare, prendiamo in considerazione la media e lo scarto standard. Possiamo scrivere lo stimatore come: (X)=fn(X)=X/n da cui si ricava: E((X))=E(X)/n=n/n= e: ((X))=[2((X)]=[(1-)/n]=(1/n) dove con si denota lo scarto standard relativo ad una sola prova. I risultati ottenuti permettono di trarre alcune conclusioni interessanti: 1. per qualsiasi valore di n, il valore centrale della distribuzione dello stimatore coincide con il parametro da stimare, ovvero la distribuzione dello stimatore è centrata attorno al parametro da stimare; 2. la dispersione della distribuzione dello stimatore, misurata dallo scarto standard, decresce con la numerosità campionaria n, ovvero la distribuzione dello stimatore è tanto più concentrata attorno al parametro da stimare quanto maggiore è la numerosità campionaria. Se ora consideriamo che cosa succede al limite per n che tende a infinito, ovvero al crescere della numerosità campionaria, possiamo applicare la legge dei grandi numeri e il teorema centrale e stabilire che: 1. lo stimatore (X) tende in probabilità a ; 2. la distribuzione di n[(X)-]/ tende alla normale standardizzata. E’ evidente che si tratta di buone proprietà in quanto ci assicurano: 13 1. che la regola di stima utilizzata (stimatore) non introduce mediamente distorsioni sistematiche nella stima (non tende a sottostimare, né a sovrastimare il parametro); 2. che, se si aumenta la numerosità campionaria, l’informazione fornita dallo stimatore è più precisa in quanto diminuisce la variabilità (la dispersione) della sua distribuzione. Possiamo ribaltare il discorso e richiedere fin dall’inizio ad uno stimatore qualsiasi di soddisfare le due proprietà viste, possiamo, cioè, richiedere che lo stimatore possieda la proprietà di correttezza o di non distorsione: 1. per qualsiasi valore di n, il valore centrale della distribuzione dello stimatore coincide con il parametro da stimare, ovvero la distribuzione dello stimatore è centrata attorno al parametro da stimare; e la proprietà di consistenza: 2. lo stimatore (X) tende in probabilità a . Prima di parlare di un altro approccio alla soluzione dei problemi di stima di parametri, consideriamo un altro esempio di interesse. Supponiamo di voler valutare la misura incognita di una certa grandezza effettuando misurazioni con uno strumento “impreciso” e supponiamo di definire la precisione p dello strumento come l’inverso della varianza della distribuzione delle misure effettivamente prodotte. E’ ben noto che si utilizza, come modello statistico, la distribuzione normale quando si voglia descrivere i risultati di un certo numero di misurazioni di una grandezza, la cui misura in assenza di errori è , effettuate con uno strumento di precisione p. Sotto tali ipotesi, se si suppone che le diverse misure siano effettuate indipendentemente e nelle stesse condizioni, si può proporre come modello per la variabile aleatoria X=“misura rilevata in una certa prova”, la distribuzione normale con media e varianza 2=1/p, che ha densità di probabilità espressa da: f ( x) 1 exp ( x ) 2 . 2 2 2 1 Fin qui il problema “diretto” di modellizzazione. Se interessa risolvere il problema inverso occorre, innanzitutto, definire l’incognita di interesse. In questo caso possono presentarsi tre diversi problemi: 1. stima della misura della grandezza con strumento di precisione nota; 14 2. stima della precisione dello strumento utilizzando una grandezza di misura nota; 3. stima della misura della grandezza e, contemporaneamente, della precisione incognita dello strumento. Poniamoci nel caso più generale (caso 3.) e indichiamo con 1 il valore della misura incognita (media della distribuzione della variabile ossservabile X) e con 2 la varianza della distribuzione, ovvero l’inverso del parametro di precisione dello strumento di misura. In tal caso il modello statistico relativo ad una singola osservazione di X si scrive: f ( x) 1 2 2 1 exp ( x 1 ) 2 . 2 2 Per risolvere il problema di stimare entrambi i parametri utilizziamo il metodo dei momenti e uguagliamo le incognite ai corrispondenti momenti statistici calcolati su un campione casuale semplice di n misure rilevate sempre con lo stesso strumento e nelle stesse condizioni. Abbiamo, cioè, a disposizione un’n-pla di variabili aleatorie scambiabili X1,X2,…,Xn, tutte con densità di probabilità data dall’espressione sopra riportata. Applicando la regola generale data dal metodo dei momenti, otteniamo: 1(X1,X2,…,Xn)=X e: Xi X n 2(X1,X2,…,Xn)= i 1 2 . n Possiamo ora chiederci se i due stimatori ottenuti in questo modo soddisfano le proprietà di correttezza e consistenza. Si ottiene immediatamente, e si lascia per esercizio, che entrambe le proprietà valgono per 1(X1,X2,…,Xn)=X. Vediamo, Xi X n allora, se valgono anche per 2(X1,X2,…,Xn)= Consideriamo: 15 i 1 n 2 . Xi X n 2 E(2(X1,X2,…,Xn))= E[ i 1 E X i 1 1 X n ]= i 1 2 . n n Sviluppando il quadrato, si ottiene: n E Xi 1 E(2(X1,X2,…,Xn))= i 1 2 E 1 X 2 2 E ( X i 1 X 1 . n Considerando separatamente i tre addendi, sostituendo ad X la sua espressione nel prodotto misto, e ricordando che le variabili sono indipendenti e pertanto la covarianza è nulla, si ottiene: 2 n 2 2 2 n n = n 1 2 . E[2(X1,X2,…,Xn)]= i 1 n n Lo stimatore della varianza, ottenuto con il metodo dei momenti, è, pertanto, distorto e tende a sottostimare il parametro incognito. Dal risultato ottenuto, possiamo, però, ricavare la regola corretta: Xi X n 2’(X1,X2,…,Xn)= i 1 n 1 2 . Non è difficile giustificare il risultato appena ottenuto. Se risolviamo il problema 2., infatti, quello consistente nello stimare la precisione incognita dello strumento con una grandezza di misura nota, otteniamo che lo stimatore della varianza, ottenuto dal metodo dei momenti e che risulta formalmente identico a quello considerato sopra ma con il valore noto della media al posto della sua stima X, soddisfa la proprietà di correttezza. Il problema, allora, non dipende dalla forma dello stimatore, ma, presumibilmente, dal fatto di aver sostituito un valore noto, che entra nel calcolo della varianza empirica, con il suo stimatore. In effetti, per stimare la varianza, nel caso 3., occorre prima aver stimato la media sulla base dell’n-pla di osservazioni che costituisce il campione di misure X1,X2,…,Xn. Se consideriamo di nuovo i due stimatori possiamo affermare che: 16 1. 1(X1,X2,…,Xn)=X si ottiene come media delle n osservazioni scambiabili che costituiscono un vettore in uno spazio n-dimensionale, in termini tecnici si dice che lo stimatore ha n gradi di libertà; Xi X n 2. 2(X1,X2,…,Xn)= 2 si ottiene come media dei quadrati delle n i 1 n componenti della variabile scarto. Ricordando che la proprietà che caratterizza la variabile scarto è di avere media nulla, si ha che le componenti di tale variabile appartengono ad uno spazio a n-1 dimensioni e non più ad n dimensioni. Il calcolo dello stimatore della varianza è basato su n-1 informazioni indipendenti e non più su n. Lo stimatore della varianza, nel caso in cui anche la media sia incognita e debba essere stimata, ha n-1 gradi di libertà. Possiamo sintetizzare dicendo che un campione di n variabili scambiabili ha n gradi di libertà. Se si calcolano delle trasformate di tali variabili, introducendo nel calcolo delle relazioni tra le variabili stesse, come fatto sopra per la variabile scarto, il numero di gradi di libertà si riduce di 1 unità per ogni relazione introdotta. Così, quando si utilizzano le nuove variabili trasformate per risolvere altri problemi di stima, ogni media si basa sul numero di gradi di libertà residui. Per ottenere stimatori non distorti occorre, quindi, che al denominatore delle medie compaia il numero effettivo di gradi di libertà e non la numerosità campionaria iniziale. Osserviamo che, per n che cresce, la differenza tra lo stimatore della varianza ottenuto dal metodo dei momenti e lo stimatore corretto tende a diminuire e al limite scompare. Questo fatto si sintetizza dicendo che lo stimatore della varianza ottenuto dal metodo dei momenti è asintoticamente corretto. Tornando ai tre problemi posti, si ottiene subito che la proprietà di consistenza è sempre verificata, dato che le varianze degli stimatori dipendono, comunque, inversamente da n. Si lascia per esercizio la verifica 10.3.3. La verosimiglianza. Consideriamo ancora il problema del controllo di qualità sulla durata di funzionamento di componenti elettronici effettuato secondo uno schema diverso dal precedente. Dalla produzione, potenzialmente infinita, di una macchina, si estraggono e sottopongono a prova i primi n pezzi prodotti in un certo periodo. Tali pezzi, vengono osservati fino al momento di guasto del k-esimo (k<n). I k tempi di guasto vengono registrati e costituiscono il campione T1,T2,…,Tk di tempi osservati, che supponiamo ordinati in ordine crescente. Degli altri componenti si sa soltanto che il loro tempo di guasto non è stato osservato perché risulta maggiore di Tk. Supponiamo ancora che il modello statistico adeguato sia di tipo esponenziale e 17 che il parametro di tale modello, che rappresenta il reciproco del valor medio, sia incognito. Indichiamo tale parametro con . La probabilità dell’evento che interessa ed è sintetizzato dall’informazione T1,T2,…,Tk, n-k tempi maggiori di Tk si può esprimere come segue: P[(T1t1,T2t2,…,Tktk)(Tk+1tk,Tk+2tk,…,Tntk)]=f(t1)f(t2)…f(tk)dt1dt2…dtk[1-F(tk)]n-k Infatti, le variabili considerate sono indipendenti e quindi vale la regola del prodotto; per ognuna di esse la probabilità che sia circa uguale ad un valore dato si ottiene dal prodotto della funzione densità f per l’incremento infinitesimo e la probabilità che una singola variabile sia maggiore di un valore dato si ottiene dal complemento a 1 della funzione di ripartizione F. Sostituendo le espressioni di f ed F relative alla distribuzione esponenziale si ottiene: P[(T1t1,T2t2,..,Tktk)(Tk+1tk,Tk+2tk,..,Tntk)]= =kexp-(t1+t2+..+tk)dt1dt2…dtk exp-(n-k)tk. Considerando la formula riportata sopra in funzione della sola densità per quanto riguarda i tempi effettivamente osservati e denotandola con L(;n,t1,t2,..,tk), otteniamo: L(;n,t1,t2,..,tk)= kexp-(t1+t2+..+tk) exp-(n-k)tk. La funzione appena definita è una funzione di due gruppi di variabili di significato diverso: 1. il primo gruppo, una volta fissata la numerosità campionaria n, è costituito dalle variabili osservabili,t1,t2,..,tk; 2. il secondo gruppo è costituito dai parametri incogniti da stimare, nel caso in esame il solo parametro della distribuzione esponenziale. Tale funzione, se si considera fissato , esprime la distribuzione di probabilità (o la densità di probabilità) delle variabili osservabili e soddisfa le proprietà generali relative ad una distribuzione di probabilità o funzione di densità. Se, invece, supponiamo di aver osservato le variabili, la funzione diventa funzione solo dei parametri incogniti da stimare, è non negativa, e, al variare di , permette di calcolare la distribuzione del campione effettivamente osservato in funzione del parametro incognito. Quando tale funzione è studiata come funzione del parametro, essendo noti e fissati i valori delle variabili osservabili, si chiama funzione di verosimiglianza di . Se consideriamo due possibili valori di : 1 e 2, diremo che 1 è più verosimile di 2 se L(1;n,t1,t2,..,tk)>L(2;n,t1,t2,..,tk). E’ abbastanza ragionevole, allora, 18 considerare come possibile regola per individuare uno stimatore di , quella consistente nell’assumere il valore più verosimile tra tutti i valori possibili. In tale regola “di buon senso” consiste il metodo di stima di massima verosimiglianza. Osserviamo che la massimizzazione si ottiene con gli usuali metodi dell’analisi e che, data l’espressione della funzione di verosimiglianza in forma di prodotto in tutti i casi di scambiabilità, si utilizza, in pratica, il logaritmo della funzione di verosimiglianza detto funzione di logverosimiglianza e denotato con l(;n,t1,t2,..,tk). Se calcoliamo lo stimatore di massima verosimiglianza per il caso considerato, otteniamo: (n,T1,T2,..,Tk)= k , dove si è posto Tk+1=Tk+2=…=Tn=Tk. Ti n i 1 Si lascia per esercizio di esprimere la funzione di verosimiglianza per il caso gaussiano, nelle tre situazioni relative alla non conoscenza dei parametri poste sopra. Una volta determinata la funzione di verosimiglianza, mediante massimizzazione si ottengono immediatamente gli stimatori di massima verosimiglianza. Il calcolo è lasciato per esercizio. Valgono i due seguenti principi di verosimiglianza: 1. Principio debole: con riferimento ad un dato modello statistico F(x/) con due osservazioni Y e Z tali che L(;Y)=L(;Z) devono condurre alle stesse conclusioni inferenziali su . 2. Principio forte: un’osservazione Y, con riferimento ad un dato modello statistico F(x/) con , e un’osservazione Z, con riferimento ad un dato modello statistico G(x/) con , tali che LF(;Y)=LG(;Z) devono condurre alle stesse conclusioni inferenziali su . Per comprendere il significato e le differenze tra i due principi consideriamo degli esempi. 1. Consideriamo ancora il problema del ballottaggio di due candidati alla carica di sindaco, con lo schema di campionamento già utilizzato in precedenza. In questo caso, sappiamo già che il problema diretto è risolto esprimendo la distribuzione di probabilità della variabile aleatoria X in funzione di n e del parametro incognito attraverso il modello binomiale Bin(n,): P(X = k) = n k(1-)n-k. k La corrispondente funzione di verosimiglianza si scrive: 19 L(; n,k)= k(1-)n-k Osserviamo che, dato il significato e l’utilizzo della funzione, una volta noto il campione, è possibile trascurare i fattori costanti rispetto all’incognita . Questo equivale a considerare appartenenti ad una stessa classe di equivalenza le funzioni di verosimiglianza individuate a meno di un fattore non dipendente da . In modo più rigoroso questo si esprime dicendo che la funzione di verosimiglianza è individuata a meno di un fattore. 2. Consideriamo ora lo stesso problema, ma utilizziamo un diverso schema sperimentale, ovvero fissiamo il numero di successi e continuiamo ad intervistare i votanti fino a raggiungere tale numero, diciamo k, di risposte posistive per A. In questo caso la variabile aleatoria è il numero di prove necessario per raggiungere k successi, che indichiamo con N. E’ noto che, se poniamo k=1, otteniamo per N la distribuzione geometrica di parametro . Per generalizzare quel modello al caso di un numero fissato qualsiasi di successi, possiamo ragionare così: perché il k-esimo successo avvenga all’n-sima prova occorre che si verifichino i due eventi: a) b) si hanno k-1 successi nelle prime n-1 prove in qualsiasi ordine; si ha un successo alla k-esima prova. Trattandosi, comunque, di prove bernoulliane è facile ricavare la distribuzione di probabilità di N: P(N=n) = n 1 k-1(1-)n-k = n 1 k(1-)n-k. k 1 k 1 Tale distribuzione, che prende il nome di distribuzione binomiale negativa, conduce ad uno stesso stimatore per del caso precedente, come si verifica immediatamente, ed, effettivamente, la situazione ricade nel principio di verosimiglianza forte. Abbiamo, infatti, usato variabili osservabili diverse e modelli statistici diversi, ottenendo, però, una stessa forma per la funzione di verosimiglianza. Consideriamo ora il principio debole utilizzando, per illustrarlo, il problema del controllo di qualità effettuato secondo il secondo schema sperimentale visto sopra. La corrispondente funzione di verosimiglianza risulta: L(;n,t1,t2,..,tk)= kexp-(t1+t2+..+tk) exp-(n-k)tk. 20 Tale funzione, se lo schema sperimentale (primo schema) prevede di osservare tutti gli n tempi di guasto, diventa: L(;n,t1,t2,..,tn)= nexp-(t1+t2+..+tn). Il massimo si trova, in questo caso, nel punto che coincide con lo stimatore ottenuto in precedenza con il metodo dei momenti. Osservando l’espressione della verosimiglianza notiamo che assume valori uguali su tutte le n-ple (t1,t2,..,tn) che hanno la stessa somma. Le conclusioni che si traggono sulla base della funzione di verosimiglianza sono, pertanto, le stesse su n-ple diverse, purché la somma delle variabili sia la stessa. I risultati non dipendono dai valori delle variabili, ma solo da una loro funzione, una statistica, in questo caso la somma. Quando questo accade si dice che la statistica che gode di questa proprietà è una statistica sufficiente per il problema di stima in esame. In termini più rigorosi: dato un modello statistico per una variabile osservabile X, definito da una distribuzione di probabilità F(x/), dipendente da un parametro (scalare o vettoriale) incognito , una statistica T(X) è sufficiente per l’inferenza su se e solo se assume valori distinti in corrispondenza a valori della funzione di verosimiglianza distinti, ovvero: T(Y)=T(Z) L( ;Y)=L(;Z). Vale l’ovvia proprietà: date n variabili scambiabili X1,X2,..,Xn, la statistica ordinata costituita dall’n-pla X(1),X(2),…,X(n), è una statistica sufficiente. Infatti, per definizione, quando si trattano variabili scambiabili, nessuna informazione rimane associata all’ordine, le conclusioni inferenziali devono coincidere su qualsiasi permutazione degli stessi valori. Una qualunque di tali permutazioni può essere, allora, assunta come rappresentante di tutte, per esempio quella ordinata. Il caso delle statistiche sufficienti si inquadra nell’ambito del principio debole di verosimiglianza. E’ possibile studiare le proprietà generali probabilistiche per gli stimatori di massima verosimiglianza inquadrandoli nello schema del campionamento ripetuto. La trattazione esula dai nostri scopi e, inoltre, snatura l’approccio attraverso lo studio della funzione di verosimiglianza, introdotto per studiare l’andamento in , una volta fissato il risultato delle osservazioni, o condizionatamente a tale risultato. Le variabili osservabili compaiono, pertanto, come costanti nella funzione stessa. Prima di passare all’impostazione bayesiana dei problemi di stima, consideriamo ancora un altro esempio. Consideriamo di nuovo il problema del ballottaggio, ma supponiamo di estrarre il campione di cittadini da intervistare procedendo con uno schema di estrazione senza reimbussolamento, come nel gioco del lotto. Come si modifica il modello di produzione dei dati osservabili? (che sono sempre i cittadini che affermano di votare o no per A). In questo caso, la probabilità di successo varia da una prova all’altra perché varia la composizione dell’urna ad ogni estrazione. Sappiamo che l’urna L n 21 contiene all’inizio L elementi, di questi se ne devono estrarre n. Ci sono, allora, in totale possibilità di scelta. Se nell’urna ci sono A elementi favorevoli ad A e L-A elementi contrari, sugli n estratti se ne possono avere esattamente k favorevoli ad A ed n-k contrari in A L A k n k modi possibili. Se ci chiediamo, pertanto, quale sia la probabilità di ottenere k elementi favorevoli ad A in un campione di n estratto senza reimbussolamento (estrazione in blocco), dobbiamo considerare il rapporto tra il numero di possibilità con k fissato e il numero totale di campioni ottenibili, abbiamo, allora, indicando ancora con X la variabile aleatoria che misura il numero di successi: A L A k n k P( X k ) L n I valori possibili per k sono compresi tra max(0,n-(L-A)) e min(n,A). Questi limiti tengono conto del possibile esaurirsi di individui di una classe e si ricavano dalle relazioni 0kA e 0n-kL-A. La distribuzione appena ottenuta si chiama distribuzione ipergeometrica. Si può dimostrare che, se L ed A tendono a + in modo tale che A/L si possa considerare costante e porre pari a p, la distribuzione ipergeometrica tende alla distribuzione binomiale di parametro p. Il risultato è abbastanza intuitivo dato che, nelle ipotesi poste, la popolazione cresce fino a diventare infinita, mantenendo, però, costante la proporzione di individui favorevoli ad A. E’ come se si tendesse al precedente schema sperimentale delle estrazioni con reimbussolamento. Se si calcola la media E(X) della distribuzione ipergeometrica, si trova che è uguale a quella della distribuzione binomiale di parametro p=A/L. Utilizzando per la stima il metodo dei momenti, se il parametro incognito è =A/L, è, pertanto, equivalente utilizzare lo schema di estrazione con reimbussolamento o in blocco. La varianza della distribuzione ipergeometrica di parametro vale invece: 2 n (1 )( L n ) L1 Si tratta della formula della binomiale corretta per il fattore (L-n)/(L-1), che è tanto più trascurabile (prossimo a 1) quanto più L è grande e n<<L. 22 Considerando, invece, la varianza dello stimatore di dato dalla frequenza relativa osservata si ha che tale indice dipende inversamente da n (numerosità campionaria), pertanto lo stimatore è corretto e consistente. I due schemi sperimentali di estrazione portano allo stesso stimatore con le stesse proprietà. La funzione di verosimiglianza risulta, invece, molto meno trattabile nel caso ipergeometrico per la presenza dei binomiali. Se si vogliono confrontare i due schemi, ai fini dell’inferenza su =A/L, ci si può basare sulle due varianze. A parità di L ed n, infatti, si ha che la varianza dello stimatore ottenuto dallo schema ipergeometrico è minore di quella ottenuta dallo schema binomiale, la distribuzione dello stimatore ipergeometrico è più concentrata di quella dello stimatore binomiale. In qualche modo l’informazione fornita dallo schema ipergeometrico è più precisa di quella fornita dallo schema binomiale. Un confronto di questo genere tra due stimatori, entrambi corretti, di uno stesso parametro di una popolazione si dice che è basata sull’efficienza. Per essere più rigorosi si può dire che, dati due stimatori entrambi non distorti di uno stesso parametro, si dice più efficiente quello cui corrisponde varianza inferiore, a parità di altre condizioni. 10.3.4. Stime puntuali e stime di intervallo. Fino a questo punto si è proposto, come soluzione per un problema di stima di un parametro relativo ad un modello statistico utilizzato in un processo di produzione di dati, un’unica funzione: lo stimatore, ed un’unico valore da utilizzare come valutazione del parametro incognito: la stima. Ogni valutazione, però, come si è visto, risulta dipendere dalla numerosità campionaria, almeno per quanto riguarda la sua precisione, sintetizzata attraverso le proprietà di dispersione della distribuzione dello stimatore nello schema del campionamento ripetuto. Si è anche visto che diversi modelli possono produrre, a parità di numerosità campionaria, diverse proprietà di dispersione degli stimatori di uno stesso parametro incognito. E’ evidente che tutte queste informazioni devono essere fornite al momento di comunicare il risultato di un processo di stima e che, pertanto, il risultato costituito dalla sola stima del parametro non è adeguatamente completo. La stima del parametro costituita semplicemente dal singolo valore assunto dallo stimatore in corrispondenza ai dati effettivamente osservati si dice: stima puntuale del parametro e i metodi per ottenerla sono i metodi di stima puntuale e forniscono come regole gli stimatori puntuali. Vediamo, allora, come sia possibile utilizzare le proprietà generali fin qui ottenute per gli stimatori per fornire un’informazione più completa sui risultati di un processo di stima. Ricordiamo che fornire un risultato in modo esauriente comporta che debba essere possibile a chi legge ricostruire tutto il processo di stima effettuato ed, eventualmente, replicarlo. Un modo completo di fornire le informazioni rilevanti sul processo è di fornire: il modello statistico utilizzato, il risultato della stima puntuale, la corrispondente stima 23 dello scarto standard dello stimatore e la numerosità campionaria. Generalmente le informazioni sul modello e sulla numerosità campionaria vengono riportate nel momento in cui si descrive l’esperimento o l’osservazione, mentre i risultati relativi al processo di stima vero e proprio, stima e scarto standard dello stimatore vengono riportati nella forma standard: stimascarto standard. Per esempio, se, sulla base di un modello bionomiale e di 100 unità statistiche, si è ottenuto un valore stimato di : =0.4, si riporta il risultato nel modo seguente: 0.40.024. In questo modo si determina un intervallo, attorno al valore puntuale, più o meno ampio, a seconda della numerosità campionaria, una volta stabilito il modello statistico. Questo modo di fornire l’informazione prevede, pertanto, un risultato finale in forma di intervallo di cui la stima puntuale costituisce il punto medio. L’approccio al problema di stima è del tipo stima di intervallo e può essere meglio precisato. Per esempio, se si conosce esattamente la distribuzione di probabilità dello stimatore, indichiamolo con (X), è sempre possibile stabilire con che probabilità il suo valore, una volta osservati i dati effettivi, apparterrà ad un preciso intervallo che, generalmente, data la dipendenza della distribuzione dal parametro incognito , dipenderà da stesso. Consideriamo ancora il caso del modello binomiale. Lo stimatore puntuale del parametro , (X), è, in questo caso: (X)=X/n, con varianza 2(X/n)= (1-)/n, che può essere, a sua volta, stimata con: X X (1 ) X n s2 n n n Se indichiamo semplicemente con s la radice quadrata di s2(X/n) e supponiamo che n sia abbastanza grande da poter applicare a X/n il teorema centrale del limite, possiamo scrivere: P(-a(-X/n)/s+a)= e calcolare , una volta fissato il valore di a, utilizzando le tavole della distribuzione normale standardizzata o viceversa, fissato , determinare a mediante la stessa tavola. 24 Il significato probabilistico della relazione considerata è il seguente: dato il modello di osservazione binomiale e la numerosità campionaria n, il valore dello stimatore non dista più di as dal parametro incognito da stimare con probabilità . La relazione considerata si può anche scrivere: 25 P(-a(-X/n)/s+a)= P(X/n-asX/n+as)= che va letta come segue: dato il modello di osservazione binomiale e la numerosità campionaria n, con probabilità , l’intervallo aleatorio di semiampiezza as centrato sullo stimatore contiene al suo interno il valore del parametro incognito . Osserviamo che non si può dire, come spesso si vede scritto: dato il modello di osservazione binomiale e la numerosità campionaria n, il parametro incognito appartiene all’intervallo di semiampiezza as centrato sullo stimatore con probabilità . Infatti, non essendo una variabile aleatoria, non ha senso nessuna proposizione probabilistica definita su di essa. La variabile aleatoria è solo X e espressioni che coinvolgono il calcolo di probabilità possono riferirsi solo a variabili aleatorie. Per poter esprimere l’intervallo con riferimento al parametro incognito, non potendo più utilizzare il concetto di probabilità, occorre cambiare notazione e riferirsi al valore come al livello di confidenza. Ci si esprime, pertanto, nel seguente modo: dato il modello di osservazione binomiale e la numerosità campionaria n, il parametro incognito appartiene all’intervallo di semiampiezza as centrato sullo stimatore con un livello di confidenza . Nel caso in cui non sia possibile determinare la distribuzione dello stimatore, purché sia valutabile o nota la sua varianza, si può sempre applicare la disuguaglianza di Chebyshev e calcolare un intervallo aleatorio che, con un certo livello di probabilità, contenga al suo interno il parametro da stimare. E’ evidente che, a parità di livello di probabilità , quanto più è piccolo a tanto più precisa si può considerare l’informazione di intervallo sul parametro da stimare. Consideriamo il seguente esempio: sono state rilevate delle misure che si può supporre provengano da una distribuzione di probabilità normale con media incognita e varianza nota, indichiamo con la media incognita e con lo scarto standard noto. Supponiamo che il campione sia costituito da n misure. Proviamo ad esprimere l’intervallo di stima ad un livello di probabilità 95%, utilizzando la Tavola della distribuzione gaussiana standardizzata. In questo caso lo stimatore puntuale da considerare è (X1,X2…,Xn)=X, la relazione base per determinare l’intervallo è: P(-a(-X)/(/n)+a)=0.95. 26 Dalla tavola otteniamo il valore di a che lascia fuori dell’intervallo una probabilità del 5%, considerando l’ascissa corrispondente al valore 0.975 della funzione di ripartizione, che risulta essere 1.96. Questo ci permette di determinare l’intervallo di interesse in funzione di e X: [-a,a]=[X-1.96(/n),X+1.96(/n)]. Se non sappiamo da quale distribuzione provengono i nostri dati, ma conosciamo, comunque, lo scarto standard, possiamo utilizzare la disuguaglianza di Chebyshev e determinare l’intervallo seguente: [-a,a]=[X-4.47(/n),X+4.47(/n)]. Come si vede immediatamente, l’informazione legata al tipo di distribuzione ci permette di ottenere un intervallo molto più piccolo a parità di altre condizioni, ci consente, cioè, di avere un’informazione molto più precisa sul parametro incognito. Per ottenere un intervallo paragonabile a quello ottenuto nel caso normale utilizzando solo la disuguaglianza di Chebyshev, dobbiamo impiegare una numerosità campionaria oltre 5 volte quella del caso gaussiano. Si lascia per esercizio di effettuare lo stesso confronto nel caso della distribuzione binomiale, con n abbastanza grande da poter utilizzare l’approssimazione normale, come visto in precedenza. Analogamente si può procedere per altri modelli statistici, per esempio il modello poissoniano. Inquadrando il problema della ricerca degli intervalli di stima nell’ambito della teoria della verosimiglianza, si può procedere a determinare gli intervalli di verosimiglianza, ovvero degli intervalli [1,2], non necessariamente simmetrici, attorno al valore di in corrispondenza del quale la funzione L(;x1,x2,..,xn) assume il suo massimo, indichiamo con L il relativo valore dell’ordinata, e di ampiezza determinata dalla condizione: L(;x1,x2,..,xn)k L per [1,2], con k<1. 10.3.5. Impostazione bayesiana. Fin qui sono stati considerati i diversi approcci ai problemi di stima e i vari sviluppi, che vanno sotto il nome generale di impostazione classica della teoria della stima. L’impostazione bayesiana non va, però, vista come un possibile approccio alternativo, ma, piuttosto, come l’approccio generale e rigoroso ai problemi inferenziali, di qualunque tipo, a cui tutti i metodi precedentemente trattati possono 27 essere ricondotti facendo ipotesi particolari o semplificative. Si tratta di un paradigma logico-induttivo che non necessita di giustificazioni di alcun tipo, solo della teoria generale delle probabilità e, in particolare, delle regole di coerenza e del teorema di Bayes. In realtà lo schema inferenziale bayesiano è l’unico che permette di utilizzare la probabilità come misura dell’incertezza in relazione a problemi di induzione e di trattare l’inferenza come uno sviluppo naturale e, in un certo senso, banale del calcolo delle probabilità, da un punto di vista logico, inquadrandola nell’ambito dei problemi inversi di natura probabilistica. L’approccio bayesiano comporta, però, dal punto di vista tecnico alcune “complicazioni”, cui si può far fronte, in molti casi, utilizzando opportunamente anche gli schemi classici visti in precedenza, pur di ricordare sempre sotto quali ipotesi questo è rigorosamente accettabile e con quali limitazioni. Il miglior modo per parlarne è, ancora una volta, di utilizzare opportuni esempi. Si è detto in precedenza che qualunque "fatto" non noto a priori viene definito come aleatorio, in particolare evento se identificabile con un risultato dicotomico, numero aleatorio (comunemente variabile aleatoria) se identificabile con un valore numerico qualsiasi. Si è anche visto come eventi e variabili aleatorie siano descritti nel modo più esauriente attraverso le valutazioni di probabilità o le distribuzioni di probabilità. Sia ora data una distribuzione di probabilità, ovvero un modello statistico, relativo ad una caratteristica X di una popolazione, che si intende rilevare, e supponiamo, per semplicità, di sapere che tale distribuzione possiede una densità di probabilità f(x/) dipendente da un parametro incognito , per esempio sia una densità gaussiana con varianza nota 2 e media incognita =: f ( x) 1 2 2 1 exp ( x ) 2 . 2 2 Supponiamo, inoltre, di aver osservato n misure X1,X2,…,Xn estratte dalla popolazione in esame, in modo da costituire un campione casuale semplice. Il nostro obiettivo è quello di determinare, a partire da "tutte" le informazioni disponibili, una adeguata valutazione per il valore incognito del parametro. Essendo incognito, e quindi non noto a priori, possiamo descriverlo come una variabile aleatoria la cui distribuzione, valutata in base alle informazioni generali sul fenomeno in esame, denotiamo con p0(). Supponiamo, per semplicità, che possa assumere valori compresi tra a e b (eventualmente ) su una scala continua e che p0() sia una densità di probabilità. Una volta acquisite le informazioni, costituite dai valori osservati {x1, x2,… ,xn} delle misure X1,X2,…,Xn, possiamo applicare il teorema di Bayes per aggiornare la valutazione in merito alla densità di probabilità del parametro. Nella versione relativa alle densità di probabilità il teorema di Bayes ci consente di scrivere: 28 p( / X1 x1 , X x2 ,..., X n xn ) po ( ) f ( x1 / ) f ( x2 / )..... f ( xn / ) b o p ( ) f ( x1 / ) f ( x2 / )..... f ( xn / )d a La densità a posteriori p(/X1=x1,X2=x2,…,Xn=xn) costituisce la previsione più esauriente sul valore incognito del parametro, tenendo conto sia delle informazioni preliminari (distribuzione a priori sul fenomeno in esame, p 0(), sia delle misure effettivamente rilevate, tramite campionamento {x1,x2,…,xn}). Un opportuno indice sintetico di posizione (la media, la moda, la mediana,..) della densità a posteriori può essere, quindi, utilizzato come stimatore bayesiano puntuale di mentre stime di intervallo si ottengono a partire dall’equazione: c2 p( / X 1 x1 , X 2 x2 ,..., X n xn ) c1 che permette di determinare c1 e c2, e forniscono effettivamente intervalli di probabilità e non di confidenza. Si lascia per esercizio lo sviluppo dell’esempio nel caso gaussiano, a partire da diverse ipotesi sulla distribuzione a priori. 29 Approfondimenti ed esempi si trovano nei testi citati in bibliografia. BIBLIOGRAFIA OTTAVIANI M.G., ROSSI C., SCALIA TOMBA G. "Lezioni sulla statistica, sulla probabilità e sui problemi di stima con spunti didattici" L'insegnamento di Probabilità e Statistica nella scuola liceale MPI QUADERNI FORMAZIONE DOCENTI n.8 1994 ROSSI C. La Matematica dell’Incertezza: didattica della probabilità e della statistica ZANICHELLI Bologna 1999 30