x - Dipartimento di Fisica

annuncio pubblicitario
Laboratorio di Strumentazione e Misura
Cesare Bini
Corso di laurea in Fisica
Anno Accademico 2006-2007
1
Questi appunti sono basati sulle lezioni del modulo di Laboratorio di Strumentazione e Misura del
primo anno delle lauree triennale in Fisica, Fisica e Astrofisica e Fisica e Tecnologie Informatiche
da me tenute negli anni accademici a partire dal 2002-2003 all’Università “La Sapienza” di Roma.
Si tratta del primo modulo di laboratorio, al quale seguono nei trimestri successivi altri quattro
moduli di laboratorio con contenuti più specifici (Meccanica, Termodinamica, Elettromagnetismo e
Ottica). Il modulo si propone di fornire agli studenti gli strumenti di base per la comprensione del
linguaggio della fisica sperimentale con particolare riferimento al problema dell’elaborazione e
dell’analisi dei dati sperimentali.
In questi appunti, dopo una breve introduzione sul significato del metodo sperimentale, ci si
concentra nel primo capitolo sul concetto elementare di misura in fisica. In questo primo capitolo le
idee e le nozioni sono fornite esclusivamente su base intuitiva, senza formalismi matematici e senza
alcuna pretesa di completezza e di esaustività. Nel secondo capitolo si entra nella teoria della
probabilità, o meglio, in quella parte della teoria della probabilità e delle variabili casuali che risulta
fondamentale per la comprensione dei risultati degli esperimenti di fisica. Gli argomenti di questa
parte sono trattati con maggior rigore, e vengono utilizzati alcuni formalismi matematici più evoluti
che gli studenti stanno apprendendo nei corsi paralleli di matematica. In alcuni casi, dove é
necessario, sono forniti dei semplici complementi di matematica, trattati però sempre con
l’attitudine del fisico sperimentale che, come lo studente avrà modo di vedere é diversa da quella
del matematico. Nel terzo capitolo infine con l’ausilio degli strumenti di teoria della probabilità e
delle variabili casuali trattati in precedenza, vengono ripresi i problemi impostati all’inizio del corso
per fornire dei metodi statistici di risoluzione di cui sarà ora chiaro il fondamento. L’obiettivo é
acquisire il modo di analizzare i dati degli esperimenti per trarne delle conclusioni scientificamente
ben fondate. Ciascuno dei tre capitoli é corredato da una serie di esercizi per i quali alla fine sono
illustrate e discusse le soluzioni. Si tratta di esercizi in tutto analoghi a quelli che vengono dati sia
nella prova scritta finale che nelle cosiddette “prove in itinere”, e costituiscono una parte
fondamentale del corso.
La conoscenza e la padronanza dei metodi di analisi dei dati sperimentali costituisce non solo un
bagaglio fondamentale per quegli studenti che si avvieranno alla ricerca scientifica, ma é anche
estremamente importante per tutti quei laureati che si avvieranno al lavoro nell’industria o in altri
settori, per i quali comunque sarà cruciale la capacità di trarre delle conclusioni fondate a partire da
un insieme di dati qualunque sia l’origine di questi.
2
(0) Il metodo scientifico.....................................................................................................5
(1) La misura di una grandezza fisica ..............................................................................9
(1.1) Grandezze fisiche, unità di misura e dimensioni fisiche. ............................................................9
(1.1.1) L’unità di tempo. ................................................................................................................10
(1.1.2) L’unità di lunghezza...........................................................................................................10
(1.1.3) L’unità di massa. ................................................................................................................11
(1.1.4) Sistemi di unità di misura...................................................................................................11
(1.2) Il concetto di incertezza di misura.............................................................................................13
(1.3) Esempi di valutazioni “qualitative” di incertezza ....................................................................15
(1.3.1) Caso in cui la misura si riconduce alla lettura di uno strumento........................................15
(1.3.2) Caso dei conteggi. ..............................................................................................................16
(1.3.3) Caso di misure ripetute che danno diversi valori: la sequenza di numeri. .........................17
(1.3.4) Analisi grafica della sequenza di numeri. ..........................................................................17
(1.3.5) Caratteristiche riassuntive di una sequenza di numeri .......................................................22
(1.3.6) Stima di intervalli. ..............................................................................................................25
(1.3.7) Errori sistematici ................................................................................................................26
(1.4) Sequenze di “coppie” di misure ................................................................................................27
(1.5) Terminologia .............................................................................................................................30
(1.6) Cifre significative ......................................................................................................................30
(1.7) Caso di misure indirette: cenni alla propagazione.....................................................................33
(1.8) Nozione di significatività ..........................................................................................................34
(1.9) Ulteriori considerazioni sui grafici: scale lineari e scale non lineari. .......................................37
(1.9.1) La scala quadratica. ............................................................................................................37
(1.9.2) La scala logaritmica............................................................................................................38
Esercizi relativi al Capitolo (1) ..........................................................................................................42
(2) La probabilità e le variabili casuali ...........................................................................46
(2.1) Concetto di probabilità ..............................................................................................................46
(2.2) Alcuni metodi di calcolo ...........................................................................................................46
(2.3) Regole della teoria delle probabilità.........................................................................................47
(2.3.1) Spazio degli eventi .............................................................................................................47
(2.3.2) Eventi composti..................................................................................................................48
(2.3.3) Definizione assiomatica della probabilità ..........................................................................48
(2.3.4) Probabilità condizionata .....................................................................................................48
(2.3.5) Alcune proprietà delle probabilità......................................................................................49
(2.3.6) Il teorema di Bayes.............................................................................................................50
(2.4) Il Calcolo Combinatorio............................................................................................................51
(2.5) Variabili casuali.........................................................................................................................53
(2.5.1) Considerazioni generali......................................................................................................53
(2.5.2) Distribuzioni di probabilità di variabili casuali..................................................................54
(2.5.3) Variabili discrete. ...............................................................................................................55
(2.5.4) Variabili continue ...............................................................................................................55
(2.5.5) Momenti di una distribuzione.............................................................................................58
(2.5.6) Densità di probabilità di una funzione di variabile casuale................................................59
(2.5.7) La media e la deviazione standard come variabili casuali .................................................60
(2.6) Variabili casuali notevoli...........................................................................................................61
(2.6.1) Distribuzione uniforme.......................................................................................................61
(2.6.2) La distribuzione binomiale.................................................................................................63
(2.6.3) Il processo di Poisson: limite del processo di Bernoulli. ...................................................66
(2.6.4) Il processo di Poisson: definizione generale. .....................................................................69
(2.6.5) La distribuzione di Gauss ...................................................................................................71
(2.6.6) Distribuzioni di variabili casuali derivate dalla distribuzione di Gauss.............................74
3
(2.7) Proprietà notevoli delle variabili casuali ...................................................................................77
(2.7.1) Contenuto di probabilità di intervalli di variabili casuali...................................................78
(2.7.2) Il teorema del limite centrale..............................................................................................78
(2.7.3) Limite gaussiano.................................................................................................................80
(2.8) Variabili casuali multiple. .........................................................................................................81
(2.8.1) Impostazione del problema ................................................................................................81
(2.8.2.) Probabilità congiunta e covarianza....................................................................................82
(2.8.3) Calcolo di E[y] e Var[y].....................................................................................................83
(2.8.4) Propagazione delle incertezze ............................................................................................84
Esercizi relativi al Capitolo (2) ..........................................................................................................88
(3) Introduzione all’inferenza ..........................................................................................92
(3.1) Introduzione “formale” all’inferenza ........................................................................................92
(3.1.1) Considerazioni generali......................................................................................................92
(3.1.2) L’inferenza bayesiana.........................................................................................................93
(3.1.3) Il principio di massima verosimiglianza ............................................................................94
(3.2) Inferenza sul valore vero ...........................................................................................................94
(3.2.1) Caso di una singola misura.................................................................................................94
(3.2.2) Caso di una misura ripetuta N volte. ..................................................................................95
(3.2.3) Caso dei conteggi poissoniani. ...........................................................................................97
(3.2.4) Caso dei conteggi binomiali. ..............................................................................................98
(3.2.5) La “barra di incertezza”......................................................................................................99
(3.3) Misure indirette: la propagazione delle incertezze....................................................................99
(3.3.1) Riformulazione del problema.............................................................................................99
(3.3.2) Propagazione delle incertezze ..........................................................................................100
(3.4) Nozione di consistenza e significatività: test d’ipotesi ...........................................................100
(3.4.1) Consistenza tra risultati di esperimenti ............................................................................101
(3.4.2) Consistenza tra esperimento e modello ............................................................................102
(3.4.3) Combinazione di diverse misure: la media pesata. ..........................................................102
(3.5) Analisi delle dipendenze funzionali: il fit ...............................................................................103
(3.5.1) Il fit: formulazione del problema......................................................................................103
(3.5.2) Ipotesi di lavoro................................................................................................................104
(3.5.3) Il fit: derivazione delle formule per le stime dei parametri..............................................105
(3.5.4) Il fit: calcolo delle varianze dei parametri e della loro covarianza ..................................108
(3.5.5) Valutazione della bontà del fit: test del χ2. ......................................................................111
(3.5.6) Caso particolare: test della consistenza tra N misure indipendenti ..................................116
(3.5.7) Il fit: come farlo operativamente ......................................................................................116
(3.5.8) Caso in cui non conosco le incertezze sulle y: il metodo dei residui ...............................117
Esercizi relativi al Capitolo (3) ........................................................................................................120
Soluzione degli esercizi proposti. ................................................................................124
4
(0) Il metodo scientifico
Qual é l’oggetto della scienza naturale ? La scienza si occupa dei fenomeni naturali vale a dire di
tutte quelle cose che osserviamo accadere, di quelle manifestazioni della natura, che “entrano in
relazione” con i nostri sensi, e che noi consideriamo rilevanti e degne di essere studiate. In
particolare, anche la fisica studia tali “manifestazioni”. E’ difficile circoscrivere con chiarezza il
campo di indagine della fisica rispetto ad altre discipline quali la chimica o la biologia (e in effetti
esistono discipline di confine quali la chimica fisica e la biofisica). In modo generale e forse
discutibile, si può dire che la fisica si distingue dagli altri settori di indagine, per il fatto di studiare i
fenomeni nelle loro manifestazioni più “elementari” o “fondamentali”, ovvero per il fatto di
occuparsi dei sistemi più semplici esistenti in natura.
Il metodo con cui in fisica vengono studiati i fenomeni naturali si colloca entro il quadro più vasto
del metodo scientifico, una grande costruzione di pensiero e di esperienza sviluppata nel corso degli
ultimi secoli. La fisica fa proprio il metodo scientifico, con alcune specificità dovute al tipo di
problemi che devono essere affrontati.
A cosa serve dunque il corso di laurea in fisica ? La cosa principale che gli studenti di fisica
imparano é proprio il metodo della fisica, l’apprendimento del quale é in un certo senso ancora più
importante della conoscenza delle leggi fisiche stesse. Il metodo fornisce, infatti, l’atteggiamento
con cui il fisico si pone nello studio dei fenomeni naturali, costituisce un modo di indagine della
realtà, un approccio ai problemi.
Vediamo quali sono gli aspetti caratteristici di questo metodo. Nella storia del pensiero ci sono stati
due atteggiamenti di fronte alla complessità della realtà fisica: (a) L’Empirismo (il cui metodo
d’indagine caratteristico é detto induzione) e (b) il Razionalismo (per il quale si ha il metodo detto
della deduzione). Per esemplificare questi 2 approcci prendiamo un esempio preso a prestito dalla
vita quotidiana. Tutti noi scegliamo di comportarci in un certo modo in base alle informazioni che
abbiamo. A che ora usciamo di casa la mattina per arrivare all’università’ prima delle 9 ? Lo
studente 1 affronta il problema con il seguente approccio. Fa diverse prove: un giorno esce alle 7
un giorno alle 7:30 poi alle 8 ed infine alle 8:30. Ripete in giorni diversi queste prove e alla fine
osserva che se esce alle 7:30 impiega 15 minuti, se esce alle 8 impiega di più e così via. Da tali
osservazioni “conclude” che l’orario migliore per uscire é uno dei tanti provati. Da ciò trae in
definitiva la sua regola di comportamento. Lo studente 2 invece sulla base del fatto che le scuole
aprono alle 8, gli uffici alle 9 “deduce” che é meglio uscire alle 7:30 (senza impiegare diverse
settimane a fare delle prove). E’ chiaro che si tratta di un esempio di empirista (lo studente 1) e di
razionalista (lo studente 2).
Quale dei due approcci é quello proprio del metodo scientifico ?
In realtà non lo é nessuno dei due, o meglio, lo scienziato usa ambedue i metodi, li combina.
In questo consiste la sintesi propria del metodo scientifico, che si suole anche indicare come sintesi
galileiana ricordando il nome di Galileo che fu il primo a formularne gli aspetti salienti nei suoi
scritti: osservazione e teoria sono intimamente legate tra loro, in un certo senso “si guidano a
vicenda”. Il metodo scientifico moderno nasce da questa sintesi. L’osservazione della natura non é
un puro e semplice catalogare fatti o fenomeni (che é viceversa proprio dell’empirismo puro).
Attraverso l’osservazione lo scienziato vuole in realtà cogliere il “meccanismo” che regola i
fenomeni e pertanto tende a “selezionare” le osservazioni da fare e, al tempo stesso, tende ad
“inventare un linguaggio” con il quale riesce a parlare in modo chiaro dei fenomeni naturali che
osserva. La comprensione dei “meccanismi” della natura é infatti molto più potente della pura e
semplice osservazione di come si svolgono le cose. Non solo, tale comprensione “spinge” ad altre
osservazioni e pertanto la conoscenza che si acquisisce diventa la base per acquisizioni di
conoscenze successive.
5
Gli ingredienti fondamentali del metodo scientifico sono dunque da un lato gli esperimenti e
dall’altro i modelli teorici. Sono due elementi che si muovono di pari passo condizionandosi a
vicenda. Vediamo di chiarirne il significato.
- Fare un esperimento significa fare una domanda alla natura. Si noti la differenza che c’è tra
esperimento (processo attivo) e semplice osservazione (processo passivo). La domanda che
l’esperimento pone, deve essere ben posta. Quello dell’esperimento é un procedimento chiaramente
induttivo. Sul piano logico il processo é il seguente: se osservo che una cosa si svolge in un certo
modo in una data circostanza, passo dal particolare al generale: quella cosa in quelle condizioni si
svolge sempre in quel modo. Per esempio se io osservo che un dato materiale ha una certa proprietà
(esempio, il rame é conduttore), io “induco” che tutto il rame é conduttore. Per dire questo dovrei
prendere tutto il rame del mondo anzi dell’universo e misurarlo. Ma non é necessario farlo.
Facciamo un’osservazione: il fatto che la ripetizione di un dato esperimento fatto da persone
diverse in tempi diversi con apparati diversi porti a risultati che sono tutti “generalmente
compatibile”, é un fatto per nulla banale, ma é ciò che effettivamente accade. In altre parole la
Natura risponde allo stesso modo ad osservatori diversi, quando la domanda é posta ugualmente
bene. Quando ciò accade, si dice che siamo in condizioni di riproducibilità. Quando non accade
normalmente vuol dire che la domanda é mal posta, l’esperimento é fatto male. In questo, troviamo
un primo aspetto dell’oggettività che rende fattibile l’indagine scientifica.
- Che cos’è invece un modello teorico? Il modello si sviluppa quando vengono individuati i
termini che descrivono il fenomeno (gli elementi del “linguaggio”) e le relazioni che li collegano. A
questo punto posso “dedurre” le caratteristiche di altri fenomeni. Posso cioè fare predizioni. Si
tratta di un procedimento chiaramente deduttivo. Da assiomi generali deduco conseguenze
osservabili. Un modello, potremmo dire, “inventa un linguaggio” con il quale é possibile parlare di
quel fenomeno e predire le proprietà di altri fenomeni a questo collegati.
Seconda osservazione: il fatto che i nostri modelli descrivono bene i risultati degli esperimenti é
un secondo fatto per nulla ovvio, ma é anch’esso vero. Si tratta di un altro aspetto dell’oggettività di
cui si diceva. Gli uomini riescono a creare un linguaggio comune per descrivere la natura. Una
persona intelligente riesce a capire questo linguaggio, e si rende conto presto che funziona.
Per poter apprezzare il modo con cui la scienza si sviluppa, é fondamentale vedere i tanti esempi
che la storia della scienza ci fornisce. Tra i tanti che saranno discussi in tutti i corsi del seguito degli
studi, accenniamo solo brevemente al caso della meccanica: dall’osservazione dei corpi in moto (di
alcuni corpi in moto non di tutti i moti possibili) Newton “induce” la legge del moto che costituisce
la regola fondamentale del “linguaggio” dei fenomeni di corpi in moto. Una volta stabilito il
linguaggio della meccanica fu possibile dedurre predizioni di altri fenomeni che in seguito,
esperimenti tecnologicamente sempre più evoluti hanno sottoposto a test sempre più accurati.
Questo progresso nell’accuratezza degli esperimenti ha portato infine a mostrare che il linguaggio
della meccanica doveva essere modificato per poter descrivere fenomeni in certe particolari
condizioni.
La forza del metodo scientifico sta essenzialmente nel suo successo. Il successo della meccanica,
della termodinamica e dell’elettromagnetismo nell’arco di meno di 3 secoli sono una testimonianza
straordinaria di ciò.
Facciamo ora un passo avanti. Infatti finora abbiamo parlato in modo generico di osservazioni e
modelli. In realtà sappiamo bene che sia gli esperimenti che i modelli hanno a che fare con i numeri
e più in generale con le regole della matematica. D’altra parte gli studenti del primo anno sanno
bene che sono invitati a studiare la matematica. Cerchiamo di capire il perché.
Nell’esperimento le sensazioni umane sono “quantificate”. In altre parole sono sostituite da numeri
che appunto rendono quantitativa una sensazione che altrimenti sarebbe solo qualitativa. Dire che
un corpo é più caldo di un altro costituisce una affermazione ben definita e non ambigua. Tuttavia é
6
un’affermazione povera di contenuto. Per rendere più efficace la sensazione si mette in atto un
processo di quantificazione che chiamiamo processo di misura di una grandezza fisica.
Al termine dell’esperimento ho dunque un insieme di numeri, che rappresentano i risultati delle
misure della o delle grandezze fisiche rilevanti per la descrizione del fenomeno che sto studiando.
Il modello esprime relazioni tra tali grandezze fisiche. Si tratta delle leggi fisiche. Il confronto tra i
risultati delle misure e tali legge permette di stabilire se il modello descrive correttamente il
fenomeno.
Nel contesto del metodo scientifico il ruolo della matematica risulta decisivo sia negli esperimenti
che nella teoria. Infatti:
Æ La usiamo per sviluppare i modelli e definire il linguaggio per la loro caratterizzazione. Il
dedurre é matematico. Il settore principe della matematica applicata alla fisica é l’analisi (calcolo
infinitesimale) che, infatti, nacque proprio dall’esigenza di fornire uno strumento di calcolo
adeguato alla descrizione della fisica.
Æ Ma la dobbiamo usare per “trattare” in modo coerente i risultati delle misure che compongono
qualsiasi esperimento. In questo caso il concetto di probabilità diventa molto importante perché si
vede che gli esperimenti si lasciano descrivere da teorie probabilistiche. Accanto alla teoria della
probabilità si colloca la statistica la disciplina che studia da un lato, le modalità con cui descrivere
le proprietà di un insieme di dati (statistica descrittiva) e dall’altro come a partire dai dati si può
trarre conclusioni sui valori delle grandezze fisiche (statistica inferenziale).
(1)
(2)
(3)
(4)
(5)
(6)
Cosa facciamo noi in questo corso ?
Nell’ambito dei corsi di laurea in fisica, il corso di laboratorio ha un ruolo estremamente rilevante.
Si tratta infatti di imparare un “mestiere”: il mestiere dello sperimentatore. E’ un lavoro ben definito
con le sue caratteristiche. Schematizzando potremmo dire che il lavoro dello sperimentatore si
sviluppa nei seguenti passi, ciascuno del quali richiede una certa propensione:
pensare a quale é l’esperimento giusto da fare (domanda alla natura); conoscere la fisica
pensare a come farlo; conoscere la tecnologia
montarlo e mettere in funzione l’apparato di misura; abilità manuale e organizzativa
fare la misura con tutti i controlli essenziali; attenzione e cura
analizzare i risultati e trarne delle conclusioni; usare i metodi della statistica
comunicare queste conclusioni al mondo scientifico; chiarezza e sintesi comunicativa.
È importante sottolineare la varietà e la complessità del lavoro dello sperimentatore, per il quale
sono necessarie attitudine normalmente considerate molto diverse (per esempio la manualità e
l’attitudine all’astrazione). Si tratta di un lavoro molto bello per il quale vale la pena impegnarsi
(ma questa é una mia valutazione personale).
In questo corso inizieremo un percorso articolato in più moduli per imparare a fare tutte queste cose
(1)-(6). In questo modulo ci occuperemo prevalentemente dei punti (5)-(6) (discutendo i metodi di
analisi dei dati) ma anche un po’ (3) e (4) (quando andremo in laboratorio). Nei moduli successivi
vedremo meglio (2)-(3)-(4). (1) ha a che fare con la conoscenza della fisica e dunque ha a che fare
con tutto ciò che sarà discusso nel corso di laurea in Fisica.
Alcune considerazioni pratiche:
Ruolo del Calcolatore: per un primo approccio efficace all’attività sperimentale é meglio usarlo il
meno possibile. Il calcolatore é infatti uno strumento essenziale ma spesso finisce per impedire una
comprensione profonda di quello che si sta facendo. Bisogna sempre evitare di fare le cose “ad
occhi chiusi”, fidandosi ciecamente di un programma che qualcun altro ha fatto. Almeno una volta
bisogna aver fatto un’analisi con “carta e penna” per poter usare in modo critico ed efficace un
prodotto informatico.
7
Ruolo della Calcolatrice: sapere usarla al meglio (una calcolatrice scientifica con le operazioni
matematiche fondamentali come le funzioni trigonometriche, i logaritmi, la notazione
esponenziale).
Ruolo della matematica: ad un certo punto dovremo usare alcune nozioni elementari di analisi quali
la derivata e l’integrale. Per il resto si cerchierà di rendere i vari concetti in modo semplice ed
intuitivo.
Ruolo del log-book (quaderno) e delle relazioni: é molto importante imparare a descrivere quello
che si sta facendo e che si é fatto in modo utile e chiaro. Nel log-book é bene riportare sempre tutto
quello che si fa. Il suo ruolo é quello di poter sempre ricostruire quello che si é fatto in quel dato
giorno. Le relazioni devono invece essere sintetiche e devono dare al lettore le informazioni
rilevanti e non dare quelle irrilevanti.
Lavoro di gruppo: é importante imparare a lavorare in gruppo collaborando. Sono sempre più rari
coloro che fanno ricerca scientifica da soli. Quasi sempre la ricerca, ed in particolare quella
sperimentale é un lavoro di gruppo.
8
(1) La misura di una grandezza fisica
Abbiamo visto che un esperimento é riconducibile ad una o più misure.
Vediamo ora di delineare la logica del processo di misura. Individuiamo i seguenti passi logici.
(0)
Associo ad ogni “elemento” (potremmo anche dire sensazione) che partecipa al fenomeno una
grandezza fisica; (chiamo temperatura la sensazione di caldo/freddo, tempo la sensazione di eventi
che si succedono, lunghezza la sensazione di spaziatura tra 2 posizioni, corrente la sensazione di
“scossa elettrica”)
(1)
stabilisco come associare un numero a tale grandezza; questo processo costituisce la definizione
operativa della grandezza, cioè lo stabilire il principio ed il metodo della misura;
(2)
infine effettuo la misura e dunque ottengo il numero.
La definizione operativa presuppone un principio di misura cioè l’esistenza di un fenomeno fisico e
di un modello teorico che usiamo per trattare questo fenomeno. Si tratta pertanto di misure che
hanno significato solo nell’ambito di un modello. Anche la misura del peso con una bilancia,
apparentemente elementare, si fonda sul fatto che si ha equilibrio statico tra la forza di richiamo di
una molla e la forza peso; il funzionamento del termometro si fonda sulla nostra descrizione della
dilatazione termica dei corpi e così via. In altri casi il principio di misura é più elementare. Per
esempio se si tratta di contare il numero di oggetti o il numero di volte in cui é accaduta una certa
cosa, la misura fa riferimento alla nozione di numerabilità degli oggetti, così come la misura di
lunghezza effettuata con un metro si basa sul confronto tra 2 oggetti, il tavolo ed il metro. Si tratta
di operazioni che fanno riferimento a procedimenti elementari (la numerabilità, il confronto) che
sono insiti nella nostra intelligenza. Tutti gli esempi fatti appartengono alla classe delle misure
dirette cioè di misure di una grandezza fisica che si fanno con un metodo di misura ben definito per
quanto complicato. Esistono poi le misure indirette che si hanno quando combino, secondo una
relazione che appartiene al mio modello, diverse misure dirette di grandezze diverse. Nel caso della
velocità nella maggioranza dei casi faccio v = s / t non misuro direttamente v, anche se uso un
tachimetro: vengono misurate separatamente s e t e poi viene fatto il rapporto. Oppure posso usare
uno strumento per misurare una grandezza e poi ricavarne un’altra moltiplicandola per dei numeri
noti da misure precedenti.
In ogni caso le misure vengono effettuati con gli strumenti di misura, che possono essere
“acquistati” ed utilizzati “chiavi in mano” previa lettura del libretto di istruzioni, oppure possono
essere preparati dallo sperimentatore (ciò é quanto in genere fanno o preferirebbero fare la gran
parte dei fisici). In ogni caso é molto importante conoscere le caratteristiche degli strumenti che si
utilizzano.
(1.1) Grandezze fisiche, unità di misura e dimensioni fisiche.
Consideriamo le misure dirette: si tratta di confrontare la cosa che misuriamo, che chiameremo in
generale il misurando, con un “esemplare” della stessa grandezza di cui conosciamo il valore
numerico. Esempio: quando misuro la temperatura con il termometro, la scala del termometro é
graduata in gradi centigradi (detti Celsius o scala Celsius). Sappiamo che quando la colonnina del
mercurio raggiunge una certa posizione, quella condizione corrisponde ad una data temperatura.
Quella condizione é l’esemplare con cui mi confronto. Il grado centigrado é invece l’unità di
misura della grandezza in esame (la temperatura in questo caso). Analogamente la posizione
dell’ago della bilancia o il numero sul display di un cronometro digitale, costituiscono gli esemplari
delle grandezze con cui confronto il misurando, mentre il kg e il secondo sono le unità di misura
(che compaiono nelle scale degli strumenti).
Specifichiamo ora che cos’è un’unità di misura. Cosa vuol dire esprimere un peso in kg ? Significa
assumere che da qualche parte esiste un “misurando particolare” arbitrariamente detto kilogrammo,
che tale misurando particolare é stabile e ben definito, e che quindi noi esprimiamo tutti i nostri pesi
come multipli o sottomultipli di quel misurando particolare. Naturalmente per una data grandezza
posso usare unità diverse. Per esempio le lunghezze sono in km in Europa e in miglia negli USA. Le
9
temperature sono in gradi Celsius in Europa e in gradi Fahrenheit negli USA. E’ fondamentale
“mettersi d’accordo” sulle unità di misura. Dall’’800 si procede verso la standardizzazione delle
unità (si tratta di una delle poche eredità utili del positivismo ottocentesco). Vi é una branca molto
importante della fisica che si chiama metrologia che fa questo lavoro.
Per procedere alla standardizzazione di cui si é detto, é fondamentale disporre di campioni di
riferimento (i misurandi particolari di cui si é detto sopra appunto) internazionalmente riconosciuti
delle varie grandezze che siano sempre “meglio definiti”. Una volta creati questi campioni, l’uso di
uno strumento sarà possibile solo dopo che lo strumento stesso sarà stato “applicato” al campione di
riferimento. Quindi per esempio supponiamo che da qualche parte vi sia il campione di lunghezza
(1 metro). Devo portare lì il mio regolo (o righello o metro da sarta o calibro o qualunque altro
strumento per misure di lunghezza) e fare in modo che “applicato” al campione di riferimento
indichi 1. Analogamente per i tempi , per le masse e per qualunque altra grandezza. Questa
operazione che si chiama calibrazione o taratura dello strumento, é un operazione che facciamo
spesso (per esempio con il nostro orologio quando lo rimettiamo sentendo il segnale alla radio o al
telefono). Si tratta di una operazione che richiede (a) la fiducia che il riferimento sia “migliore”
della nostra misura e (b) che su quel riferimento si sia d’accordo tra tutti. Naturalmente non é
possibile che vi sia un unico campione di riferimento al mondo e che tutti debbano andare lì a fare
la calibrazione. Questo campione deve essere distribuito, ma in ogni caso, in linea di principio deve
essere possibile fare questa operazione di taratura.
Vediamo ora quali sono i campioni di riferimento per le grandezze di uso più comune: il tempo, la
lunghezza e la massa.
(1.1.1) L’unità di tempo.
È difficile dare una definizione della variabile tempo. Il punto di partenza é la percezione che in
natura vi sono eventi che si ripetono in un modo che noi percepiamo come regolare. I primi esempi
sono il giorno e le stagioni. E, in effetti, la prima definizione (prima in senso storico) di unità di
tempo si basa su questo: il secondo (s) é 1/86400 del “giorno solare medio” . Si tratta di una misura
basata sulla riproducibilità di fenomeni astronomici, in questo caso il moto di rotazione della terra
su sé stessa.
Ben presto ci si accorse che in realtà il giorno solare medio non é sempre uguale, o, detto in altre
parole, che vi sono dei meccanismi astronomici che rendono “irregolari” i moti dei pianeti.
Confrontato con altri fenomeni periodici differenti, si vide che c’erano variazioni “secolari” legati ai
moti complessi della terra. Di qui l’esigenza di riferirsi non a fenomeni astronomici ma a qualcosa
che fosse fisso e ben riproducibile: apparve allora naturale riferirsi a fenomeni che fossero
caratteristici di un certo materiale e che pertanto fossero invariabili nel tempo. Fenomeni di questo
tipo sono dati dalla vasta gamma di emissione di radiazione elettromagnetica da parte di certi
materiali e dalle loro frequenze.
L’attuale definizione di secondo é la seguente: é la durata di 9192631.770 periodi della radiazione
corrispondente alla transizione tra i 2 livelli iperfini dello stato fondamentale dell’atomo di Cesio
133 ( 133Cs). Quindi occorre un campione di 133Cs per produrre il campione di riferimento. La
ragione di questo numero così bizzarro (9192631.770) risiede nell’esigenza di mantenere una unità
sostanzialmente equivalente al “vecchio secondo” così radicato nella società. Si noti che in questo
modo il valore del periodo di quella particolare radiazione del Cesio 133é una quantità nota
esattamente, non affetta da incertezza (vedi prossimo paragrafo).
(1.1.2) L’unità di lunghezza.
Nel caso della lunghezza, la cosa più naturale da fare é prendere un’asta e vedere quante “aste” é
lungo il mio misurando. Naturalmente devo scegliere un “asta” opportuna (usare il palmo della
propria mano comporta evidenti problemi). Allora si disse: prendiamo una cosa fissa e tutti ci
riferiamo a quella. Insorsero però dei problemi. Infatti si vide che la lunghezza di questo
“campione” variava al variare della temperatura. Allora si disse: prendiamo un campione di un
10
materiale opportuno (il platino-iridio é una lega di straordinarie proprietà meccaniche e chimiche)
lo mettiamo in un posto fisso a riparo dalle intemperie e lo termostatiamo. La prima definizione di
unità di lunghezza fu questa. Poi si vide che non si riesce a termostatarlo perfettamente e poi che ci
sono dei fenomeni chimici di corrosione, insomma che la barretta di platino-iridio non é
immutabile. Devo riferirmi ad un fenomeno fisico più “solido”. In analogia a quanto fatto per la
variabile tempo si decise di usare il fenomeno dell’emissione di una specie atomica: il metro (m) é
pertanto pari a 1650763.73 lunghezze d’onda nel vuoto della radiazione corrispondente alla
transizione tra i livelli 2p10 5 d5 dell’atomo di Kripton 86 (86Kr).
Da alcuni anni tuttavia i metrologi si sono accorti di sapere misurare la velocità della luce nel vuoto
(la quantità c che costituisce anche il limite superiore di ogni velocità) meglio di qualunque altra
cosa. Di qui la definizione attuale del campione di riferimento della lunghezza: il metro é lo spazio
percorso da un raggio di luce nel vuoto in un tempo di 1/299792458 s. Si noti che si tratta di una
definizione che richiede la definizione del secondo. In definitiva significa che ora c (la velocità
della luce nel vuoto) é fissa (nota esattamente). E dunque una distanza é “quanto impiega la luce a
percorrerla”.
L’esempio dell’unità della lunghezza é particolarmente istruttivo. Infatti, ci mostra quello che
accade quando misurando la velocità della luce nel vuoto sempre meglio, si arriva al punto in cui a
limitare la precisione della misura é proprio la definizione dell’unità di lunghezza. A questo punto é
evidente che conviene prendere questa cosa che so misurare così bene come nuova unità.
Si tratta di un procedimento generale. Se misurando sempre meglio un “misurando” mi accorgo che
la precisione della misura é ormai limitata dalla “bontà” del campione di riferimento, allora questo
“misurando” ha tutti i diritti di diventare il nuovo campione. Lo fisso ad un valore arbitrario e d’ora
in avanti mi riferisco ad esso.
(1.1.3) L’unità di massa.
Il kilogrammo (kg) era e rimane il peso di un campione di platino-iridio conservato in un istituto
metrologico nei pressi di Parigi. Non é cambiato, perché ancora non é stato trovato un campione
migliore di questo (ci sono delle proposte di cambiamento, ma per ora il Sistema Internazionale
(vedi seguito) mantiene questo campione di riferimento).
(1.1.4) Sistemi di unità di misura.
Tra le varie grandezze che si possono definire per descrivere i fenomeni fisici, possiamo
individuarne alcune che chiameremo fondamentali ed altre che invece chiameremo grandezze
derivate. Si tratta di una distinzione arbitraria. E’ inutile definire un campione per ogni grandezza:
(esempio v = s /t, E = 1/2 mv2). Per questo si definisce un insieme di grandezze fondamentali da cui
le altre sono derivate secondo le loro definizioni. Come si scelgono le grandezze fondamentali ?
Quelle per cui si trovano i campioni di riferimento “migliori”. Oggi si ha il sistema detto S.I.
(sistema internazionale). Questo si definisce con l’insieme delle grandezze fondamentali. Si noti che
la scelta del S.I. non é univoca. Si possono scegliere (e ci sono) altri sistemi anche con un diverso
numero di unità fondamentali. Si può dimostrare che una sola grandezza fondamentale é sufficiente.
Per fare un esempio, nella fisica delle particelle elementari si usa l’energia come grandezza
fondamentale, e tutte le altre grandezze altro non sono che potenze (positive, negative o nulle)
dell’energia.
Nella tabella che segue sono riportate le unità fondamentali del sistema internazionale ciascuna con
la definizione del campione che la definisce. Si può notare che alcune delle definizioni fanno
riferimento ad altre unità che sono definite indipendentemente.
Tempo
secondo
(s)
Durata
di
9192631.770
periodi di una radiazione dal
133
Cs
Lunghezza
metro
(m)
Spazio percorso da un raggio
di luce nel vuoto in un tempo
di 1/299792458 s
11
Massa
kilogrammo (kg)
Intensità di corrente
ampere
(A)
Temperatura
kelvin
(K)
Intensità luminosa
candela
(cd)
Quantità di materia
mole
(mol)
Massa
del
prototipo
campione realizzato in lega
90% platino e 10% iridio e
conservato al BIPM (Parigi)
Quella corrente tale che 2
conduttori
paralleli
e
rettilinei di sezione costante a
1 m di distanza sono attratti
da 2 10-7 N/m
1/273.15 della temperatura
del punto triplo dell’acqua
Intensità emessa da un corpo
nero di superficie 1/600000
m2 posto a pressione 101325
Pa e alla temperatura di
solidificazione del platino
Quantità di materia che
contiene tanti elementi quanti
ne contengono 0.012 kg di
carbonio 12
Associato alla nozione di grandezze fondamentali e derivate, vi é il concetto di dimensioni fisiche:
ogni grandezza ha una dimensione fisica. Le grandezze fondamentali hanno come dimensioni la
grandezza stessa. Quelle derivate, che sono definite da una formula, hanno come dimensione la
combinazione delle grandezze fondamentali che si desume dalla formula stessa. Per indicare le
dimensioni di una grandezza si usano in genere le notazioni [l], [m], [t] (rispettivamente una
lunghezza, una massa, un tempo). Facciamo alcuni esempi di grandezze derivate. La formula per
l’energia cinetica é E = ½ mv2, d’altro canto v = s / t, quindi mettendo insieme: [E] = [m] [l]2 [t]-2. Il
momento angolare é dato da L = r × mv pertanto le sue dimensioni sono [L] = [m][l]2[t]-1. Infine un
angolo é il rapporto tra l’arco di cerchio [l] e il raggio [l]. In tal caso si dice che la grandezza é
adimensionale.
Le dimensioni non sono da confondere con le unità di misura. Le regole sulle dimensioni (che sono
del tutto naturali) non sono altro che il prolungamento delle regole viste alle scuole elementari,
quando ci dicevano che “non si possono sommare mele con arance”. Quindi in una formula se
compare una somma o una differenza, gli addendi devono avere le stesse dimensioni, così come in
un’equazione i due membri devono avere le stesse dimensioni. Inoltre in espressioni contenenti
esponenziali o logaritmi, gli argomenti di tali funzioni devono essere adimensionali.
Quanto alle unità delle grandezze non elementari, si usano le combinazioni delle unità delle
grandezze elementari corrispondenti. Ad esempio per la velocità si userà m/s. In alcuni casi sì da
anche un nome all’unità. Per esempio per la forza, le cui dimensioni sono massa x accelerazione e
dunque [m] [l] [t]-2 viene introdotto il Newton (N) che é equivalente a dire kg m s-2. Andando avanti
nel corso introdurremo le varie unità.
Vale la pena ricordare che per alcune grandezze restano in uso unità al di fuori del sistema
internazionale, che sono di uso comune. E’ il caso dell’atmosfera per la pressione, della caloria per
l’energia e cosi’ via.
Infine é anche importante conoscere l’uso dei multipli e dei sottomultipli, per evitare di avere a che
fare con numeri troppo grandi o troppo piccoli. In tabella di seguito é riportato l’elenco di multipli e
sottomultipli con i loro simboli.
12
1012
109
106
103
102
101
10-1
10-2
10-3
10-6
10-9
10-12
10-15
10-18
(1)
(2)
(3)
(4)
(5)
Tera
Giga
Mega
Chilo
Etto
Deca
Deci
Centi
Milli
Micro
Nano
Pico
Femto
Atto
T
G
M
k
h
da
d
c
m
μ
n
p
f
a
(1.2) Il concetto di incertezza di misura
Fin qui tutto semplice. Ma c’è un fatto in più che rende il mestiere dello sperimentatore più
complesso ed interessante. C’è una caratteristica fondamentale: la misura fornisce una conoscenza
intrinsecamente incerta. Ciò può apparire contraddittorio. Infatti riguardo alla Scienza si usano
spesso espressioni del tipo “Scienza Esatta”, o frasi del tipo “è scientificamente provato” o simili.
Qui occorre sgomberare il campo da equivoci. Scienza Esatta non significa fare affermazioni
assolutamente precise e indiscutibili. Significa piuttosto fare affermazioni nelle quali é indicato in
modo chiaro il limite di attendibilità dell’affermazione stessa. (Attenzione alle parole e ai luoghi
comuni dunque.).
In che senso la misura, come si é appena detto, fornisce una conoscenza intrinsecamente incerta ?
Vediamo alcuni esempi di sorgenti di incertezza. Misuriamo la lunghezza del tavolo.
Con un regolo (un metro nel linguaggio comune) posso dire che il risultato é tra qui e qui,
12.3 e 12.4 cm per esempio; basta che stabilisco tra quali divisioni (dette anche tacche) dello
strumento si situa la mia misura.
Allora prendo uno strumento molto più “preciso” le cui divisioni sono di 10 micron (per
esempio un calibro palmer di quelli che vedremo in laboratorio) e ottengo che la misura si situa tra
12.324 12.325 cm; certo ho ristretto l’intervallo, ma sempre di un “intervallo” si tratta;
Mi chiedo allora c’è modo di arrivare a dire: il tavolo é lungo 12.3246 cm ? Oppure intrinsecamente
posso solo dare un intervallo ? Evidentemente si’. Qualsiasi strumento darà un intervallo. Ma c’è di
più.
Se ripeto la misura un po’ più in là ottengo una cosa diversa. Quant’è lungo il tavolo ? Qui
siamo di fronte ad una carenza nella definizione di quello che voglio misurare. Voglio misurare il
tavolo si’, ma in che punto ?
Ripeto poi la misura facendola nello stesso punto, ma la sera. Trovo che l’intervallo ora é
12.327 e 12.328. Che succede ? Evidentemente il tavolo sta soffrendo di effetti di dilatazione
termica. Pertanto di nuovo la definzione é manchevole. La domanda giusta da porre é quant’è lungo
il tavolo a quella temperatura ? Ma c’è di più ancora.
Prendo un altro strumento “uguale” (un altro esemplare dello stesso strumento) e misuro
sullo stesso punto alla stessa ora: ottengo l’intervallo 12.319 e 12.320. Allora ? Probabilmente é
accaduto che gli esemplari dei due strumenti sono scalibrati.
Il valore vero di questa grandezza (lunghezza del tavolo) é dunque “elusivo” per tante ragioni. Che
cos’è il valor vero ? La definizione metrologica é: valore vero = “un valore compatibile con la
definizione della grandezza”. Come abbiamo visto, affinché sia univoco, deve essere ben definito.
Ricapitoliamo le varie ragioni di incertezza che abbiamo incontrato nell’esempio visto.
13
(a)
Limitazione dello strumento (che rimane anche quando prendo uno strumento molto
“migliore”) dovuta alla spaziatura tra le divisioni.
(b)
Problema della calibrazione (infatti devo aver confrontato il mio regolo con il
campione di riferimento in qualche modo). Ma se non l’ho fatto ? O se nel frattempo qualcosa del
mio strumento é cambiato ?
(c) Cattiva definizione di quello che misuro (lunghezza del tavolo dove ?, a che ora ?)
(d) Effetti non considerati che alterano la cosa che sto misurando (dilatazione termica del tavolo).
Si noti che tra le ragioni di incertezza elencate, la (c) si applica non a tutte le grandezze fisiche.
Alcune grandezze infatti hanno un carattere “universale” e sono perfettamente definite: la velocità
della luce nel vuoto, la massa del protone, la costante di Planck etc.. La misura di queste grandezze
é dunque affetta da errori di misura tutti inerenti il metodo di misura (inteso in senso lato) ma non é
affetta da errori di misura relativi alla definizione della grandezza.
Per ora concludiamo questa prima analisi delle incertezze accennando al fatto che ci possono essere
altre cause. Tra queste:
(e)
Limitazione nella conoscenza di altre cose che mi servono per arrivare al mio
risultato (per esempio alcune costanti fondamentali, o il risultato di altre misure).
(f)
Limitatezza del campione (qui la parole campione ha un significato diverso da quella
di unità campione), cioè limitatezza delle informazioni disponibili (è il discorso dei conteggi cui
abbiamo già accennato).
In ogni caso l’esito del processo di misura é un numero: il valore misurato μ. Nel nostro caso sarà
per esempio il centro dell’intervallo tra gli estremi del quale cade la misura. Ma per quanto detto
finora il risultato non può limitarsi a quel numero proprio perché la mia conoscenza é comunque
incerta. Sembra (dagli esempi visti) molto più sensato dare un intervallo di valori che in sostanza
mi dice entro quali valori io penso sia il valore vero.
Diamo allora le seguenti definizioni:
L’Incertezza, é la stima data dallo sperimentatore della larghezza dell’intervallo” nel quale lui
“crede” debba essere il valor vero. Qui il termine “crede” é ambiguo ma verrà precisato in seguito.
In genere viene data come metà dell’intervallo.
La Stima del valor vero (miglior valore, valore centrale) é il valore centrale, quello che mi
convince di più. In genere é il centro dell’intervallo per cui il modo più tipico di dare il risultato
sarà:
valore centrale ± incertezza.
L’Errore di Misura é invece la differenza tra valor vero e valore misurato: non accessibile
sperimentalmente (se lo sapessi saprei il valor vero)
Si noti la differenza tra i termini errore ed incertezza che spesso nell’uso comune sono ugualmente
usati. Usando correttamente i termini diciamo: in virtù dell’esistenza di errori di misura, lo
sperimentatore deve valutare l’incertezza di misura e dare il risultato della sua misura come
intervallo tra due valori della grandezza.
L’errore di misura in generale ha tanti contributi con caratteristiche diverse (alcuni che posso far
diminuire quando aumento le informazioni a mia disposizione, altri no). L’incertezza deve stimare
tutti i contributi possibili. Nel caso della misura della lunghezza del tavolo fatta con il calibro
avente una divisione minima di 10 μm, vi sono 4 contributi: (1) l’incertezza dovuta alla limitazione
della lettura (~ 10 μm), (2) quella dovuta alla calibrazione assoluta dello strumento (una stima é la
differenza tra la misura fatta da 2 esemplari dello stesso strumento ~ 40 μm), (3) quella dovuta
all’effetto della temperatura (~ 30 μm) ed infine (4) quella dovuta alla definizione del misurando (in
che punto misuro ~ 30 μm). Si tratta come si vede di un caso complesso in cui “convivono” diverse
sorgenti di incertezza dello stesso “ordine di grandezza”, nessuna veramente “trascurabile”.
14
Ricapitolando: poiché le misure sono affette da errori di misura occorre stimarne le incertezze. Non
si può mai dare un solo numero come risultato, occorre dare un intervallo nel quale io dico debba
cadere il valore vero. E la determinazione di tale intervallo deve contenere una stima di tutte le
possibili sorgenti di errore che posso pensare. Fare un esperimento significa essenzialmente fare
questo.
La bravura dello sperimentatore consiste nel progettare l’esperimento e nel realizzarlo in modo che
le incertezze siano “piccole” rispetto alla precedente conoscenza della grandezza in misura.
Accenniamo qui al fatto che in molti casi é opportuno utilizzare l’incertezza relativa, cioè il
rapporto tra la larghezza dell’intervallo, ovvero l’incertezza ed il valore centrale dell’intervallo.
L’incertezza relativa ha il pregio di permettere un confronto tra le incertezze di misure diverse. Per
esempio se io misuro una con una incertezza di un micron una lunghezza di 100 micron ho una
misura al “percento”, perché il rapporto 1 μm / 100 μm = 0.01 = 1%. Se invece misuro sempre con
una incertezza di un micron una lunghezza di 1 m, ho una incertezza relativa di 10-6 m / 1 m =10-6,
cioè sto misurando una lunghezza con una incertezza di una parte su un milione. Nei due casi
illustrati le incertezze assolute sono le stesse (1 μm) ma le incertezze relative sono molto diverse (di
ben 4 ordini di grandezza). Nel gergo dei fisici si usano spesso espressioni del tipo, “misura al
percento” oppure “al permille”. Con tali espressioni si indica l’incertezza relativa della misura.
(1.3) Esempi di valutazioni “qualitative” di incertezza
Vediamo ora alcuni semplici esempi di stima dell’incertezza nel caso di misure dirette. Non si tratta
di apprendere regole da applicare ma di imparare il metodo con cui i fisici generalmente discutono i
vari casi che si presentano.
(1.3.1) Caso in cui la misura si riconduce alla lettura di uno strumento
In molti casi fare una misura si riconduce alla lettura o di un display (lettura digitale) o della
posizione di un ago su una scala graduata (lettura analogica). In cosa si distinguono il digitale e
l’analogico (parole, la prima in particolare, usate anzi abusate oggi). In generale uno strumento che
dà una risposta digitale é uno strumento che fornisce solo un insieme “discreto” di possibili
risposte; lo strumento analogico dà un insieme “continuo” di possibili risposte.
Consideriamo separatamente i due casi:
(1) Lettura di un display. Se leggo un numero 5407.1 e questo numero é stabile (le cifre non
cambiano nel tempo) l’unica conclusione che posso trarre é che il valore della misura sarà compreso
tra 5407.05 e 5407.15. Infatti se fosse stato 5407.16 sarebbe stato approssimato a 5407.2 e cosi’ via.
Posso dire niente di più ? Direi di no. Non so per esempio se é più ragionevole 5407.08 o 5407.09
per me sono tutti ugualmente plausibili e ragionevoli. Dunque posso dare un intervallo 5407.10 ±
0.05. Si noti che taluni strumenti possono usare diversi tipi di approssimazioni. Per esempio
possono approssimare all’intero inferiore. In tal caso il nostro 5407.1 sarebbe equivalente ad un
intervallo compreso tra 5407.1 e 5407.2 e il risultato potrebbe scriversi come 5407.15 ± 0.05.
(2) Lettura di un ago fisso su una scala graduata. Ci sono intanto alcune cose da definire. La
divisione é la distanza tra 2 tacche contigue; il fondo scala é il valore in corrispondenza del quale
l’ago si porta all’estremo della scala. Più in là non si può andare. Proviamo a leggere la misura in
questo caso. Devo dare una interpolazione tra divisioni; fino a che punto ci si può spingere ? Se do
come intervallo le 2 tacche intorno all’ago certamente do un intervallo corretto. Sono certo che la
misura sta li’. Tuttavia in questo caso posso fare meglio. Posso stabilire a quale delle 2 divisioni
l’ago si é avvicinato di più, ci sono delle zone in cui é più plausibile situare il valore vero. Posso
provare a stimare il più piccolo intervallo nel quale si situa con certezza il valore della misura. Nel
corso della Esercitazione 1 cercheremo di stimare la capacità di interpolare tra le divisioni. Per ora
ci limitiamo a stimare la capacità di interpolazione guardando i 5 esempi di Fig.1.1.
15
Fig.1.1 Esempi di aghi analogici su scale graduate. Lo studente può tentare una prima interpolazione “a occhio” e
poi controllare con i valori veri dati qui di seguito (sarebbe bene coprire questi numeri mentre si interpola con lo
stesso metodo della prima esercitazione di laboratorio). [valori veri: 12.2210 / 12.7087 / 12.3500 / 12.5840 /
12.8630 ]
In generale fin qui ho stimato un intervallo massimo ovvero il più piccolo intervallo tale che sono
“sicuro” che il valor vero della misura sia là dentro. Non ho specificato se alcune parti
dell’intervallo sono più plausibili di altre. Nel caso del display digitale come abbiamo visto non c’è
modo di fare di più. Nel caso della scala analogica invece posso fare qualcosa di più. Infatti ad
alcune zone dell’intervallo credo di più che ad altre. Posso per esempio dire che la misura “non é”
sulla divisione, oppure che é nella prima o nella seconda metà dello spazio tra le due divisioni.
(1.3.2) Caso dei conteggi.
Vi é un tipo di misura di grandissimo interesse ma che sfugge ai 2 schemi presentati nel precedente
paragrafo. E’ il caso del conteggio cioè di una misura che si riconduce alla conta di un numero di
volte in cui vi é una certa cosa. Appartengono alla classe dei conteggi i seguenti fenomeni: misure
di radioattività (conto il numero di eventi radioattivi in un dato tempo), misure di concentrazione di
una data specie, incidenza di una malattia in una popolazione, sondaggi e tutto il resto delle
“misurazioni sociologiche”. Si tratta di tutti quei fenomeni in cui sono interessato al numero di
occorrenze indipendentemente dall’ordine con cui queste si presentano. Possono essere nel dominio
del tempo o dello spazio o di qualsiasi altra variabile. In ogni caso il risultato del conteggio é un
numero intero (la variabile é dunque discreta non continua).
Supponiamo di voler sapere quanti studenti si iscrivono al corso di laurea in fisica nella nostra
Università. Li contiamo e troviamo 206. Cosa posso dire di questo numero ? Uno potrebbe dire che
essendo un numero intero vale la regola del digit e dire 206.0 ± 0.5 ma evidentemente direbbe una
sciocchezza. In realtà se la domanda che ci poniamo é quanti studenti si sono iscritti a fisica la
risposta é 206 con incertezza nulla (a meno di non aver banalmente sbagliato il conteggio). Il
problema sorge se vogliamo usare questo numero per stabilire quanti studenti in media si iscrivono
a fisica in questi anni, oppure quanti possiamo prevedere se ne iscriveranno l’anno prossimo. Anche
supponendo che le condizioni sociali non cambino e che gli orientamenti studenteschi rimangano
immutati, nessuno direbbe mai che se ne iscriveranno di nuovo esattamente 206, ma tutti sappiamo
che questo numero é destinato a fluttuare. Ma a fluttuare quanto ?é ragionevole supporre che se ne
16
iscriveranno 50 o 2000 ? Intuitivamente direi di no. La teoria della probabilità e la statistica
permettono in effetti di trattare le modalità di fluttuazione dei conteggi quando certe condizioni
molto generali sono verificate. Le vedremo con un certo dettaglio nei prossimi capitoli.
(1.3.3) Caso di misure ripetute che danno diversi valori: la sequenza di numeri.
Supponiamo ora che il display o l’ago non sono fissi ma si muovono, magari vibrano come spesso
accade. Siamo in presenza di fluttuazioni, cioè del fatto che per certe ragioni, il risultato della
misura presenta una variazione casuale e non predicibile nel tempo
(1) Lettura display con una o più cifre che cambiano (le cifre di destra evidentemente cambiano più
rapidamente di quelle di sinistra, la cifra che si trova all’estrema destra é anche detta “digit meno
significativo”). In tal caso si cerca di capire quant’è il massimo e quant’è il minimo assunti dal
display al passare del tempo. Tali due valori cosi’ ottenuti forniscono un “rudimentale” intervallo
massimo. Si noti però che se io aspetto un po’ per trovare massimo e minimo nessuno mi garantisce
che aspettando un po’ di più io non trovi un numero fuori dall’intervallo. Cioè non sono
completamente certo in questo caso che la misura sia là dentro. Anzi, l’estensione dell’intervallo é
qualcosa che in generale cresce al passare del tempo (sicuramente non decresce), e dipende anche
da fluttuazioni anomale (per esempio uno sbalzo della rete può dare un valore completamente
sbagliato che non ha molto significato includere nella mia valutazione). Fatte salve queste
considerazioni, il centro dell’intervallo ± la sua semiampiezza é comunque una stima ragionevole.
(2) Lettura di un ago che vibra su una scala graduata. Si può applicare lo stesso metodo discusso
sopra per il display digitale con le stesse “critiche” fatte.
(3) Nel caso in cui sono in condizioni di ripetere la misura (naturalmente devono essere immutate le
condizioni) e se ogni volta ottengo un numero diverso (per esempio fotografo ad intervalli regolari
il mio ago che vibra, oppure leggo il display ad intervalli regolari o acquisisco i suoi valori tramite
calcolatore) posso usare tutto il complesso di numeri ottenuto per tentare una stima un po’ più
approfondita di come vanno le cose.
I dati che ho ottenuto costituiscono una sequenza di numeri (registrati su computer o scritti su logbook), cioè una tabella tempo-valore, in cui il valore si può riferire a qualunque grandezza fisica
(una massa, un numero di persone..). Approfondiamo con il prossimo paragrafo cosa si può fare in
questo caso.
(1.3.4) Analisi grafica della sequenza di numeri.
Intanto chiamiamo campione l’insieme dei dati ottenuto. Questo termine ha qui un significato
diverso da quello che abbiamo usato in metrologia. Sta ad indicare semplicemente un insieme di
dati sperimentali.
Vediamo come rappresentare e descrivere il campione, utilizzando dei metodi grafici. Si tratta di
“ridurre” una sequenza di tanti numeri a quelle informazioni che sono rilevanti ai fini della
comprensione del problema. Ci accorgiamo subito che a tale scopo la rappresentazione grafica é
estremamente efficace.
Una prima cosa da fare é un grafico del risultato in funzione del tempo (o di altre variabili
rilevanti). Questo grafico infatti permette di fare una analisi delle fluttuazioni e di chiedersi in
particolare se queste sono “casuali” o se c’è piuttosto una “tendenza”. Qui si può fare una prima
analisi “a occhio” per capire. In generale l’occhio tende a confrontare la variazione della grandezza
con le dimensioni delle fluttuazioni e tende a giudicare se una tendenza in un grafico é o no
“significativa”. In altre parole il nostro occhio tende a distinguere tra un andamento (che é la cosa
significativa che vogliamo studiare) e una serie di fluttuazioni casuali che semplicemente rendono i
valori misurati più dispersi. Per questo confrontiamo le Fig.1.2 e Fig.1.3. In entrambe le figure sono
riportate sequenze di 20 misure. Nel primo caso non si osserva alcun andamento ma solo delle
17
fluttuazioni. Nel secondo caso invece, si ha una chiara tendenza all’aumento, sebbene sovrapposta
ad una “banda” di fluttuazioni. In entrambe le figure sono disegnate due tipi di curve: delle spezzate
cioè dei segmenti che uniscono i vari punti, ed un unica curva continua che dà l’idea
dell’”andamento medio”. Si noti che mentre le spezzate non hanno molto significato (infatti non
fanno altro che seguire delle fluttuazioni irrilevanti), le curve continue danno una idea chiara
dell’andamento dei dati che in un caso (Fig.1.2) é piatto, nell’altro (Fig.1.3) é invece a crescere.
Un secondo tipo di grafico é l’istogramma delle misure. Vediamo come si costruisce l’istogramma
dei valori. Si divide l’intervallo di valori possibili in sottointervalli (vengono detti bin). Poi si conta
il numero di valori che cadono in ciascun sottointervallo (contenuto del bin) e si fa una barra per
ciascun intervallo di altezza proporzionale al contenuto del bin. La scelta del binning cioè delle
dimensioni del bin deve essere ben calibrata. Ci sono infatti 2 estremi da evitare, ambedue sbagliati:
bin troppo piccolo e bin troppo grande. Ciò é esemplificato dalle Fig.1.4 e 1.5 dove uno stesso
campione di dati é rappresentato con binnaggi molto diversi. La scelta del binnaggio dipende
essenzialmente dalle seguenti 3 considerazioni: (1) dalla “dispersione” delle misure cioè da quanto
é largo l’intervallo nel quale sono distribuite; (2) dal numero di valori che si ha nella sequenza: se i
valori sono tanti uno tende a restringere il bin, in caso contrario bin troppo stretti alzano le
fluttuazioni tra i contenuti dei sottointervalli; (3) dalla scala delle variazioni della grandezza a cui
sono interessato. La Fig.1.5 illustra un caso in cui la considerazione (3) gioca un ruolo molto
rilevante. E’ utile discutere quale binnaggio sia il migliore tra quelli provati alla luce delle
considerazioni svolte sopra.
In generale nel passare dal grafico dell’andamento all’istogramma ho perso informazioni. Infatti
una volta messi i valori nei bin non so più con che sequenza sono arrivati. Inoltre tutti i valori che
cadono in un bin a questo punto sono uguali (associabili al centro del bin).
Fig.1.2: Grafico della variabile in funzione del tempo per una sequenza di 20 misure. (a) grafico semplice, (b)
grafico con una spezzata cioè con una linea che unisce i punti e (c) grafico con sovrapposta una retta che esprime
un andamento “piatto” medio dei punti.
18
Fig.1.3: Come per la figura 1.2 solo che stavolta si ha un andamento molto chiaro e in (c) tale andamento é indicato
con una retta di coefficiente angolare positivo.
Fig.1.4 Campione di 2000 valori istogrammato in 3 modi diversi con diversa scelta del binning. Si noti come sono
diverse le informazioni che si hanno a occhio. Il caso intermedio sembra comunque costituire la scelta più sensata.
19
4000
3500
3000
2500
2000
1500
1000
500
0
600
650
700
750
800
850
900
950
1000
M(ππ) (MeV)
40000
35000
30000
25000
20000
15000
10000
5000
0
600
650
700
750
800
850
900
950
1000
M(ππ) (MeV)
Fig.1.5. Esempio di uno stesso istogramma in due diversi binnaggi. Nella figura in alto l’istogramma ha un
binnaggio di 1.2 MeV, nel secondo di 12 MeV. Si tratta di un caso in cui l’istogramma con binnaggio più
largo non permette di evidenziare delle “strutture fini” come i 2 picchi alla destra della distribuzione, che
invece sono evidenziati dal primo binnaggio.
L’istogramma si chiama anche distribuzione delle misure. Se anziché riportare il numero di eventi
per bin riporto il numero di eventi nel bin diviso per il numero totale di eventi, sto facendo una
distribuzione di frequenze. Si definisce frequenza infatti la frazione di volte in cui un evento cade in
un dato sottointervallo. E’ un numero che mi dice quanto spesso, se ripeto la misura, questa cadrà
all’interno di quel bin. E’ qualcosa che può fornire indicazioni per eventualmente scommettere su
dove finirà la misura.
Si noti che nei casi discussi sopra (digit o ago fermi) i grafici non “aiutavano” molto: avremmo
avuto un unico bin e una sequenza di numeri tutti uguali.
Facciamo ora alcune considerazioni sui grafici.
A cosa serve un grafico ? In generale serve per “far capire bene una certa cosa”. Quindi la sua
principale proprietà deve inevitabilmente essere la chiarezza. Originariamente i grafici venivano
fatti a mano utilizzando la carta millimetrata . Oggi l’uso dei computer rende la carta millimetrata
“obsoleta”. Tuttavia fidarsi solo dei computer é per molti versi pericoloso come abbiamo già visto.
Per questo é opportuno usare come primo approccio ai grafici proprio la carta millimetrata.
Di cosa dobbiamo preoccuparci quando facciamo un grafico:
- sapere quali sono la/le grandezze nei 2 assi e quali sono le (eventuali) unità di misura;
- riuscire a capire quali sono le scale; la scala definisce il massimo ed il minimo di ciascun asse
coordinato e le loro “divisioni”. Deve essere indicata in modo che sia comprensibile. A tale scopo é
opportuno mettere “numeri semplici” sugli assi, non “numeri strani” (vedremo meglio questo nelle
esercitazioni);
- i “punti sperimentali” devono essere chiaramente visibili e deve essere facile individuarne i valori
numerici usando la scala.
20
Fig.1.6 Tre esempi di istogrammi. Per ciascuno sono indicati i valori dei 3 descrittori globali che abbiamo
introdotto nel testo: media, moda e mediana. Le 3 linee sono disegnate in corrispondenza delle mediane.
140
120
100
80
60
40
20
0
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
cos(θ)
5000
4000
3000
2000
1000
0
-1
-0.8
-0.6
-0.4
-0.2
0
0.2
0.4
0.6
0.8
1
cos(θ)
Fig.1.7. Due esempi di distribuzioni angolari molto diverse definite però nello stesso intervallo (-0.7:0.7). Sono
indicati gli intervalli x ± s e x ± 2s. In entrambi i casi l’intervallo x ± 2sé sufficiente per includere tutta la
distribuzione e costituisce pertanto un intervallo di certezza. L’intervallo x ± sé invece parziale e racchiude il
61% degli eventi nel grafico in alto ed il 58% in quello in basso.
21
(1.3.5) Caratteristiche riassuntive di una sequenza di numeri
Oltre ai grafici voglio però dare dei numeri riassuntivi al fine di stimare appunto il miglior valore e
l’incertezza. Voglio definire dei “descrittori globali” del mio campione.
Æ Media aritmetica: si tratta di una nozione intuitiva che indica il valore che meglio rappresenta il
campione. L’operazione di media aritmetica é “elementare” e “naturale” nel senso che anche senza
se non ce ne accorgiamo la facciamo spesso.
Come si fa la media ? Se ho fatto N misure e ho ottenuto i valori x , x ,..., x definisco media
1
2
N
aritmetica la quantità:
N
x=
∑x
i =1
i
N
Tuttavia la quantità cosi’ definita non sempre corrisponde al “valore centrale” o a quello “più
probabile” della distribuzione. Ci sono esempi di distribuzioni in cui la media aritmetica non é né
l’una ne l’altra delle due cose. In Fig.1.6 sono riportati degli esempi di istogrammi di misure con i
valori corrispondenti della media. Si vede immediatamente che solo in caso di istogrammi
simmetrici la media ha il significato intuitivo di valore centrale e più probabile.
Si possono definire altre misure: la Moda é il valore più probabile della grandezza ovvero il picco
più alto dell’istogramma; la Mediana é quel valore della grandezza tale che la frequenza che venga
di meno é uguale alla frequenza che venga di più. Quando l’istogramma é simmetrico come nel
caso del primo dei 3 riportati in Fig.1.6 le tre misure dette sostanzialmente coincidono. Negli altri 2
casi invece la media aritmetica non corrisponde al centro dell’istogramma.
Se ho dei valori istogrammati posso raggruppare i valori e allora posso definire
Nb
x =
b
∑n x
k
k =1
b
k
Nb
∑n
k =1
k
in cui Nb é il numero di bin,
n è il contenuto del k-esimo bin ed x
k
b
è il centro del k-esimo bin. Si
k
noti che Nb é diverso da N. Le due definizioni di media aritmetica sono leggermente differenti.
Infatti nel secondo caso in realtà finisco per attribuire a ciascuna misura il centro del bin cui
appartiene. Quindi si “perde” informazione. La seconda definizione può dunque portare a
distorsioni del valore della media, distorsioni tanto più grandi quanto maggiore é la dimensione del
bin scelta.
Notiamo inoltre che, da quanto detto, occorre fare attenzione al fatto che la media ha un significato
chiaro solo se non ci sono andamenti sovrapposti alle fluttuazioni. In generale infatti la dispersione
dell’istogramma totale ha una componente dovuta alle fluttuazioni ed una componente che dipende
dal tempo dovuta proprio all’andamento (questo si applica in particolare ai dati di Fig.1.3). La
media quindi in questo caso dipende da dove e quanto campioniamo.
Oltre alla posizione voglio stimare la dispersione (che é legata all’incertezza sulla misura) cioè la
larghezza dell’istogramma o della banda di fluttuazione nel grafico.
Æ Posso fare ( massimo – minimo ) / 2 ottenendo cosi’ un intervallo massimo. Ciò corrisponde a
quanto detto sopra per il caso di misure digitali con cifre fluttuanti o nel caso di un ago in moto. Si
presta alla critica fatta allora. Abbiamo bisogno di un metodo più “stabile”.
Æ Deviazione Standard Campionaria. Allo stesso modo con cui ho definito la media aritmetica
come stima del valore centrale, posso definire come stima della dispersione, la “media degli scarti
dalla media”. Tuttavia mi accorgo immediatamente che se definisco
22
∑ (x − x)
N
s=
i
i =1
N
cioè la media degli scarti, ho una variabile identicamente nulla. Infatti si ha:
N
s=
∑x
i =1
N
i
Nx
= x−x =0
N
−
per definizione. In effetti ciò significa che la media aritmetica é proprio quel valore di x rispetto al
quale é nulla la media degli scarti. Una definizione più appropriata di dispersione si ottiene
considerando la media degli scarti al quadrato
∑ (x − x)
N
s =
2
i =1
2
i
N
e poi prendendone la radice quadrata (per avere anche una grandezza omogenea dimensionalmente
a x):
∑ (x − x)
N
s=
2
i
i =1
N
Si tratta di una grandezza sempre positiva che prende il nome di deviazione standard campionaria o
anche semplicemente deviazione standard. Il suo quadrato é detto varianza campionaria o
semplicemente varianza. Il suo significato é chiaramente intuitivo (quanto scarto in media dalla
media). Rispetto alla stima dell’intervallo massimo, ha il vantaggio di usare tutti i dati e di essere
meno sensibile ad eventuali fluttuazioni anomale. Nel seguito del corso vedremo più
approfonditamente il suo significato. Per ora essa é una stima della “dispersione delle misure”.
Si noti che in base alla definizione appena fatta, c’è un secondo modo di calcolare la deviazione
standard campionaria. Infatti essa può essere espressa come (consideriamo prima la varianza
campionaria):
∑ (x − 2x x + x )
N
s =
2
i =1
2
N
2
i
i
N
=
∑x
i =1
N
N
2
i
−2
x∑ x
i =1
N
i
+x =x −x
2
2
2
cioè come la differenza tra la media dei quadrati e il quadrato della media. Si noti che tale
differenza non é 0 in generale ma é per definizione una quantità positiva. Cosi’ definita, la
deviazione standard può essere valutata senza aver prima valutato la media aritmetica. Dal punto di
visto del calcolo, significa che anziché fare 2 “loops” sulle misure, é sufficiente farne 1.
Se definisco un intervallo centrato nella media e di semilarghezza pari alla deviazione standard,
questo intervallo non é un intervallo massimo. Rappresenta solo una parte della larghezza. Non
sono certo che la misura cada là dentro. Tuttavia é una misura proporzionale alla larghezza. Fig.1.7
mostra per alcuni istogrammi, l’intervallo centrato sulla media delle misure e avente la deviazione
standard come semilarghezza. Si può osservare (si tratta di una osservazione su base puramente
empirica per la quale troveremo una giustificazione nel seguito del corso) che costruendo intervalli
di semilarghezza pari a 3 volte la deviazione standard, si ottengono intervalli all’interno dei quali
praticamente tutti i valori sono contenuti. Nel seguito chiameremo tali intervalli, intervalli di quasicertezza.
Nel seguito vedremo anche che la deviazione standard come l’abbiamo definita deve essere corretta
per tenere conto del fatto che nel considerare gli scarti tra ciascuna misura e la media aritmetica, in
realtà sto usando 2 volte ciascuna misura: infatti ciascuna misura compare sia nella media, che
come singola misura. Questo fatto si traduce nella seguente definizione:
23
∑ (x − x)
N
s=
2
i
i =1
N −1
in cui viene sottratta una unità al denominatore. Nel seguito chiameremo deviazione standard
s appena definita e chiameremo s
Anche per s vale una forma analoga a quella vista per s
campionaria la quantità
s =
2
(
N
x −x
N −1
2
2
)
N
quella con N al posto di N-1.
N
Infine per la deviazione standard campionaria si può dare una definizione sull’istogramma come per
la media, nella forma:
Nb
s=
∑ n (x
k
b
k
− x )2
k
−1
k =1
Nb
∑n
k =1
per la quale valgono le stesse considerazioni fatte per la media.
Ricapitolando: sono andato riducendo i dati cercando di mantenere le informazioni rilevanti: dalla
sequenza di numeri ho ricavato il grafico in funzione del tempo, quindi l’istogramma dei valori
(prima perdita di informazioni), infine ho imparato a valutare la “posizione” e la “dispersione” del
campione (seconda perdita di informazioni).
Fig.1.8: Sequenza di 1000 misure ripetute ogni 10 secondi. Nella figura di sotto sono riportate le medie fatte ogni
20 misure. Si noti il restringimento della banda di fluttuazioni.
24
Fig.1.9: Per la sequenza illustrata in Fig.1.3 facciamo l’istogramma delle prime 100 misure, quello di tutte le 1000
misure ed infine l’istogramma delle medie fatte ogni 20 misure. Si noti
Æ aggiungendo statistica la distribuzione mantiene sostanzialmente la stessa larghezza;
Æ l’istogramma delle medie é “molto più stretto”.
(1.3.6) Stima di intervalli.
Consideriamo ancora il caso in cui ho N misure ripetute di una grandezza fisica secondo le modalità
viste nel precedente paragrafo. Dopo averle studiate graficamente e averne calcolato le
“caratteristiche riassuntive” media e deviazione standard campionaria, voglio concludere dando in
forma compatta il risultato della misura sotto forma di un valore centrale e di un’incertezza. Che
informazione voglio dare con questo intervallo di incertezza ? Il mio obiettivo rimane quello di dire
qualcosa riguardo il valor vero, cioè di dare un intervallo in cui deve trovarsi il valor vero. Ma al
tempo stesso la mia affermazione deve anche essere predittiva. Cioè devo predire la cosa seguente:
se io o un’altra persona ripetiamo la misura in quale intervallo cadrà tale misura ? In questa
prospettiva devo subito distinguere tra 2 possibilità:
(a) Stimo un intervallo tale che la prossima misura cada là dentro.
(b) Stimo un intervallo tale che se rifaccio N misure la loro media cada là dentro.
Occorre distinguere bene i 2 casi, cioè il caso in cui sono interessato alla incertezza sulla singola
misura (caso (a)) e il caso in cui sono interessato all’incertezza sulla media (caso (b)).
A questo proposito é interessante fare l’esercizio illustrato dalla Fig.1.8. E’ illustrato il grafico
dell’andamento di 1000 misure ripetute ad intervalli regolari di 10 secondi di una certa grandezza
fisica. Ogni punto nel grafico in alto é dato da una singola lettura dello strumento. Se raggruppo i
dati M a M (con M evidentemente < N e L=N/M numero dei gruppi) e grafico l’andamento delle L
medie di ciascun gruppo, osservo che le medie fluttuano meno rispetto alle singole misure. In altre
parole l’operazione di media ha il potere di “smorzare” le fluttuazioni. Questo fatto é di estrema
importanza. Si trova che (lo dimostreremo più avanti nel corso) vale la regola:
s( x ) =
s ( x)
M
25
Cioè le medie fluttuano M volte meno di quanto fluttuano le singole misure. Mi aspetto quindi che
facendo la media di tutte le N misure, questa fluttui N volte meno della singola misura.
Si noti tuttavia che la deviazione standard della singola misura ( s per intenderci) non diminuisce al
crescere delle misure ma semplicemente si stabilizza, cioè l’istogramma presenta sempre la stessa
forma, ma le fluttuazioni tendono a diminuire come é ben illustrato dal confronto tra i 2 istogrammi
in alto della Fig.1.9. Viceversa la deviazione standard della media diminuisce come appunto
mostrato nel terzo istogramma di Fig.1.9. La deviazione standard di quest’ultimo istogramma é
proprio ≈ M volte più piccola di quella fatta usando la singola misura.
Tornando dunque al nostro problema di definire un intervallo per la singola misura (caso (a)) e per
la media delle N misure, potrò procedere nel modo seguente:
Æ caso (a) x ± s
Æ caso (b) x ± s / N
che esprime il fatto che mentre mi aspetto che una successiva N+1-esima misura sia distribuita
secondo la Fig.1.9(2), la media di un altro set di M misure sarà distribuita secondo la Fig.1.9(3).
In definitiva se voglio dare la migliore stima di un intervallo per il valor vero é corretto utilizzare il
caso (b) con il quale uso tutte le informazioni in mio possesso nel modo più efficace.
Concludiamo il paragrafo con un paio di osservazioni.
Î Osservazione 1: confrontiamo il caso che abbiamo appena visto, con quello di una misura che
non cambia (digitale o analogica che sia). La situazione in cui le misure cambiano sembra
paradossalmente migliore. In effetti é proprio cosi’. Il fatto é che se le misure fluttuano, aumentarle
di numero aiuta perché permette di conoscere sempre meglio la media e di veder diminuire la
deviazione standard come 1 / N . Se invece ottengo sempre lo stesso valore evidentemente non
posso andare aldisotto della mia capacità di interpolare tra le divisioni o al digit più significativo.
Questo apparente paradosso ci insegna che occorre scegliere opportunamente il passo minimo (la
risoluzione) del nostro strumento di misura sulla base delle fluttuazioni della misura stessa.
Î Osservazione 2: l’uso della deviazione standard della media mi permette di dare un intervallo
per il valor vero. Quale é il significato “probabilistico” di questo intervallo ? Come abbiamo già
visto, la risposta a questa domanda verrà dalla seconda parte del corso. Per ora possiamo dire solo 2
cose: (1) in generale non si tratta di un intervallo “massimo”; (2) il contenuto probabilistico
dell’intervallo dipende da come sono distribuite le misure, cioè dalla forma dell’istogramma e dal
numero di misure effettuate; (3) un intervallo di semilarghezza pari a 3 deviazioni standard
(intervallo di quasi-certezza definito in precedenza) ha un significato probabilistico che in ogni caso
é di quasi certezza.
È interessante stimare il contenuto probabilistico di una deviazione standard direttamente dai dati
(quanti degli N valori sono fuori dall’intervallo x ± s ) per gli istogrammi delle varie figure
mostrate (in particolare Fig.1.7).
(1.3.7) Errori sistematici
Dalle considerazioni fatte in precedenza sorge una domanda: ma allora se aumento N a piacere
mando la larghezza del mio intervallo a 0. E’ vero ?
In linea di principio si. In realtà accade che oltre un certo valore di N aumentare il numero di misure
non serve più. Infatti a un dato punto entrano in gioco altri errori dovuti ad una delle cause che
abbiamo indicato all’inizio della nostra discussione sulle incertezze, e che in generale possono non
dipendere da quante misure facciamo.
Possono dipendere da:
Æ Calibrazione degli strumenti.
Æ Condizioni non sotto controllo.
26
Rientrano in questa categoria gli errori sistematici. Il termine errore sistematico é un termine forse
non del tutto appropriato. Nasce dal fatto che tendenzialmente si tratta di errori che hanno una
“direzione fissa”. Per esempio nel caso della taratura, uno strumento starato lo é in una direzione. In
molti casi il costruttore dello strumento che stiamo usando fornisce nel libretto di istruzioni,
l’indicazione dell’errore sistematico dovuto ai vari possibili effetti. In tal caso é possibile trovarsi in
una situazione in cui anche se lo strumento sembra molto buono (per esempio é possibile
apprezzare molti digits che non cambiano quando ripeto la misura), in realtà la sua accuratezza può
essere molto cattiva fino a dominare l’incertezza complessiva della misura.
In generale dunque é opportuno riferirsi alla seguente distinzione tra due categorie di errori:
Æ Errori sistematici (se aumento il campione questi non diminuiscono). Se li conosco posso
correggere il mio risultato, se non li conosco devo stimare un intervallo nel quale sono contenuti.
Æ Errori casuali (posso mandarli a 0 nel limite di campione infinito). Si trattano con i metodi
propri della statistica di cui abbiamo visto alcuni esempi.
In definitiva l’errore sistematico é quello che rimane nel limite di campione di dimensione infinita.
(1.4) Sequenze di “coppie” di misure
Passiamo ora ad un diverso problema. Immaginiamo di avere una sequenza di coppie di valori di 2
grandezze fisiche, cioè una tabella con 2 colonne e N righe, e ciascuna riga rappresenta il risultato
della misura simultanea delle 2 grandezze che stiamo studiando.
In taluni problemi infatti, i fenomeni devono essere descritti non solo da una variabile casuale, ma
da più variabili casuali. Non sempre ci si trova in condizioni di poter trattare in modo separato
ciascuna variabile casuale. Nell’esperienza della molla vediamo che T ed M ma anche δx ed M
sono tali che al variare dell’una varia l’altra. Un esempio diverso dal precedente si ha quando
consideriamo una misura di superficie, fatta misurando i due lati con lo stesso strumento
caratterizzato da una dipendenza dalla temperatura o da altri parametri che spostano la sua
calibrazione. E’ chiaro che in tal caso gli errori di misura di un lato e dell’altro lato non sono
indipendenti, ma hanno un andamento “analogo”. In entrambi gli esempi fatti siamo in presenza di
grandezze fisiche correlate cioè tali che i valori assunti dall’una e dall’altra non sono indipendenti
ma sono legati da una qualche forma di dipendenza.
Si deve tuttavia distinguere tra due casi (per evitare confusioni):
(a) il caso in cui sono correlate le grandezze;
(b) il caso in cui sono gli errori di tali grandezze ad essere correlati.
Il caso della molla é del primo tipo. Infatti T é correlato ad M ma non sono correlate la misura di T
con quella di M. Nel secondo caso invece i valori dei 2 lati non sono correlati, ma gli errori di
misura che faccio nel misurare le 2 cose sono invece chiaramente correlati.
La correlazione tipo (a) rientra nell’ambito delle dipendenze funzionali tra grandezze fisiche,
dovute proprio alla “fisica del fenomeno”, ed é quindi oggetto di studio (come vedremo nel terzo
capitolo). La correlazione del tipo (b) é invece una caratteristica dell’”apparato di misura”, ed in
generale é non voluta. Bisogna tuttavia tenerne conto nell’interpretare i risultati delle misure.
Ci occupiamo a questo punto del caso (b), cioè del caso in cui due o più grandezze fisiche
presentano una correlazione dovuta al modo con cui le misuro.
Il modo più semplice per mettere in evidenza il fenomeno della correlazione tra 2 grandezze A e B é
quella di ripetere N volte la misura simultanea delle 2 grandezze nelle stesse condizioni e di
27
riportare su un grafico N punti ciascuno avente per ascissa la grandezza A e per ordinata la
Fig.1.10 Esempio di grafico di correlazione tra 2 variabili fortemente correlate (qui ρ=0.9). Sotto sono poi mostrati
gli istogrammi delle proiezioni sui due assi.
Fig.1.11 Altro esempio di grafico di correlazione nel caso in cui ρ=0. Si noti che gli istogrammi delle 2 proiezioni
sono simili a quelli di Fig.1.10. Ciò indica che la correlazione non può essere desunta da semplici istogrammi di
correlazione ma necessita di grafici di correlazione.
grandezza B. Si tratta di un grafico bi-dimensionale o grafico di correlazione. Le proiezioni sui 2
assi A e B di questo grafico, altro non sono che i 2 istogrammi mono-dimensionali delle 2
28
grandezze dai quali possiamo ricavare media e deviazione standard secondo i ben noti metodi. Due
esempi sono illustrati nelle Fig.1.10 e 1.11. Le figure mostrano un caso chiaro di correlazione e un
caso chiaro di non correlazione. Nel primo caso i punti tendono a disporsi sul grafico lungo la
bisettrice del primo e terzo quadrante, nel secondo caso invece il grafico si presenta come una
”palla”. Nel primo caso si ha dunque una correlazione, cioè le fluttuazioni di una grandezza sono
“correlate” alle fluttuazioni dell’altra. Quando A fluttua positivamente anche B lo fa. Nel secondo
caso invece questo chiaramente non succede. La distribuzione di B é indipendente da A. Si noti che
nei 2 casi, gli istogrammi delle proiezioni sono equivalenti. Questo ci dice che il grafico bidimensionale porta informazioni in più che l’analisi delle singole proiezioni tende a mascherare.
In analogia a quanto fatto per la sequenza di numeri, definiamo una nuova grandezza che
caratterizza lo stato di correlazione tra le 2 grandezze che stiamo considerando. La covarianza
campionaria tra due grandezze x1 ed x2 definita come:
∑ ( x − x )( x − x )
N
cov( x , x ) =
1
i
i
1
i =1
1
2
2
N −1
2
Per determinare questa grandezza sperimentalmente occorre misurare una sequenza di N coppie di
valori di x1 e di x2 in condizioni di ripetibilità della misura, e da questi applicare la definizione. Un
modo equivalente per esprimere la covarianza campionaria é dato da:
∑ (x x − x x − x x + x x )
N
cov( x , x ) =
1
i =1
i
i
1
2
1
i
i
2
1
2
1
N −1
2
2
=
N
(x x − x x
N −1
1
2
1
2
)
da cui si vede come la covarianza campionaria costituisce una generalizzazione della varianza
campionaria (che chiamiamo Var(x) intendendo con ciò s2 ). Infatti
Var ( x ) = cov( x, x )
cioè la varianza campionaria altri non é che la covarianza calcolata tra una grandezza e se stessa.
Per la covarianza delle medie tra 2 campioni vale che:
cov( x , x ) =
1
2
cov( x , x )
N
1
2
cioè, come per la varianza campionaria, la covarianza tra medie diventa sempre più piccola al
crescere della dimensione del campione.
Si definisce infine anche il coefficiente campionario di correlazione:
i
i
(
x
−
x
)(
x
− x2 )
∑
1
1
2
i =1
N
r(x , x ) =
1
2
2
2
i
i
(
x
−
x
)
(
x
−
x
)
∑
∑
1
1
2
x
i =1
i =1
N
N
che é sempre definito tra –1 ed 1 ed esprime in forma adimensionale il grado di correlazione tra 2
grandezze. Si noti come queste definizioni campionarie, costituiscono una espressione in forma
“quantitativa” di quanto graficamente é espresso dai grafici visti. Per comprendere il significato del
coefficiente di correlazione r é utile riferirsi al grafico di Fig.1.12. Dividiamo il grafico di
correlazione in 4 quadranti intorno ad un punto di coordinate date dai 2 valori medi come in figura.
I punti appartenenti a ciascun quadrante sono caratterizzati da diversi segni delle fluttuazioni
rispetto al valore medio e sono indicati come ++, --, +-, -+. Riferendosi all’espressione di r appena
data, vediamo che i 4 quadranti danno i seguenti segni ad r: +, +, -, -. Quindi il prevalere dei punti
su un dato quadrante fa prevalere un segno in r. Nel caso della figura il prevalere dei punti nei
quadranti (++) e (--) fornisce un valore positivo di 0.9. Quando i 4 quadranti hanno mediamente lo
stesso numero di punti (è il caso della “palla” di non correlazione), r sarà mediamente 0.
Si noti che nel caso di mancanza di correlazione non dobbiamo aspettarci 0 esattamente, ma un
numero abbastanza prossimo a 0. Quanto prossimo deve essere dipende dal numero N di misure.
29
Esiste un metodo detto test di correlazione per stabilire su basi quantitative la correlazione tra
grandezze (tale test sarà trattato nei corsi successivi di laboratorio).
Fig.1.12 Stesso grafico di correlazione con r=0.9 mostrato nella Fig.1.10 suddiviso nei 4 quadranti.
(1.5) Terminologia
È bene fare chiarezza sul significato di alcuni termini che si usano quando si parla di strumenti e di
misure. Facciamone un elenco (alcune cose le abbiamo già definite):
Æ sensibilità : quanto la variazione del misurando, fa cambiare l’uscita dello strumento
Æ risoluzione : minima differenza tra le possibili uscite di uno strumento che sia “apprezzabile”. E’
la sensibilità in forma “quantizzata”. E’ il digit nel caso digitale.
Æ precisione : quanto sono vicini i risultati di una misura quando la ripeto.
Æ accuratezza : vicinanza tra valore vero e valore misurato, nel limite in cui ho un campione di
dimensione infinita; é collegata chiaramente a quello che abbiamo chiamato errore sistematico.
Æ tolleranza : entro quale intervallo i valori di una tale grandezza sono accettabili. E’ una
“specifica” del costruttore di uno strumento o di un qualche componente.
Æ ripetibilità : sono in condizioni di ripetibilità quando posso ripetere la misura senza che cambino
quelle condizioni che possono alterarne l’esito.
Æ riproducibilità : sono invece in condizioni di riproducibilità quando un dato risultato viene
ottenuto da esperimenti diversi. In genere, l’accettazione di un dato risultato passa attraverso la
verifica di tale proprietà. Un risultato che non viene riprodotto o che non può essere riprodotto é
infatti “sospetto” e generalmente non accettato dalla comunità scientifica.
È da notare che questo “glossario” non é univoco (dipende dai testi). Quello che usiamo noi
risponde alle più recenti norme metrologiche.
(1.6) Cifre significative
30
Come si scrivono i numeri in fisica ? I numeri in fisica sono i risultati di una misura oppure sono il
risultato di una predizione teorica. In generale i numeri in fisica hanno un significato diverso da
quello che hanno i numeri in matematica. Di questo occorre tener conto. Vediamo come.
Capita a volte di trovarsi di fronte a numeri del tipo 1.342607 (per esempio possiamo leggere un
numero del genere sul display della nostra calcolatrice). Impariamo a contare le cifre di questo
numero. Quante cifre ha ? Un numero cosi’ fatto ha 7 cifre significative ed é scritto con una
notazione per la quale ha 6 decimali cioè 6 cifre dopo la virgola. Prendiamo invece 0.022. In questo
caso sono 2 le cifre significative perché gli zeri a sinistra non contano. Che gli zeri a sinistra non
contano, lo vediamo per il semplice fatto che questo stesso numero io posso scriverlo come 22x10-3
o 2.2x10-2 cioè con 2 cifre. Viceversa il numero di decimali dipende da come lo scrivo. 0.022 ha 3
decimali, 22x10-3 o 2.2x10-2 ne hanno rispettivamente 0 e 1. Quindi : il numero di cifre significative
é una caratteristica intrinseca del numero, il numero di decimali dipende da come lo scrivo cioè da
dove metto la virgola.
La notazione esponenziale serve essenzialmente ad evitare le cose tipo 0.0000000011 o 132000000.
Quando gli 0 sono inutili, quando sono a sinistra o a destra, conviene toglierli dopo averli contati e
messo l’esponente di 10.
Torniamo al nostro problema del significato dei numeri. Poiché, come abbiamo detto, il significato
dei numeri in fisica é diverso da quello che si ha in matematica, occorre fare attenzione. Scrivere 1
o 1.0 o 1.00 dal punto di vista del matematico significa scrivere lo stesso numero. Dal punto di vista
del fisico no. I numeri in fisica, essendo risultati di misure, portano informazioni. Pertanto occorre
limitarsi a quelle cifre che rispecchiano informazioni reali alle quali “credo”. Dunque quando scrivo
un numero devo tener conto di quanto sono incerto su quel numero.
Esempio. Leggo una sequenza di 6 misure consecutive da un display digitale a 8 cifre. I numeri
sono (prima colonna della tabella):
21.045277 21.045
21.047410 21.047
21.046389 21.046
21.043976 21.044
21.045608 21.046
21.043578 21.044
Che significato hanno le settime e ottave cifre di ciascun numero ? Evidentemente la grandezza sta
variando sulla cifra 5. Le prime 4 sono significative, la 5 anche perché pur fluttuando, alcuni valori
sono più frequenti di altri. Dalla numero 6 in poi non significano più nulla. Quindi sarà bene
riportare la sequenza nella forma indicata nella colonna di destra. Si noti che nel passare dalla
colonna di sinistra a quella di destra ho dovuto troncare i numeri, e nel farlo ho approssimato
l’ultima cifra al valore inferiore nelle prime tre righe e a quello superiore nelle ultime tre. Il motivo
é evidente. Infatti se la cifra successiva (la prima che tolgo) é 0,1,2,3 o 4 allora approssimo al valore
inferiore. Nel caso in cui tale cifra sia 6,7,8 o 9 approssimo al superiore. E se é 5 ? 5é proprio lo
spartiacque tra i due casi, ma evidentemente se il valore é un po’ più di 5 (vedi ultima riga della
tabella) allora siamo aldisopra dello spartiacque. L’unico caso in cui non so che fare é quando la
cifra successiva é 5 con tanti 0 alla sua destra oppure é 5 e non so cosa c’è dopo. In tal caso la cosa
migliore é forse lasciare il 5.
Torniamo al nostro problema delle cifre. Generalizzando quanto visto diciamo che:
non hanno “significato”, non aggiungono “informazioni” quelle cifre che stanno più a destra della
prima cifra sulla quale sono incerto. Quindi il fatto che non aggiungono informazioni implica che
devo ometterle nella presentazione del risultato.
Cosa succede quando moltiplico o divido ?
Analizziamo questa circostanza con un semplice esempio. Supponiamo di voler determinare la
velocità della nostra auto misurando con un cronometro il tempo impiegato a percorrere una
31
distanza di 36 km (distanza tra due uscite dell’autostrada secondo la segnaletica). Con il cronometro
manuale fermo lo stop al valore 1894.3 s. Faccio il calcolo con la calcolatrice: 19.004382 m/s.
Come do il risultato ? Devo considerare quanto bene conosco i 36 km della distanza e quanto bene
conosco il tempo impiegato a percorrerla. Supponiamo che i 36 km siano approssimati a 100 m
(cosa ragionevole), allora posso dire che la distanza é 36.0 ± 0.1, cioè é un numero che conosco al
più fino alla terza cifra. Viceversa conosco il tempo di percorrenza fino alla quinta cifra. D’altra
parte la calcolatrice mi fornisce un risultato fino a 8 cifre. Quante di queste 8 cifre sono significative
? Facciamo la seguente considerazione: se uso 36.1 km o 35.9 km e lascio inalterato il tempo,
ottengo i numeri indicati nelle prime due righe della tabella dove osservo variazioni sulla terza cifra.
35.9
18.951592
36.1
19.057172
36
19.0(0)
1894.2
19.005385
1894.4
19.003378
1894.3
19.004(4)
Allo stesso modo se fisso 36 km e uso 1894.2 o 1894.4 ottengo variazioni sulla quinta cifra.
Dunque il risultato varia a partire dalla terza cifra per via della variazione della distanza e a partire
dalla quinta per via della variazione del tempo. In conclusione oltre la terza cifra (facciamo la
quarta per tenerci larghi) il risultato perde di informazione. Pertanto scriverò il risultato come nella
terza riga della tabella.
Nel prodotto (o nel rapporto) vale dunque la regola:
Æ il risultato di un prodotto o di un rapporto va dato con il numero di cifre del fattore dato con il
minor numero di cifre.
Cosa succede invece nel caso della somma (o della differenza) ?
Altro esempio. Considero la distanza tra 2 punti nella stanza. Con il metro misuro la distanza tra
una parete e la superficie della lavagna: 5.620 m. Poi con il calibro misuro lo spessore della
lavagna: 32.480 mm. La somma é indicato in tabella.
Misura 1
5.620000 m
Misura 2
0.032480 m
Somma
5.652480 m
Somma troncata 5.652(5)
Mi accorgo subito che le ultime 3 cifre non hanno molto significato. Infatti se il 5.620 diventa
5.621 ottengo una variazione sulla quartultima cifra della somma. Quindi qui conta non il numero di
cifre significative ma il numero di decimali, cioè la posizione “assoluta” della prima cifra che varia.
La regola può essere pertanto espressa come:
Æ il risultato di una somma o di una sottrazione va troncato alla posizione della prima cifra variante
che si incontra nei due addendi partendo da sinistra.
Facciamo ora alcune osservazioni.
Î Osservazione 0: se ho la stima dell’incertezza su un dato numero, si usa dare l’incertezza con 1
o 2 cifre significative (non di più, oltre 2 cifre non ha molto significato dare il numero) e si tronca il
valore centrale alla cifra corrispondente all’ultima cifra dell’incertezza. Esempio. Trovo un valore
centrale pari a 1.5467 con una incertezza di 0.3456. Il risultato si può scrivere come 1.55±0.34
(incertezza a 2 cifre) oppure 1.5±0.3 (ad 1 cifra). Certamente scrivere 1.5467±0.3456é sbagliato.
Î Osservazione 1: i numeri interi hanno un numero di cifre infinito. Quando in una formula divido
per N o per 2 queste hanno infinite cifre. Lo stesso vale per numeri come π o e (purché riportati con
un numero di cifre appropriato).
32
Î Osservazione 2: caso della media aritmetica. E’ lecito darla con più cifre delle singole misure ?
Si. Supponiamo di mediare una sequenza di 10 misure ciascuna data con 3 cifre:
1.10
1.07
1.24
1.31
1.09
1.21
1.15
1.34
1.02
1.18
Media
1.171
La somma di questi 10 numeri é 11.71 che scrivo con 4 cifre data la regola delle cifre nella somma.
Quando divido per 10 (infinite cifre) ottengo 1.171 che mantengo a 4 cifre. Quindi nel gioco ho
“guadagnato” una cifra. Se avessi mediato 100 numeri ne avrei guadagnate 2 e cosi’ via. Questo
non ci sorprende. L’operazione di media ha il potere di aumentare la conoscenza sul valore.
Î Osservazione 3: si noti che il numero di cifre significative di un dato numero é strettamente
legato alla sua incertezza relativa. Un numero dato a 3 cifre é un numero incerto tra il permille ed il
percento.
Î Osservazione 4: le regole date si riferiscono a come riportare i risultati. Nei calcoli naturalmente
si possono utilizzare tutte le cifre che si vogliono.
(1.7) Caso di misure indirette: cenni alla propagazione
Collegata al problema del numero delle cifre significative é la questione della misura indiretta.
Supponiamo che per misurare una grandezza y, io debba ricorrere alla misura di x per poi ricavare y
con l’operazione y = a x2 in cui a é una costante oppure y = b √x. Ora, x sarà misurato con una
certa incertezza e allora mi chiedo quale sarà l’incertezza su y ? Se supponiamo che a e b siano
costanti note con un numero infinito di cifre (per esempio π o un numero intero) il problema é “unidimensionale” (cioè stiamo parlando di una funzione di una singola variabile) e può essere illustrato
per via grafica (vedi Fig.1.13).
Fig.1.13 Due esempi di misure indirette:
(sinistra) Misura della profondità raggiunta da un sasso in un pozzo dalla misura del tempo impiegato a scendere.
Se misuro 5.5 ± 0.5 s quanto bene conosco la profondità ?
(destra) Misura del periodo di oscillazione di un pendolo dalla misura della lunghezza dello stesso. Qui misuro 0.75
± 0.05 m. Quant’è il periodo ?
33
Nei due casi riportati in figura si ha nel primo una dipendenza tipo a x2 nel secondo b√ x. Si può
notare che l’incertezza sulla x si “traduce” in una incertezza sulle y in modo diverso nei 2 casi. Si
dice che l’incertezza si propaga. Nel caso di sinistra sembra aumentare nel caso di destra sembra
diminuire. Da cosa dipende ? Certamente dalla “pendenza” della curva nell’intorno del mio x.
Poiché x e y sono in generale variabili di diverse dimensioni fisiche per confrontarne le incertezze
dovrò ricorrere all’incertezza relativa che, come sappiamo é:
s
x
x
Nel nostro caso (quello in figura) si vede, confrontando le variazioni sugli assi delle ordinate, che in
un caso l’incertezza relativa raddoppia, nell’altra si dimezza. Come é possibile ciò ? Vale in effetti
in generale la seguente regola che dimostreremo in seguito: se la dipendenza é di tipo xα, si avrà per
l’incertezza relativa:
sy
s
=α x
y
x
Si tratta di una proprietà che ha una chiara interpretazione. Più alto l’esponente, più “rapidamente
cambia la curva”.
Un secondo problema simile a questo é quello cui abbiamo già accennato nella nostra discussione
delle cifre significative. Supponiamo ad esempio di voler misurare la densità di un oggetto
misurandone volume e peso e poi facendo il rapporto. Abbiamo visto che sul risultato, a dominare
sarà l’incertezza dovuta a quello tra massa e volume la cui misura é caratterizzata da una incertezza
su una cifra che sta più a sinistra, ovvero, detto con il linguaggio dell’incertezza relativa, a quello
con l’incertezza relativa più grande.
Sempre riferendoci ai casi discussi nel precedente paragrafo, se devo invece sommare o sottrarre, a
dominare sarà quello la cui incertezza assoluta é più grande, cioè in somme e differenze non
contano le incertezze relative ma quelle assolute.
Da tutto questo emerge una considerazione generale. Quando si progetta una misura di questo tipo e
si sceglie una strumentazione é fondamentale “dosare” bene gli strumenti. E’ chiaro ad esempio che
se misuro i volumi con un calibro supersensibile e poi li peso con una vecchia bilancia da
salumiere, la scarsa sensibilità di quest’ultima vanificherà la straordinaria sensibilità del calibro. Lo
stesso se uso un calibro per lo spessore della lavagna, e poi misuro il resto con strumenti poco
sensibili.
Resta da vedere tuttavia come andranno combinate le incertezze quando nessuna delle due é
trascurabile, quando cioè sono dello stesso ordine di grandezza. Lo vedremo nel seguito quando
avremo a disposizione mezzi di statistica più adeguati.
(1.8) Nozione di significatività
Accenniamo brevemente a questo punto del corso alla nozione di significatività. Si tratta di uno dei
concetti più importanti del metodo scientifico ed é bene che gli studenti imparino a saper discutere
problemi di questo tipo già dall’inizio del corso di laurea.
Molte questioni in fisica si riconducono ad affermazioni del tipo: abbiamo osservato che A>B
oppure che A>0. In tutti questi casi, dire > (o equivalentemente <) corrisponde a dire
“significativamente maggiore” o “significativamente minore”. Se io misuro la velocità di una
particella e trovo un valore maggiore di quello della velocità della luce nel vuoto, posso dire che
v(part)>c ma prima di dire che é “significativamente” >c devo sapere quanto bene ho misurato
v(part), altrimenti nessuno ci crederà (data anche la rilevanza straordinaria dell’eventuale scoperta).
Allo stesso modo se io trovo un bilancio energetico >0 di un processo in un sistema isolato (violante
pertanto la conservazione dell’energia), per dire che ho scoperto la violazione della legge di
34
conservazione dell’energia devo dimostrare che tale valore é “significativamente” >0. Allo stesso
modo infine prima di dire che se il 52% degli intervistati in un sondaggio si pronuncia per una certa
cosa, allora la maggioranza degli italiani é favorevole a quella cosa, devo sapere se quel 52%é
significativamente maggiore del 50%.
Un’altra classe di problemi riguarda il caso in cui affermo che A=B oppure che A=0. Qui le cose
sono leggermente diverse. Infatti io non troverò mai (misurando per esempio il bilancio energetico
della reazione di cui sopra) esattamente A=0, oppure non troverò mai o quasi mai v(part)=c, ma
troverò un valore che sarà “compatibile” con 0. O allo stesso modo troverò che A é compatibile con
B.
È evidente che in entrambi i casi “significatività” e “compatibilità” sono nozioni che hanno a che
fare con i valori trovati ma anche con le incertezze con cui questi valori sono conosciuti. Quindi
diremo che A é “significativamente” >0 se lo é “oltre l’incertezza” su A o, più esplicitamente se il
valore 0 della grandezza A é “fuori” dall’intervallo nel quale ritengo debba trovarsi il valore vero
sulla base del mio esperimento. Oppure diremo che A é “compatibile” con 0 se lo é “entro
l’incertezza” su A cioè se il valore 0é interno allo stesso intervallo. Pertanto se la mia misura della
velocità della particella é 30.010 ± 0.032 cm/ns allora mi tranquillizzo perché evidentemente il
valore c=29.979.. cm/ns é contenuto nell’intervallo della mia misura. Viceversa se il mio bilancio
energetico mi fornisce il valore –0.54 ± 0.09 J comincio a preoccuparmi, perché la quantità di
energia che ho perduto é “significativa”. Allora dovrò pormi il problema di capire cosa é successo,
se nell’analisi del mio esperimento non ho tenuto conto di qualche effetto oppure se effettivamente
in quel processo l’energia non si conserva.
Naturalmente la conclusione dipende dal significato probabilistico dell’intervallo. Cioè posso
concludere che A é significativamente > B se B é fuori un intervallo di “quasi certezza” di A.
Vedremo nel seguito come si possono definire tali intervalli.
A proposito delle nozioni esposte si può proporre una digressione filosofica. E’ la stessa cosa
chiedersi se 2 cose sono uguali o ha invece più senso chiedersi se sono diverse ? Detto in altri
termini: le due affermazioni (a) A>B o (b) A=B hanno lo stesso significato logico ? La risposta é
no. Sul piano logico, il metodo scientifico permette di stabilire la diversità ma non l’uguaglianza.
Si può solo dire che entro le incertezze A=B (affermazione di tipo (b)), ma si tratta comunque di
una affermazione che potrebbe cambiare il giorno in cui le incertezze su A e su B diminuissero. Nel
caso dell’esempio precedente, se migliorassi il mio sistema di misura delle velocità fino a ridurre di
un ordine di grandezza l’incertezza complessiva, potrei ottenere 30.010±0.002 che é
significativamente >c. D’altra parte l’affermazione (a) é in un certo senso “definitiva”. Se
l’esperimento non é sbagliato una riduzione dell’incertezza non può che confermare il precedente
risultato, rafforzandolo.
Il progresso della Scienza procede dunque attraverso lo stabilire la diversità tra le cose, non la loro
uguaglianza. Si tratta del celebre tema della “falsificazione” e della “corroborazione” dovuto a
K.Popper. A titolo di esempio in Fig.1.14 e Fig.1.15 sono mostrate le evoluzioni temporali dei
valori di due grandezze fisiche di grande importanza (si tratta delle due grandezze che
caratterizzano la violazione di una simmetria fondamentale nelle interazioni tra particelle
elementari). Ogni punto corrisponde al risultato di un esperimento e per ognuno é indicata una barra
che rappresenta l’incertezza stimata dallo sperimentatore come deviazione standard ed avente
pertanto il significato di intervallo che contiene il valore vero con una probabilità del 68.3%
(secondo quanto vedremo nel seguito). Si noti che solo ad un certo punto (il 1999 in un caso ed il
2001 nell’altro) é stata stabilita la diversità da 0 del valore della grandezza. Prima di allora lo stato
di conoscenza su ciascuna delle due grandezze era tale da far concludere che entro le incertezze non
si osservava alcuna differenza da 0, cioè che ambedue le grandezze erano compatibili con 0. Il
progresso degli esperimenti progettati per la misura di queste grandezze ha portato ad una
progressiva riduzione dell’incertezza e quindi ad una sempre maggiore possibilità di scoprire una
significativa differenza da 0 che, una volta trovata, é stata poi ampiamente riprodotta e confermata.
35
Fig.1.14 Valori pubblicati della variabile Re(ε’/ε) in funzione dell’anno di pubblicazione. Si noti come gli
esperimenti intorno al 1990 davano un risultato “compatibile” con 0 e come quelli intorno al 2000 danno risultati
“compatibili” con i risultati del 1990 ma significativamente diversi da 0. Le barre di incertezza sono barre di
incertezza standard.
Fig.1.15 Valori pubblicati della variabile sin2β in funzione dell’anno di pubblicazione. Valgono considerazioni
analoghe a quelle fatte per la Fig.1.14.
36
(1.9) Ulteriori considerazioni sui grafici: scale lineari e scale non lineari.
In alcune delle precedenti discussioni abbiamo visto come l’espressione grafica del risultato di un
esperimento sia in certi casi di importanza cruciale. In tutti gli esempi visti finora, i dati sono
sempre riportati in grafici caratterizzati da scale lineari. Con ciò si intende che in ambedue gli assi
del grafico, spazi uguali tra le divisioni corrispondono a intervalli uguali della grandezza fisica che
viene rappresentata in quell’asse. Per intenderci, in un grafico che usa una scala temporale lineare,
se un segmento di asse lungo 1 cm corrisponde a un intervallo di 6.2 s, un segmento lungo 2 cm
corrisponde ad un intervallo di 12.4 s, un secondo segmento lungo 6 cm a un intervallo di 37.2 s e
cosi’ via dicendo. Ci occupiamo ora di quei casi (alcuni dei quali incontreremo da vicino in
laboratorio) in cui é conveniente utilizzare scale con diverse proprietà.
p (m)
(1.9.1) La scala quadratica.
Riprendiamo in considerazione la misura della profondità del pozzo di cui abbiamo parlato nel
paragrafo (1.7) (illustrato dalla Fig.1.13). Supponiamo ora di disporre un certo numero di pozzi di
profondità diverse e note (cioè misurate in modo indipendente), e di misurare per ciascuno, il tempo
di caduta del sasso. A questo punto i miei dati sono costituiti da una sequenza di N (N=numero di
pozzi) coppie di valori (pi, ti) dove i va da 1 a N, con pi le profondità e ti i tempi. Posso mettere
questi dati in un grafico con le profondità in ordinata e i tempi in ascissa. Il grafico é riportato in
Fig.1.16a dove per semplicità non sono riportate le incertezze di misura. La cinematica ci dice che
la relazione tra profondità e tempo deve essere del tipo p = ½ g t2, dove g=9.81 m/s2é la
accelerazione di gravità alla superficie terrestre. Tuttavia dal grafico é difficile capire se
effettivamente l’andamento é rispettato. Allora uso il seguente artificio: anziché graficare le pi in
funzione dei ti, riporto le pi in funzione dei ti2 (Fig.1.16b). In questo secondo caso, se la cinematica
é rispettata, devo aspettarmi un andamento rettilineo che é certamente più
500
400
300
200
100
0
2
4
6
8
10
p (m)
t (s)
500
400
300
200
100
0
0
20
40
60
80
100
2
t (s)
Fig.1.16 (a) Misure di profondità dei pozzi in funzione dei tempi di caduta dei sassi e (b) misure di profondità in
funzione dei tempi di caduta al quadrato. La (b) permette di verificare la linearità della relazione cinematica.
facilmente controllabile a occhio. Non solo, la “pendenza” della retta (il suo coefficiente angolari)
dovranno essere proprio uguali a 1/2g, e quindi semplicemente prendendo un righello, tracciando
37
una retta e misurandone la pendenza, posso desumere il valore di g e vedere se é “più o meno” il
valore che mi aspetto.
(1.9.2) La scala logaritmica.
Il tipo di scala non lineare più frequentemente utilizzata é la scala logaritmica. Si tratta di riportare
sull’asse di una variabile x, non già direttamente x, ma il logaritmo del suo valore numerico:
log(x/u) dove u é l’unità di misura di x. In altre parole, con riferimento alla scala temporale presa
sopra ad esempio, il valore t = 6.2 s si trova, in scala logaritmica, nella posizione 1.82, il valore t =
12.4 nella posizione 2.52 ed infine il valore t = 37.2 nella posizione 3.62. Come si vede, la
spaziatura delle 3 posizioni non rispetta più la partizione 1 / 2 / 6 della scala originaria. Ciò é un
modo per dire che la scala risultante é non lineare (si noti che ho usato qui il logaritmo a base
naturale, ma come vedremo nel seguito e come si può provare facilmente, la conclusione cui si
giunge é la stessa qualunque sia la base che voglio utilizzare).
La scala logaritmica viene utilizzata per 2 motivazioni principali.
La prima motivazioni segue la stessa linea di pensiero della discussione fatta nel precedente
paragrafo a proposito della carta quadratica. Infatti sono molti i fenomeni fisici che si lasciano
descrivere da andamenti esponenziali, cioè del tipo:
y = Ae − x / λ
in cui x ed y sono 2 grandezze fisiche tra le quali ci si aspetta una relazione funzionale esponenziale
con A e λ parametri (troveremo numerosi esempi di fenomeni di questo genere nel seguito).
Prendendo il logaritmo di ambo i membri si ottiene:
log[ y ] = log A − x
λ
dunque la relazione funzionale esponenziale tra y e x, si traduce in una relazione lineare tra log[y]e
x in cui logA svolge il ruolo di intercetta all’origine e soprattutto -1/λ svolge il ruolo di pendenza.
Graficando log[y] in funzione di x anziché y in funzione di x, potrò meglio verificare che
l’andamento é esponenziale. In più anche in questo caso, una rapida misura della pendenza della
retta risultante mi permette di ricavare λ.
La seconda motivazione per usare scale logaritmiche entra in gioco quando si vuole rappresentare
una grandezza fisica che assume valori diversi per svariati ordini di grandezza. In tal caso una scala
lineare tende a compattare tutti i valori e finisce per rendere illeggibile il grafico. Il fenomeno é
illustrato in Fig.1.17. In che modo lo stesso grafico in scala logaritmica diventa decisamente più
leggibile ? Il motivo sta in definitiva nella seguente, ben nota, proprietà dei logaritmi:
log[ab] = log[a ] + log[b]
Ogni volta che moltiplico a per un numero b, al log[a] devo aggiungere log[b], cioè nel mondo dei
logaritmi, il moltiplicare per qualcosa diventa un sommare qualcos’altro, il prodotto si traduce in
somma. Sull’asse logaritmico dunque, 2 intervalli di uguale lunghezza non corrispondono
all’aggiunta di 2 intervalli di uguali entità in x, ma a 2 moltiplicazioni per lo stesso fattore. Per
esempio i valori x = 2 cm, x = 20 cm e x = 200 cm vanno in scala logaritmica nelle posizioni 0.693,
2.995 e 5.298 cioè danno luogo a 2 uguali intervalli [5.298 – 2.995 = 2.995 – 0.693 = 2.302]. La
spaziatura é chiaramente pari a log[10] cioè al logaritmo del fattore che c’è tra i 3 valori di x.
Come abbiamo accennato sopra la base del logaritmo é irrilevante. Infatti un’altra proprietà dei
logaritmi ci dice che i logaritmi di x calcolati in 2 basi diverse (diciamo a e b) sono uguali a meno
di un fattore indipendente da x:
log a [ x] = log b [ x] log a [b]
e dunque il cambio di base non fa altro che spostare tutta la scala di un fattore arbitrario.
In Fig.1.18 mostriamo un esempio di carta semi-logaritmica, nella quale l’asse orizzontale é in
scala lineare, quello verticale in scala logaritmica. Alcune considerazioni pratiche.
38
4000
3500
3000
2500
2000
1500
1000
500
0
300
400
500
600
700
800
900
1000
300
400
500
600
700
800
900
1000
10 3
10
2
10
1
Fig.1.17. Lo stesso istogramma in carta lineare (sopra) e semi-logaritmica (sotto). Si noti come la carta semilogaritmica consente di apprezzare la zona al di sotto di 600, cosa impossibile nel grafico in carta lineare.
10 2
10
1
10
-1
0
10
20
30
40
50
60
70
80
90
100
Fig.1.18 “Foglio” di carta semi-logaritmica. Le decadi sono state identificate con i valori 0.1, 1 10 e 100.
39
10 2
10
1
10
-1
10
-1
1
10
10
2
Fig.1.19 “Foglio” di carta doppio-logaritmica con la stessa suddivisione in decadi dell’asse verticale della Fig.1.18.
La scala verticale é divisa in decadi: ogni intervallo rappresenta un ordine di grandezza. E’ possibile
dunque per ogni separazione di decade mettere i numeri 1, 10, 100, oppure 0.001 o 10-24 o cosi’ via
(nell’esempio in figura le decadi sono 0.1, 1 e 10).
Nella scala logaritmica non esiste lo 0. Sotto ad ogni decade ce ne é un’altra, e cosi’ via fino
all’infinito (del resto il log tende a 0 quando il suo argomento va a -∞).
Una volta stabilita la scala (cioè individuate le decadi) per disporre i punti correttamente sull’asse
non occorre prendere la calcolatrice e calcolare il logaritmo. La scala é fatta anche per evitare
questo.
Esistono infine le carte doppio-logaritmiche in cui ambedue gli assi sono in scala logaritmica (vedi
Fig.1.19). L’uso di questi tipi di grafici é legato all’esistenza di fenomeni che si lasciano descrivere
da una relazione tra le 2 grandezze x ed y di tipo “potenza”:
y = Ax b
In tal caso prendendo i logaritmi di ambedue i membri si ha:
log[ y ] = log[A] + b log[x]
Come si vede si ha una relazione lineare tra log[y] e log[x]. E’ b (l’esponente che regola la legge di
potenza) in questo caso a rappresentare la “pendenza” dell’andamento in questione. Un esempio
particolarmente interessante di fenomeno fisico messo in risalto da un grafico in carta doppiologaritmica é dato in Fig.1.20.
40
Fig.1.20 Questo grafico mostra il complesso delle misure disponibili nel settembre 2005 del flusso di raggi cosmici in
funzione dell’energia. Il grafico é in carta doppio-logaritmica. Ciò permette di vedere insieme misure riferite ad ordini
di grandezza molto diverse. Inoltre il cambio di pendenza intorno ai 1016 eV (il cosiddetto knee cioè ginocchio dello
spettro) che costituisce uno dei fenomeni più studiati della fisica dei raggi cosmici é ben messo in evidenza da questa
modalità grafica.
41
Esercizi relativi al Capitolo (1)
1.1) Dai dati della Fig.1.1: determinare per ognuno dei 5 grafici il miglior valore. Usando i valori
veri determinare i 5 scarti.
1.2) Ancora dai dati di Fig.1.1: valutare scarto medio e deviazione standard degli scarti. A che
frazione di una divisione corrisponde ?
1.3) Un elettrone viene accelerato attraverso una differenza di potenziale di V=1.2kV. Sapendo che
la carica elettrica di un elettrone é q =1.6 x 10-7 pC e sapendo che l’energia acquistata da una carica
elettrica q accelerata attraverso una differenza di potenziale Vé E = q V, calcolare quanti J di
energia acquista l’elettrone. (1J = 1 Joule = 1 V x 1 C = 1 Volt x 1 Coulomb).
1.4) Voglio misurare la densità di un fluido tramite misure di massa e di volume. Lo dispongo in un
contenitore e ottengo una massa M = 13.5 g tramite una bilancia digitale. La massa del contenitore
é M0 = 0.322 g (misurata usando una seconda bilancia di inferiore portata ma di maggiore
sensibilità). Per il volume ottengo V = 62 ml.
Esprimere il valore della densità in g/cm3 dando solo le cifre significative.
1.5) Si vuole stabilire se diversi gruppi di campioni di utensili preistorici scoperti in due diverse
zone (zona A e zona B), appartengono alla stessa epoca. A tale scopo si procede alla misura della
vita media di ciascun campione con il metodo del 14C. Si ottengono i seguenti risultati.
Reperti zona A: 10 campioni (5300, 5650, 5820, 5460, 4920, 5110, 5400, 5710, 4770, 5320) anni
Reperti zona B: 15 campioni (6050, 5820, 6110, 5760, 5890, 6220, 5840, 5920, 6000, 5610, 6010,
6220, 6140, 5950, 5740) anni
a)
Fare gli istogrammi dei reperti delle 2 zone
b)
Calcolare medie e deviazioni standard per ambedue i gruppi di reperti
Un anziano archeologo dando una rapida occhiata ai dati afferma: i 2 gruppi di reperti sono
contemporanei. Ha ragione ?
1.6) Ad una molla é appesa una massa M nota con incertezza trascurabile; la costante di elasticità k
della molla é nota solo al 5%. Quanto bene conosco il periodo delle piccole oscillazioni T ? Si
ricordi che il periodo delle piccole oscillazioni di una molla di costante k é T = 2 π √M/k .
1.7) Si ha una bilancia a lettura digitale in cui l’ultimo digit corrisponde a 1 g. Applico questa
bilancia ad un kg campione e leggo sul display 1022. Ripeto la misura e mi accorgo che leggo
sempre 1022. Cosa posso concludere su: risoluzione, precisione e accuratezza della bilancia ?
1.8) Uno strumento per la misura di spessori ha una risoluzione di 1 μm ed una precisione di 52 μm.
Per misurare uno spessore raccolgo 100 valori successivi. Non osservo andamenti nel tempo.
Determinare la larghezza di un intervallo di quasi certezza per la misura.
1.9) Uno strumento per misure di velocità ha una precisione relativa dello 0.2 %. Viene applicato ad
un campione di 9150 raggi γ emessi da una sorgente radioattiva. La media delle misure é 2.99814 x
108 m/s. Cosa possiamo dire della accuratezza dello strumento ? [Si ricordi che c=2.99792458 x 108
m/s]
1.10) Una commissione é incaricata di stabilire se in un certo paese vi é una incidenza “anomala”
della malattia X. Quali sono i numeri di cui la commissione ha bisogno per trarre una conclusione
“scientificamente fondata” ?
42
1.11) Calcolare il lavoro fatto per spingere di 24.2 cm un pistone attraverso un cilindro di area 152.4
cm2. La pressione esercitata dal pistone é di circa 12 atm. Dare il risultato in unità del S.I. con le
corrette cifre significative. [si ricordi che L = pΔV e che 1 atm = 101325 Pa ]
1.12) Con lo stesso strumento dell’esercizio 1.8) voglio vedere se effettivamente la posizione della
trave che regge il mio palazzo si sta spostando nel tempo. Ripeto a distanza di un anno la misura
della posizione, in entrambi i casi (la prima misura e quella effettuata ad un anno di distanza)
prendendo 1000 valori e facendone la media. Trovo uno spostamento di 48 μm. E’ significativo ?
1.13) Uno strumento per misure di lunghezze con risoluzione di 1/10 di mm, viene calibrato rispetto
ad un metro campione. Il risultato é: 1002.6 mm con incertezza trascurabile.
Successivamente uso questo strumento per la misura di una lunghezza e, fatte 100 misure, ottengo
un valor medio di 914.1 mm con una deviazione standard campionaria di 3.2 mm.
Dare al meglio il risultato della misura. Indicare le ipotesi utilizzate.
1.14) Munendosi di atlante, calcolare l’ordine di grandezza della densità di popolazione delle città
di Roma e di Londra. Sono significativamente diverse ?
1.15) Un chimico annuncia di aver scoperto che il soluto X nel solvente Y ha una concentrazione
anomala rispetto al 20% in volume atteso. Lui ha misurato 5 campioni di solvente da 3 l ciascuno ed
ha ottenuto i seguenti valori per il soluto X: 607, 641, 638, 702, 619 cm3 . E’ fondata la sua
conclusione ?
1.16) Voglio vedere se la variabile X é significativamente > 0. Riesco a misurarla con una
precisione di 67x10-4 . Faccio 2000 misure, e ottengo una media di 0.1x10-4. Cosa posso concludere
?
1.17) Due diversi modelli prevedono per la variabile X rispettivamente i valori 0 e 10-5. Sapendo
che la precisione della mia misura di X é 67 x 10-4, quante misure devo fare per discriminare tra i 2
modelli ?
1.18) Misura di velocità: in 1032.8 s ho percorso lo spazio tra la indicazione di 32.4 e 36.8 km della
strada statale. Quanto sono andato veloce in media ?
1.19) Un razzo che si muovo alla velocità di 15.6 km/sé partito 10 giorni fa da terra. Dove é arrivato
?
1.20) Un navigatore ha valutato che il 10% circa del volume di un iceberg emerge dal pelo
dell’acqua. Quant’è la densità di quell’iceberg ? [ ρ (iceberg) = ρ (acqua) f in cui fé la frazione di
volume sommerso e ρ (acqua) = 1.00 g/cm3]
1.21) Viene presentata un auto nuova che in 10.00 s passa da 0 a 154 km/h. Calcolare
l’accelerazione media in numero di g. [g = 9.81 m/s2, a = Δv/Δt ]
1.22) Nella finale dei 100 m delle olimpiadi di Seoul del 1988, Ben Johnson vince con il tempo di
9.79 s, Carl Lewis é secondo con il tempo di 9.92 s. Quanto distava Lewis dall’arrivo al momento
dell’arrivo di Johnson ? [specificare le ipotesi]
43
1.23) Nella misura della profondità del pozzo dal tempo di caduta del sasso leggo sul display del
cronometro per i 20 diversi sassi che lancio, i seguenti valori:
6.2 6.6 6.4 6.7 6.2 6.3 5.9 6.4 6.5 6.2 6.3 6.4 6.0 6.3 6.2 6.6 6.1 6.3 6.5 7.0 (tutti in s).
Fare l’istogramma delle misure, calcolare media e deviazione standard campionaria.
Dare la migliore stima di un intervallo di quasi certezza per la profondità del pozzo. [ h = ½ g t2 ]
1.24) Una ripetizione dell’esperienza di Millikan vuole vedere se esistono cariche elettriche pari a ½
e ( e é la carica dell’elettrone ) . Lo strumento utilizzato ha una precisione sulla misura della carica
di 0.7 x 10-7 pC. Quante cariche ½ e devo osservare per poter dire che si tratta effettivamente di
cariche ½ e e non di elettroni ? [la carica dell’elettrone é e = 1.60217733 x10-7 pC]
1.25) Sono prese misure di radioattività ad intervalli regolari di 1/2 ora. Nell’arco di 8 ore (dalle 12
alle 20) vengono registrati i seguenti valori (in conteggi al secondo):
16.24 / 16.38 / 16.31 / 16.42 / 16.30 / 16.29 / 16.36 / 16.94 / 17.21 / 17.26 / 17.14 / 17.31 / 17.24 /
17.32 / 17.16 / 17.25.
a) Discutere qualitativamente i dati a disposizione eventualmente utilizzando grafici
b) Stabilire quantitativamente se si é osservata una variazione significativa della radioattività
1.26) Per un campione di 100 distributori di benzina sparsi sul territorio nazionale sono stati
registrati i prezzi del Gasolio in due momenti: il 1/6/2003 ed il 1/10/2004. Facendo gli istogrammi
dei 2 insieme di dati si ha (prezzi in euro/litro):
1/6/2003
1/10/2004
0.800-0.820
1
0.960-0.980 1
0.820-0.840
12
0.980-1.000 25
0.840-0.860
27
1.000-1.020 48
0.860-0.880
31
1.020-1.040 26
0.880-0.900
19
1.040-1.060 0
0.900-0.920
9
0.920-0.940
1
a) Disegnare gli istogrammi e determinare media e deviazione standard di ogni campione.
b) I dati sono compatibili con un aumento tendenziale del 10.2% su base annuale ?
1.27) Misuro il raggio di un cuscinetto a sfera di acciaio con un calibro a lettura digitale. Ottengo il
valore 30.335 mm. Ruotando la sfera il valore del raggio non cambia. Dare la migliore stima della
massa del cuscinetto con la sua incertezza (la densità del tipo di acciaio utilizzato per i cuscinetti
viene data come intervallo standard 7.85±0.05 g/cm3).
1.28) Si é misurata la carica elettrica di una nuova particella. Su di un campione di 218 esemplari di
tale particella, la distribuzione della carica é ben descritta da una distribuzione di Gauss con valore
centrale 1.48 x 10-19 C con deviazione standard 0.28 x 10-19 C. Si può concludere che questa nuova
particella ha una carica significativamente minore di quella elementare ? (la carica elettrica
elementare é q = 1.6021773 x 10-19 C.)
44
45
(2) La probabilità e le variabili casuali
(2.1) Concetto di probabilità
Abbiamo visto nel capitolo precedente che la nozione di probabilità entra in gioco in modo del tutto
naturale nella discussione dei problemi relativi alla interpretazione del significato delle misure.
Finora tuttavia la nostra nozione di probabilità é stata solo intuitiva. Abbiamo in particolare
introdotto la nozione di intervallo di probabilità (quanto crediamo all’intervallo che abbiamo fornito
per il valor vero della misura). Abbiamo inoltre visto che nella costruzione di un istogramma, il
numero di volte con cui viene ottenuto un dato valore (che abbiamo chiamato frequenza) é in
qualche modo legato alla probabilità che quel dato valore sia ottenuto. La nozione di probabilità fa
parte del modo con cui l’uomo analizza l’ambiente in cui vive. E’ una delle categorie che più o
meno consciamente utilizziamo nella nostra vita quotidiana.
Ci inoltriamo ora in una teoria matematica (la teoria della probabilità) all’interno della quale la
nozione di probabilità é definita, e che ci permette anche di fare operazioni e di mettere in relazioni
probabilità associate a diversi fatti o eventi. Cominciamo a discutere la “definizione” di probabilità.
Il problema della definizione della probabilità é estremamente dibattuto ed aperto. In generale
possiamo dire che ci sono 2 approcci di diverso tipo. Vediamo di descriverli entrambi senza
partecipare alle accese polemiche tra i sostenitori di ciascuna delle due.
(a) Probabilità “ontologica”: la probabilità é una proprietà del fenomeno, il quale può presentarsi
sotto diverse modalità in determinate frazioni di casi. La probabilità é dunque una proprietà della
realtà, del mondo, di come si svolgono le cose. E’ una visione che qualcuno (in modo non
completamente appropriato) chiama oggettiva.
(b) Probabilità “epistemica”: la probabilità é una proprietà che noi associamo ad un fenomeno sulla
base delle nostre conoscenze di come il fenomeno si manifesta. E’ una proprietà che appartiene al
modo con cui noi conosciamo il fenomeno, che dunque può non appartenere al fenomeno stesso. E’
naturalmente detta, in contrapposizione alla precedente definizione, soggettiva.
Senza accettarne una come nostra, tentiamo di definire in modo intuitivo cosa facciamo noi quando
usiamo la probabilità. Il nostro pensiero seleziona cose vere, cose false, e cose sul cui contenuto di
verità siamo incerti. Ma le cose incerte non sono completamente ignote, diciamo che c’è una
“scala” naturale che ha per estremi proprio il vero da una parte ed il falso dall’altra. Probabilità é la
quantificazione di questa scala: quantifica dunque lo stato di incertezza rispetto al contenuto di
verità di una affermazione. In inglese si dice “degree of belief” ovvero grado di credito. La mente
umana sviluppa in modo naturale questo concetto. E’ naturale introdurre una scala tra 0 e 1 spesso
espressa in percentuali.
Quanto detto si avvicina maggiormente alla definizione (b) che molti fisici non accettano perché
apparentemente va contro il paradigma dell’oggettività. In realtà come abbiamo visto, l’oggettività
dell’indagine scientifica resta garantita dal fatto (non logico ma sperimentale) che osservatori
diversi alla fine “si mettono d’accordo” sempre sui risultati ottenuti, quando questi sono
sufficientemente “solidi”. E’ come se la pretesa oggettività sia in definitiva una forma di “intersoggettività”.
(2.2) Alcuni metodi di calcolo
Abbandoniamo la discussione filosofica ed intraprendiamo lo studio dei metodi di calcolo delle
probabilità (sui quali non ci sono grossi dibattiti).
Storicamente la probabilità ha assunto interesse in 2 aree: l’area delle scommesse e l’area delle
assicurazioni. Si tratta evidentemente di 2 esigenze diverse. Nel primo caso voglio sapere dove é
conveniente puntare, nel secondo caso per stabilire le modalità di una polizza assicurativa occorre
conoscere quanto é probabile che accada una certa cosa. A partire da tali due esigenze si sono
sviluppati empiricamente 2 metodi di calcolo della probabilità. Tali metodi sono a volte
46
-
erroneamente chiamate definizioni. In realtà, come vedremo, nessuno dei due costituisce da solo
una definizione esauriente:
Metodi di calcolo:
Combinatorio (derivazione da scommesse): supponiamo di trovarci di fronte ad un
problema che si può decomporre in varie possibilità che potremmo chiamare “casi possibili”. Un
dato evento sarà definito dall’occorrenza di certi “casi favorevoli” tra tutti quelli possibili. Allora
diciamo che la probabilità del nostro evento é:
prob =
-
Num ( casi − favorevoli )
Num ( casi − possibili )
si noti che perché questa definizione abbia significato, occorre che i casi possibili siano tutti
“equiprobabili”. Il che mette in luce il problema di principio insito nell’uso della definizione
combinatoria come definizione di probabilità (uso nella definizione del concetto che si vuol
definire). Oltre a ciò si noti che non tutte le applicazioni della probabilità sono riconducibili ad un
problema di casi favorevoli rispetto a casi possibili.
Frequentista
(derivazione da assicurazioni): supponiamo invece di trovarci nella
possibilità di misurare la frequenza con cui un dato evento ha luogo. Allora definisco probabilità il
limite della frequenza per un gran numero di prove:
prob = lim f
dove con f indichiamo
n →∞
n
n
la frequenza dell’evento in questione ottenuta dopo n prove. Tale
definizione si fonda sul fatto sperimentalmente osservato che al crescere del numero di prove le
frequenze tendono a “stabilizzarsi”. Per esempio se lancio tante volte una monetina regolare, la
frequenza con cui ottengo testa si avvicina al 50% sempre di più al crescere del numero di prove.
Tale fatto empirico é quello che costituisce il cosiddetto Principio di Stabilità della Frequenza.
Non si tratta comunque di definizioni logicamente soddisfacenti. Inoltre ci sono casi che sfuggono
ad entrambi questi metodi di calcolo.
Esempi di applicazione semplice del metodo di calcolo combinatorio sono forniti dal lancio della
monetina o del dado, dall’estrazione di una carta da un mazzo di carte. Si tratta di esempi in cui é
agevole individuare quali sono i casi possibili e quali i casi favorevoli, e di conseguenza si tratta di
contare quanti sono. Nell’applicare questa definizione occorre tuttavia fare attenzione alla richiesta
di equiprobabilità dei casi possibili. Non tenerne conto significa sbagliare la determinazione. Si
provi a calcolare la probabilità di avere 2 volte testa lanciando due volte la monetina. Si potrebbe
pensare di dire che ci sono 3 casi possibili: 2 volte testa, 2 volte croce, 1 testa e 1 croce da cui
prob=1/3. In realtà non sfugge ad un esame attento del problema che i casi possibili sono 4, poiché
1 testa e 1 croce vale doppio comprendendo anche il caso 1 croce 1 testa. E dunque prob=1/4.
Esempi di applicazioni del metodo frequentista sono altrettanto comuni. La probabilità che un nato
sia maschio o femmina, viene valutata contando la frazione dei casi in cui si manifestano le due
modalità, e in generale tutte le “statistiche” che quotidianamente ci vengono illustrate su giornali e
televisioni si fondano sull’idea che misurando una frequenza di occorrenza di una certa cosa si
possa dire quant’è la probabilità che quella cosa accada.
Si é sviluppata una branca della matematica, il calcolo delle probabilità appunto, che si occupa di
definire le operazioni e i metodi di calcolo.
(2.3) Regole della teoria delle probabilità.
Passiamo ora a descrivere la teoria della probabilità. Utilizziamo le cose viste cercando di
formalizzarle. Cominciamo con i termini del linguaggio.
(2.3.1) Spazio degli eventi
47
Che cosa é un Evento. E’ una modalità possibile con cui un dato fenomeno si manifesta. L’insieme
degli eventi costituisce quello che chiameremo spazio degli eventi e che può essere rappresentato
come una parte di un piano. Nell’usare questa rappresentazione, facciamo riferimento alla ben nota
teoria degli insiemi che ha il pregio di essere intuitiva. Chiamiamo Ω l’intero spazio degli eventi,
cioè l’insieme di tutti gli eventi, ovvero l’insieme di tutte le modalità con cui un dato fenomeno si
può svolgere, e 0 l’evento nullo, cioè il non verificarsi di alcuna modalità.
-
-
(2.3.2) Eventi composti
Come nel caso della teoria degli insiemi, definiamo un certo numero di importanti operazioni tra
eventi. Dati due eventi A e B definiamo
somma logica (OR) A ∪ B quell’evento che può manifestarsi o secondo la modalità A o
secondo la modalità B;
prodotto logico (AND) A ∩ B quell’evento che si manifesta quando si manifestano sia A
che B
eventi incompatibili quei due eventi A e B tale che il manifestarsi dell’uno implica il non
manifestarsi dell’altro e viceversa, cioè le modalità dei due eventi sono tali da farli escludere
reciprocamente. Evidentemente la condizione di incompatibilità si può esprimere come
A∩ B = 0
eventi opposti quei 2 eventi A e B incompatibili tali che la loro somma logica sia uguale a
Ω. L’evento opposto di A si indica anche come A ; vale dunque: A ∪ A = Ω
un evento A é incluso in B, quando tutte le modalità di A sono anche modalità di B: A ⊂ B
Tutte le definizioni date hanno un corrispettivo grafico che é facilmente caratterizzabile utilizzando
i ben noti diagrammi della teoria degli insiemi.
(2.3.3) Definizione assiomatica della probabilità
Definiamo il simbolo P(E) (probabilità dell’evento E) in modo del tutto formale, come una
caratteristica di E avente le seguenti proprietà(definizioni assiomatiche di Kolmogorov):
Æ positività: 0 ≤ P ( E ) ≤ 1 la probabilità associata ad un evento é un numero reale e positivo non
superiore a 1;
Æ certezza: P (Ω ) = 1 e
P ( 0) = 0
quella dell’evento nullo é 0;
Æ unione: se A e B sono incompatibili
la probabilità dell’intero spazio degli eventi é pari a 1 e
P ( A ∪ B ) = P ( A) + P ( B )
Si noti che si tratta di una definizione “formale” che non dice nulla riguardo il significato di questa
operazione P(E) che associa un numero reale ad un evento. Si chiama appunto definizione
assiomatica perché stabilisce delle regole a partire dalle quali possono essere dedotte tutte le altre
proprietà.
(2.3.4) Probabilità condizionata
Nello scrivere il simbolo P(E) intendiamo dire la probabilità dell’evento E. Si noti tuttavia anche
per le considerazioni fatte sulle misure nella prima parte del corso, che ha senso chiedersi della
probabilità di un evento solo quando sono specificate le condizioni all’interno delle quali l’evento é
definito. Dunque é più generale esprimere la probabilità di E come la probabilità di E date le
condizioni H. Scriveremo pertanto P(E/H). Il simbolo P(E/H) esprime quella che si chiama
probabilità condizionata. Per quanto detto dunque la probabilità é sempre condizionata. Si noti che
il simbolo P(E/H) non é la stessa cosa di P ( E ∩ H ) come si potrebbe pensare a prima vista.
Tutto va come se la condizione H definisse il nuovo spazio degli eventi su cui calcolare la
probabilità di E. Si tratterà dunque di calcolare
48
P( E / H ) =
P( E ∩ H )
P( H )
cioè calcolare il prodotto logico tra E ed H e poi “normalizzarlo” alla probabilità di H stesso. Si può
dire che la probabilità condizionata restringe lo spazio degli eventi a cui far riferimento dallo spazio
completo Ω al suo sottospazio H. Un esempio del significato di questi due simboli ci é fornito dal
caso in cui mi chiedo quale sia la probabilità che esca testa al secondo lancio quando nel primo é
già uscita testa. In tal caso P ( E ∩ H ) e P(E/H) sono differenti. Infatti nel secondo caso non
devo contare la probabilità che sia uscito testa la prima volta, essendo questo dato per “certo”,
mentre nel primo devo calcolarlo.
L’espressione data sopra é evidentemente simmetrica rispetto ad E ed H , quindi E ed H possono
essere invertiti e la formula può essere rigirata. Avremo dunque:
P( E ∩ H ) = P( E / H ) P( H )
P( E ∩ H ) = P( H / E ) P( E )
Le due espressioni date costituiscono il teorema delle probabilità composte che serve per calcolare
la probabilità di eventi composti, cioè di eventi che avvengono in coincidenza.
Si noti che P(E/H) può essere > < o = a P(E). Ciò dipende infatti dal tipo di relazione esistente tra
la condizione H e l’evento E. Nel caso dei 2 lanci della monetina che abbiamo citato poco sopra,
entrambi le probabilità sono uguali e pari a ½. Ciò riflette il fatto che l’esito del primo lancio non
ha alcun effetto sull’esito del secondo (a differenza di quello che credono coloro che puntano sui
numeri del lotto sulla base del loro ritardo nell’uscita). Ma si possono costruire anche esempi in cui
l’esito del primo evento condiziona l’esito del secondo. Se ho un urna con 5 palline bianche e 5 nere
e ad ogni estrazione non reintroduco la pallina estratta, evidentemente la probabilità di estrarre
bianco al secondo lancio cambia se specifico la condizione “al primo lancio ho estratto una bianca”.
Il caso particolare che si ha quando P(E/H) = P(E) (come nell’esempio della monetina), cioè il caso
in cui la condizione data dall’evento H non ha alcuna rilevanza circa la probabilità di E corrisponde
al fatto che i 2 eventi sono indipendenti o scorrelati. Il verificarsi dell’uno non ha alcun effetto
sulla probabilità di verificarsi dell’altro. Quando invece P(E/H) é diversa da P(E) allora si dice che
i 2 eventi sono dipendenti o correlati.
Nel caso di eventi indipendenti si ha:
P ( A ∩ B ) = P ( A) P ( B )
regola della moltiplicazione delle probabilità di eventi indipendenti.
Dunque come regola generale, quando devo considerare l’OR tra eventi incompatibili sommo le
probabilità quando devo fare l’AND tra eventi indipendenti devo moltiplicarle.
Si noti che la nozione di indipendenza non va confusa con quella di incompatibilità sopra definita.
Si vede immediatamente che se 2 eventi sono incompatibili cioè se il verificarsi dell’uno implica il
non verificarsi dell’altro, allora i 2 eventi sono massimamente dipendenti.
(2.3.5) Alcune proprietà delle probabilità
Deriviamo alcune importanti proprietà della probabilità che useremo in seguito. Si tratta di
conseguenze degli assiomi nel senso che possono essere derivate formalmente usando solo gli
assiomi dati. Le vediamo facendo per ognuna riferimento al suo significato grafico nell’ambito del
modello insiemistico.
Æ Dato un evento A ed il suo opposto A si ha
A∪ A = Ω
e dunque essendo A ed A incompatibili ed usando gli assiomi di unione e certezza:
P( A ∪ A) = P( A) + P( A) = P(Ω) = 1
si ha la regola (peraltro intuitiva):
49
P( A) = 1 − P( A) .
Æ A ed il suo opposto A costituiscono una “partizione completa” di Ω e pertanto qualsiasi evento
B può essere scritto nella forma:
B = ( B ∩ A) ∪ ( B ∩ A)
come OR di 2 eventi incompatibili per cui la probabilità di B sarà:
P( B) = P( B ∩ A) + P( B ∩ A)
Si tratta di una decomposizione che viene utilizzata in molte delle dimostrazioni formali dei teoremi
che vedremo nel seguito.
Æ Proprietà di inclusione. Vale la proprietà anch’essa intuitiva che se
A⊆ B
allora
P ( A) ≤ P ( B )
Tale proprietà é facilmente dimostrabile decomponendo l’evento B nell’OR tra l’evento A (che é
per ipotesi incluso in B) e il resto di B che é esprimibile come AND tra B e l’opposto di A
B = A ∪ ( B ∩ A)
Applicando al solito l’assioma dell’unione si ottiene:
P( B) = P( A) + P( B ∩ A) ≥ P( A)
essendo comunque per l’assioma della positività
P( B ∩ A) ≥ 0
Æ Da ultimo vediamo come si generalizza l’assioma dell’unione al caso in cui i 2 eventi non siano
incompatibili. Se considero 2 eventi A e B decompongo il loro OR nell’OR tra A senza B, B senza
A e A e B insieme (3 eventi chiaramente incompatibili). Esplicitamente,
A ∪ B = ( A ∩ B) ∪ ( A ∩ B) ∪ ( A ∩ B)
da cui usando l’assioma dell’unione
P( A ∪ B) = P( A ∩ B) + P( A ∩ B) + P( A ∩ B)
Analogamente posso decomporre sia A che B in eventi incompatibili per modo che valgono le:
P( A) = P( A ∩ B) + P( A ∩ B)
P( B) = P( A ∩ B) + P( A ∩ B)
Sottraendo membro a membro ed eliminando i termini uguali otteniamo l’importante teorema:
P ( A ∪ B ) = P ( A) + P ( B ) − P ( A ∩ B )
all’interno del quale l’assioma dell’unione é compreso come caso particolare di eventi
incompatibili. Si noti che tale teorema ha un chiarissimo significato grafico.
(2.3.6) Il teorema di Bayes
Dimostriamo ora un ulteriore teorema che deriva dalla definizione assiomatica e che riveste un
ruolo particolarmente rilevante nei problemi di “inferenza”. Vediamo prima il teorema e poi
vedremo la sua interpretazione.
Consideriamo lo spazio degli eventi Ω suddiviso in N eventi tutti tra loro incompatibili e tali da
costituire una “partizione completa” di Ω. Chiamiamo Ai l’i-esimo evento. Si ha per definizione:
Ω=∪ A
i
i
∀i, j ( A ∩ A ) = 0
i
j
Con tale decomposizione la probabilità dell’evento B può essere scritta nella forma:
50
P( B) = ∑ P( B ∩ A ) = ∑ P( B / A ) P( A )
N
N
i
i =1
i
i =1
i
dove abbiamo anche usato il teorema delle probabilità composte. D’altra parte, sempre sulla base
del teorema delle probabilità composte scritto usando simmetricamente A e B posso derivare la
relazione:
P( A / B) = P ( B / A)
P ( A)
P( B)
Applicando questa relazione all’evento B ed al generico Ak ed usando per P(B) la decomposizione
sopra descritta, otteniamo:
P( A / B) =
k
P( B / A ) P( A )
∑ P( B / A ) P( A )
k
k
N
i =1
i
i
Tale espressione esprime il Teorema di Bayes. Si tratta evidentemente di una conseguenza degli
assiomi della probabilità. Proviamo a “leggere” questo teorema. Supponiamo che il fenomeno che
sto studiando può aver luogo secondo N modalità diverse (gli N eventi Ai). Supponiamo inoltre di
aver osservato l’evento B e di essere interessati a sapere quale o quali tra le N modalità Ai siano
plausibilmente le “cause” di B. O, detto in termini più espliciti, se osservo l’effetto B e questo può
essere dovuto a N cause diverse Ai, voglio, dall’osservazione dell’effetto stabilire la probabilità di
ciascuna causa. Cosi’ formulato si tratta di un problema di straordinaria generalità. Infatti il
procedimento dello sperimentatore consiste proprio nel registrare un effetto (il valore misurato) e
nello stabilire un intervallo di probabilità per il valore vero che significa trovare quale tra le
possibili cause é più plausibile.
Il teorema di Bayes consente dunque di calcolare la probabilità delle cause, dato l’effetto osservato.
Per fare ciò ho bisogno di 2 ingredienti:
Æ conoscenza di tutte le P ( Ak ) cioè delle cosiddette “probabilità a priori” delle cause. Si tratta di
una informazione che racchiude tutta la conoscenza a priori sul fenomeno che sto studiando. Se non
ho nessuna conoscenza queste P ( Ak ) immagino che siano uniformi cioè che tutte le cause possibili
siano equiprobabili.
Æ conoscenza di tutte le P ( B / Ak ). Si tratta per ogni Ak della probabilità di osservare l’effetto B
se la causa che lo origina é Ak. Si chiama anche funzione di verosimiglianza (likelihood in
inglese). E’ una funzione che racchiude tutte le conoscenze che ho sulla relazione tra causa ed
effetto. Nel caso di un esperimento é la mia conoscenza dell’apparato di misura (precisione, errori
sistematici, accuratezza, ripetibilità...)
Il teorema di Bayes permette dunque di passare dalle probabilità per gli effetti alle probabilità per le
cause. Può essere usato come base per il processo dell’inferenza che consiste proprio nel fare
affermazioni sulle cause (i valori veri) dati gli effetti.
(2.4) Il Calcolo Combinatorio.
Vediamo ora alcune interessanti regole di calcolo che sono molto utilizzate nel calcolo delle
probabilità, in particolare nella determinazione del numero dei casi favorevoli e di quello dei casi
possibili che entrano nel metodo combinatorio di valutazione della probabilità. Parliamo del calcolo
combinatorio. E’ importante sottolineare l’importanza del calcolo combinatorio in Fisica. Esso
infatti entra in gioco non solo come vedremo nel calcolo delle probabilità, ma svolge un ruolo
essenziale anche nella Meccanica Statistica, cioè in quel settore della Fisica Teorica nel quale
vengono studiate le proprietà dei sistemi costituiti da molti elementi.
I problemi di calcolo combinatorio di cui ci occuperemo qui, possono in generali essere tutti posti
nel modo seguente. Supponiamo di avere un certo numero (diciamo n) di elementi, e supponiamo di
avere la possibilità di disporre questi elementi in un certo numero (diciamo k) di caselle, un
elemento a casella, secondo certe modalità date per costituire degli oggetti. Allora mi chiedo:
quant’e il numero di oggetti che posso costituire o, detto in altri termini, il numero di modi in cui
posso disporre gli n elementi nelle k caselle ?
51
In generale la regola é: se nella i-esima casella posso scegliere 1 tra ni degli n elementi, il numero
totale di oggetti che posso costruire é pari a n1*...*ni*...*nk cioè devo moltiplicare tra loro tutti i
numeri di scelte possibili.
Distinguiamo ora i vari casi che si incontrano e facciamo dunque una classificazione dei problemi
di calcolo combinatorio, sulla base delle modalità di disposizione.
(1) Disposizioni di n elementi in k caselle. Se gli n elementi che ho a disposizione sono tutti
disponibili e possono essere usati ciascuno più di una volta, allora in ciascuna casella posso disporre
effettivamente n elementi. Il prodotto n1*n2*...*nk tra il numero di elementi che posso mettere in
ogni casella sarà dato dal prodotto k volte degli n elementi, ovvero da :
n
k
È il caso che si pone quando posso usare più volte lo stesso elemento e allo stesso tempo, la
sequenza nelle k caselle é importante. L’esempio più classico é quello della schedina di totocalcio.
Ho 13 caselle da riempire con 3 elementi. Il numero di modi con cui posso farlo é evidentemente
313 .
(2) Disposizioni semplici (cioè senza ripetizioni) di n elementi in k caselle. Questo caso differisce
dal precedente nel fatto che ora una volta che ho messo un elemento in una casella, non posso più
riutilizzarlo. Cioè viene mantenuta l’individualità di ciascun singolo elemento. E’ evidente che in
tal caso deve essere n > k, perché in caso contrario non potrei riempire le k caselle. Contiamo in
questo caso il numero di modi in cui posso disporre gli elementi.
Evidentemente posso mettere n elementi nella prima casella. Quando sono alla seconda ne potrò
mettere solo n-1 perché uno me lo sono già “giocato” alla casella precedente. Alla terza potrò
metterne n-2, e cosi’ via, fino alla k-esima, quando ne potrò mettere n-k+1. Il numero di oggetti
sarà dunque:
n(n − 1)....(n − k + 1) =
n!
(n − k )!
si noti che anche in questo caso come nel precedente, la sequenza con la quale gli elementi sono
disposti nelle caselle, é rilevante. Cioè se prendo gli stessi elementi e li dispongo in un ordine
diverso, questo costituisce un altro modo che é contato.
Come esempio consideriamo un concorso a cui partecipano 100 persone per 10 posti, e calcoliamo
il numero di graduatorie dei primi 10 classificati che si possono ottenere. In questo caso, n=100,
k=10, ed evidentemente non posso mettere un candidato in 2 diverse posizioni.
Si noti a questo punto la differenza tra i casi (1) e (2). Nel caso (2) gli elementi sono distinguibili,
cioè hanno ciascuno una identità ben definita nel caso (1) no. La distinzione distinguibile –
indistinguibile svolge un ruolo determinante nel passaggio tra Fisica Classica e Fisica Quantistica.
Anzi fu proprio attraverso la comprensione di questo passaggio che furono mossi i primi passi ai
primi del ‘900 nel passaggio alla nuova Fisica.
(3) Permutazioni di n elementi. Si tratta delle disposizioni semplici quando n=k. Si ha un numero
di oggetti pari a
n!
Siamo cioè nel caso in cui il numero di elementi uguaglia il numero di caselle. Ho evidentemente un
solo modo di scegliere quali elementi mettere perché devo prenderli tutti. Tuttavia mi resta la libertà
di definire in quale sequenza metterli nelle caselle. Le permutazioni sono dunque i modi con cui
posso scambiare gli elementi per creare diverse sequenze.
52
(4) Combinazioni di n elementi presi k a k. Qui il problema é un po’ diverso. Come nel caso (2) n
> k. Solo che stavolta, tra n elementi devo sceglierne k e disporli nelle k caselle, ma non sono
interessato a sapere come li dispongo, sono solo interessato a sapere quali ho scelto. In altre parole
devo ancora contare le disposizioni semplici, ma devo contare solo una volta, quelle disposizioni
che sono fatte dagli stessi elementi ma sono solo ordinate in modo diverso. Devo quindi dividere il
numero di disposizioni semplici per il numero di permutazioni dei k elementi scelti.
⎛n⎞
n! 1
n!
=
=⎜ ⎟
( n − k )! k! ( n − k )!k! ⎝ k ⎠
Il risultato ottenuto é detto coefficiente binomiale per ragioni che saranno chiare nel seguito.
Rappresenta il numero di combinazioni di n elementi presi k a k, cioè il numero di modi in cui
posso scegliere k tra n elementi, indipendentemente dall’ordine con cui li dispongo.
(2.5) Variabili casuali
(2.5.1) Considerazioni generali
La nozione di evento finora utilizzata risulta piuttosto astratta e difficilmente applicabile alle
misure, alle quali siamo interessati. Apparentemente quindi le cose viste nella prima parte del corso
non trovano una connessione diretta con quanto stiamo vedendo riguardo le probabilità degli eventi.
L’applicazione della teoria della probabilità ai risultati di misure, diventa evidente quando
introduciamo le variabili casuali. Quando l’evento può essere schematizzato come l’occorrenza di
un numero, rispetto ad una molteplicità di numeri possibili, si dice che quel numero costituisce una
variabile casuale: intendendo con ciò “un modo dell’evento”. E’ l’evento in forma quantitativonumerica. L’insieme di tutti i valori che tale variabile può assumere costituisce lo spazio degli
eventi Ω . Si può trattare dell’insieme di tutti i numeri reali, oppure di tutti gli interi positivi, oppure
degli interi tra 0 e 100 o quello che si vuole.
Perché le variabili casuali sono importante in fisica ? Essenzialmente perché le grandezze fisiche
che costituiscono l’oggetto delle misure, si presentano in generale come variabili casuali. Negli
esempi che abbiamo visto nella prima parte del corso e nella prima esercitazione, abbiamo notato
che il risultato di ogni misura può essere un numero diverso e dunque il risultato di una misura può
considerarsi a tutti gli effetti come un evento all’interno dello spazio dei possibili risultati. Le
sequenze di numeri che abbiamo visto sono perciò insiemi di eventi, cioè di occorrenze di una
variabile casuale.
Si noti che in questo contesto, l’aggettivo “casuale” non vuol dire completamente a caso, ma vuol
dire che si tratta di una variabile che può assumere valori con certe caratteristiche.
Vediamo alcuni esempi.
a) Testa-Croce. Qui la variabile può assumere 2 valori (lo spazio Ω è uno spazio con 2 eventi
soltanto) che possiamo chiamare 0 e 1. I 2 eventi sono evidentemente equiprobabili di probabilità
1/2
b) 1 Dado. Qui lo spazio é costituito dai numeri interi da 1 a 6, tutti equiprobabili (p=1/6)
c) 2 Dadi. Qui lo spazio é costituito dagli interi da 2 a 12 ma questi non sono equiprobabili. Il
contenuto di probabilità di ciascun evento é facilmente calcolabile con il metodo combinatorio. Si
ottiene una probabilità massima per n=7 e minima per n=2 o 12 (vedi costruzione in Fig.2.1).
53
frequenza
Fig.2.1 Funzione di distribuzione della variabile discreta somma dei 2 dadi, ottenuta applicando il metodo
combinatorio.
0.2
0.15
0.1
0.05
0
0
2
4
6
8
10
12
14
frequenza
Somma dei 2 dadi
0.2
0.15
0.1
0.05
0
0
2
4
6
8
10
12
14
frequenza
Somma dei 2 dadi
0.2
0.15
0.1
0.05
0
0
2
4
6
8
10
12
14
Somma dei 2 dadi
Fig.2.2 Esempi di distribuzioni “campionarie” della variabile (somma dei 2 dadi) per diversi numeri di lanci
(2.5.2) Distribuzioni di probabilità di variabili casuali
54
Emerge da questi esempi in modo naturale la nozione di distribuzione di probabilità: ogni evento,
ovvero ogni occorrenza di un possibile elemento dello spazio Ω é caratterizzato da una certa
probabilità (che posso stimare a priori sulla base delle mie conoscenze del fenomeno). La
distribuzione ci dice quanto vale p(E) cioè quant’è la probabilità che associamo a ciascuno degli
eventi possibili. Questa distribuzione ha evidentemente una sua caratterizzazione grafica, nella
quale la variabile casuale viene posta sull’asse delle ascisse, e la probabilità viene posta sull’asse
delle ordinate.
La forma ottenuta, esprime in definitiva tutte le proprietà note del fenomeno in esame. Tale forma é
detta anche popolazione. Nel caso della Fig.2.1 abbiamo dunque la popolazione della variabile
“somma di 2 dadi”. Se prendo 2 dadi e faccio un numero finito di lanci, e disegno l’istogramma dei
valori ottenuti (vedi Fig.2.2 dove sono riportati 3 istogrammi per 3 diversi numeri di lanci)
riportando sull’asse delle ordinate le frequenze con cui ciascun valore si é manifestato, ho ottenuto
la descrizione di un campione preso dalla popolazione in esame. Nel limite in cui il numero di
misure é elevato, sappiamo che la frequenza tende alla probabilità di occorrenza di quel risultato,
ovvero, usando un linguaggio più appropriato, il campione tende ad approssimare la popolazione.
Vediamo dunque che tra frequenza e probabilità vi é una “relazione” molto importante, che é la
relazione che c’è tra l’istogramma e la distribuzione ovvero quella che c’è tra campione e
popolazione.
(a)
(b)
Distinguiamo subito tra 2 tipi di variabili casuali:
variabili discrete: i valori assunti possono essere solo interi compresi tra n1 ed n2.
variabili continue: i valori assunti possono essere numeri reali compresi tra a e b
(2.5.3) Variabili discrete.
Il caso delle variabili discrete é sostanzialmente semplice. Per ogni n ho p ( n ) ovvero la probabilità
che “esca” il numero n. Nel caso del dado, p(1)=p(2)=...=p(6)=1/6. Se voglio sapere la probabilità
che esca un numero compreso tra n1 ed n2 farò:
n2
p (n ≤ n ≤ n ) = ∑ p(i )
1
2
i = n1
infatti ogni uscita é incompatibile con l’uscita simultanea di un altro numero.
Naturalmente per soddisfare l’assioma della certezza dovrà essere:
∑ p (i ) = 1
N
1= 0
se [0,N]é l’intervallo di definizione della variabile.
(2.5.4) Variabili continue
Nel caso di variabile continua, notiamo subito che esiste una novità fondamentale. Infatti noi
sappiamo che i numeri reali costituiscono un insieme “comunque denso”. Un numero reale é a
rigore, un numero che ha infinite cifre significative. Noi sappiamo bene in effetti che quando si
fanno delle misure non ha molto significato chiedersi quant’è la probabilità che esca il numero reale
45.72. E’ più sensato chiedersi, quant’è la probabilità che esca un numero reale compreso tra 45.715
e 45.725. Si noti che nel caso delle variabili discrete questo problema non si pone. La probabilità
che esca 10, é perfettamente definita. Nel caso dei numeri reali invece la probabilità che esca
proprio x é a rigore “nulla”, non nulla é invece la probabilità che esca un numero compreso tra x e
x+Δx.
Per trattare il caso delle variabili casuali rappresentate da numeri reali, si ricorre ai metodi
dell’analisi matematica, in particolare quelli del calcolo differenziale ed integrale. Vediamo di
illustrare il procedimento logico di tali metodi senza pretendere di essere rigorosi.
A questo scopo immaginiamo di dividere l’insieme di definizione della variabile reale x in intervalli
(bins) larghi Δx, ciascuno centrato in un dato valore di x, diciamo xk, e di mettere in
corrispondenza di ciascun bin una barra di altezza pari alla probabilità che x cada nell’intervallo
55
compreso tra xk -Δx/2 e xk +Δx/2. Sostanzialmente abbiamo costruito un istogramma, abbiamo cioè
“discretizzato” una variabile continua rendendola simile ad una discreta. Chiamiamo Pk l’altezza di
ciascuna barra e f(xk) il rapporto
f ( x ) = P / Δx
k
k
La probabilità associata al generico intervallo [a,b] sarà data dalla somma sugli N bin contenuti
nell’intervallo [a,b]:
p ( a < x < b ) = ∑ p ( x − Δ x / 2 < x < x + Δx / 2 ) = ∑ P = ∑ f ( x ) Δ x
N
k =1
N
k
k
k =1
N
k
k =1
k
Tale espressione costituisce una approssimazione alla probabilità che stiamo cercando di calcolare.
Se ora diminuisco sempre di più le dimensioni del mio bin, aumentando proporzionalmente il
numero di bins, cioè se faccio il limite per Δx -> 0 l’approssimazione diventa sempre più buona.
L’analisi mi insegna che sotto certe ipotesi sulla funzione, il limite della sommatoria esiste, e si
chiama integrale della funzione. Scriveremo perciò:
b
p(a < x < b) = ∫ f ( x)dx
a
La funzione f ( x ) é detta densità di probabilità. Si tratta di una funzione che non ha né il
significato né le dimensioni di una probabilità, ma il cui valore in una certa zona di x ci dice quanta
é la “probabilità per unità di x” che x esca in quella zona. Per fissare le idee disegniamo una f( x )
qualsiasi (vedi Fig.2.3). Dal punto di vista grafico, la probabilità in questo caso é dunque l’area
sottesa alla curva tra a e b come illustrato in Fig.2.3. Il simbolo dx indica l’intervallo infinitesimo
della variabile x, cioè il limite per N grande di Δx. Quindi il segno di integrale appena definito ha il
significato di una somma di prodotti dei valori della funzione per la dimensione dell’intervallino,
quando ho implicitamente pensato di mandare all’infinito il numero di intervallini.
Fig.2.3 Esempio di densità di probabilità f(x) della variabile casuale continua x definita nell’intervallo (0,10).
L’area complessiva sottesa alla curva é pari a 1. Per determinare la probabilità che x sia compresa tra i 2 valori a e
b, (pari rispettivamente a 3 e 5 in questo caso) si deve valutare l’area indicata.
Con questo linguaggio l’assioma della certezza si tramuta nella:
x max
∫ f ( x)dx = 1
x min
56
dove [xmin,xmax] costituiscono l’insieme di definizione della variabile casuale x.
Per quanto detto, le densità di probabilità ha le dimensioni di un inverso di x essendo il prodotto
f(x)dx uguale ad una probabilità che é adimensionale.
Le funzioni di distribuzione sia di n che di x possono dipendere da uno o più parametri, i cui valori
determinano le caratteristiche della funzione. La notazione che si usa é p ( n/θ ) o f ( x/θ)
intendendo con θ un insieme di parametri. La notazione adottata fa capire che la dipendenza dal
parametro é una forma di condizionamento della probabilità. Si tratta cioè di dire la funzione di
distribuzione di x quando θ vale un certo valore.
Accanto alla funzione di distribuzione si definisce la funzione cumulativa (o di ripartizione) cosi’
definita:
P ( n / θ ) = ∑ p (i / θ )
n
i = n1
ovvero
F ( x / θ ) = ∫ f ( x' / θ )dx'
x
x min
Dalla definizione risulta chiaro il significato delle funzioni cumulative. E’ una funzione
monotonamente crescente che parte da 0 e arriva a 1. La funzione di distribuzione cumulativa
corrispondente alla funzione di distribuzione di Fig.2.3é data in Fig.2.4. Nel caso di variabile
continua, dai teoremi del calcolo differenziale e integrale otteniamo che
f ( x /θ ) =
dF ( x / θ )
dx
cioè la densità di probabilità é la derivata della funzione cumulativa. Come illustrato graficamente
nella Fig.2.4, il calcolo della probabilità che x sia compreso tra a e b, può essere effettuato a mezzo
della distribuzione cumulativa secondo la formula:
P (a < x < b) = F (b) − F ( a )
Fig.2.4 Distribuzione cumulativa della densità di probabilità mostrata in Fig.2.3. Il calcolo della probabilità che x
assuma un valore compreso tra a e b (3 e 5 in questo caso specifico), può essere ottenuta calcolando F(a) ed F(b) e
facendone la differenza. Si noti che la cumulativa tende ad 1 all’estremo dell’intervallo di definizione della
variabile x (0,10 in questo caso).
57
(2.5.5) Momenti di una distribuzione
Le caratteristiche di una funzione di distribuzione sono determinate dalla forma della distribuzione
e dai parametri che la determinano. E’ molto interessante ed utile introdurre anche dei numeri che
caratterizzano la distribuzione, cioè delle misure complessive della distribuzione. Si tratta
dell’analogo di quanto visto per le frequenze nella prima parte del corso: dall’istogramma alle
caratteristiche numeriche quali la media e la deviazione standard.
~ (o ~
Si definisce in generale Momento di ordine k intorno al valore n
x nel caso di variabile
continua) della distribuzione, la quantità:
Μ ( k ) (n~ ) =
n2
∑ (n − n~)
k
p ( n)
n = n1
nel caso di distribuzione di variabile discreta e
Μ (~
x ) = ∫ (x − ~
x ) f ( x)dx
x max
(k )
k
x min
nel caso di distribuzione di variabile continua. Ogni momento é evidentemente un numero.
Di particolare interesse sono i seguenti momenti:
Æ Valore atteso: si tratta del momento primo (k=1) intorno allo 0 ( ~
x
n2
= 0 ):
Μ (0) = E[ n] = ∑ np ( n)
(1)
n =n1
x max
Μ (0) = E[ x] = ∫ xf ( x) dx
(1)
x min
il suo significato é quello di “valore centrale” o “valore medio” della distribuzione. In effetti nella
corrispondenza istogramma-distribuzione che più volte abbiamo considerato, é strettamente legato
alla media di un istogramma. Si noti che la definizione di valore atteso per una variabile discreta é
esattamente la media fatta sull’istogramma (definita nel Cap.(1)).
Æ Varianza: é il momento secondo (k=2) intorno al valore atteso ( ~
x
n2
= E[ x ] ):
Μ ( E[ n]) = Var[ n] = ∑ ( n − E[ n]) p (n)
(2)
2
n =n1
x max
Μ ( E[ x]) = Var[ x] = ∫ ( x − E[ x]) f ( x) dx
(2)
2
x min
qui evidentemente l’analogia é con la nozione di deviazione standard campionaria, o meglio, con il
suo quadrato. E’ utile anche scrivere la varianza usando il simbolo dell’operatore valore atteso:
Var[ x] = E[( x − E[ x]) ] = E[ x − 2 xE[ x] + ( E[ x]) ] =
2
2
2
= E[ x ] − 2( E[ x]) + ( E[ x]) = E[ x ] − ( E[ x])
2
2
2
2
2
Si definisce anche deviazione standard della popolazione (con che a questo punto chiameremo
l’altra deviazione standard campionaria) la sua radice quadrata:
σ [ x] = Var[ x]
che si indica con la lettera sigma.
Æ Tra i momenti successivi di particolare interesse sono il momento terzo intorno al valore atteso
detto skewness ed il momento quarto sempre intorno alla media, dal quale si ricava il cosiddetto
kurtosys. In particolare, a partire da skewness e kurtosys si definiscono i 2 coefficienti
rispettivamente di simmetria e di appiattimento :
58
Μ ( E[ x])
A =
( Μ ( E[ x]) )
(3)
s
(2)
3
Μ ( E[ x])
−3
A =
(Μ ( E[ x]))
(4)
a
(2)
2
Si noti che si tratta di coefficienti resi adimensionali nella definizione. In generale infatti il
momento n-esimo ha dimensioni [x]n e pertanto la media ha dimensioni [x] e la varianza ha
dimensioni [x]2.
Naturalmente le definizioni date, in particolare quelle di valore atteso e di varianza, si estendono a
combinazioni e funzioni di una o più variabili casuali. Vedremo nel seguito come si trattano questi
casi.
(2.5.6) Densità di probabilità di una funzione di variabile casuale
Se x é una variabile casuale (l’argomento vale anche per il caso discreto), una qualsiasi funzione di
x, y=y(x) risulta anch’essa una variabile casuale, nel senso che l’occorrenza di diversi valori di x
secondo le modalità della sua funzione di distribuzione, determina anche l’occorrenza dei valori di
y secondo le modalità di una funzione di distribuzione che dipenderà dalla distribuzione di x e dalla
funzione y(x). Senza entrare nei dettagli matematici vediamo come si ricava la densità di probabilità
di y, data quella di x e data la funzione y=y(x). Chiamiamo f(x) la densità di probabilità di x e g(y)
quella di y.
Supponiamo per semplicità che la funzione y(x) sia monotona nell’intervallo di definizione della
variabile x. In tal caso l’inversione della funzione, cioè il passaggio dalla y(x) alla x(y), avviene
senza difficoltà e la funzione x(y) é una funzione “monodroma” ovvero per ogni y vi é un solo x.
Data la relazione tra x ed y dovrà essere per ogni valore di x (che chiamiamo x ):
p ( x < x < x + dx) = p ( y ( x ) < y < y ( x + dx)) = p ( y ( x ) < y < y ( x ) + dy )
e dunque
f ( x ) dx = g ( y ) dy
da cui la relazione cercata:
g ( y) =
dx( y )
f ( x( y ))
dy
dove il modulo é stato inserito per assicurare la positività della nuova densità di probabilità cosi’
ottenuta. Si tratta pertanto di invertire la funzione y(x), di calcolare la derivata della x(y) e di
moltiplicarne il modulo per la funzione f(x) in cui al posto della x mettiamo esplicitamente la x(y).
La g(y) cosi’ ottenuta é anche automaticamente normalizzata
b
y (b)
a
y(a)
1 = ∫ f ( x)dx = ∫ g ( y )dy = 1
se risulta normalizzata la f(x) di partenza.
In Fig.2.5é illustrato graficamente il caso in cui da una variabile x uniforme tra 0 e 1, si passa ad
una y=αx2 . Il fatto che la y in questo caso non mantenga la stessa distribuzione della x uniforme é
comprensibile osservando che se considero i 2 intervalli [0,1/2] e [1/2,1] equiprobabili in x, questi
danno luogo a due intervalli di diversa grandezza in y ma che devono restare equiprobabili. Dunque
la y non può essere uniforme.
Le definizioni di valore atteso e varianza si estendono banalmente. Il valore atteso può essere
espresso nella forma:
y (b)
b
y(a)
a
E[ y ] = ∫ yg ( y )dy = ∫ y ( x) f ( x)dx
59
1
f(x)
y(x)
cioè può essere valutato sia integrando in y che in x.
0.9
0.8
0.7
2
1.8
1.6
1.4
1.2
1
0.8
0.6
0.4
0.2
0
0.6
0
0.25
0.5
0.75
1
x
0.5
g(y)
0.4
0.3
0.2
0.1
0
0
0.2
0.4
0.6
0.8
1
5
4.5
4
3.5
3
2.5
2
1.5
1
0.5
0
0
0.25
x
0.5
0.75
1
y
Fig.2.5 Passaggio da una variabile casuale x distribuita uniformemente (in alto a destra) ad una y ottenuta da questa
come y = x2 (vedi grafico a sinistra in cui sono mostrati intervalli di equiprobabilità in x che si trasformano in
intervalli di equiprobabilità in y). In basso a destra é mostrata la densità di probabilità della y g(y).
(2.5.7) La media e la deviazione standard come variabili casuali
Un caso molto particolare di funzione di variabile casuale che vogliamo introdurre a questo punto é
quello della media aritmetica x e del quadrato s2 della deviazione standard campionaria che
abbiamo già introdotto nel Cap.(1) e che ora vogliamo analizzare come “funzioni di variabili
casuali”.
Infatti se x é una variabile casuale di valore atteso E[x] e varianza Var[x]é interessante chiedersi
quali siano le proprietà di x e di s 2 ottenuti a partire da un campione di dimensione N della
variabile x. Per fare ciò premettiamo una proprietà fondamentale (di cui omettiamo la
dimostrazione). Data una combinazione lineare di variabili casuali
y = ∑a x
N
i =1
i
i
si hanno le seguenti proprietà di linearità per valore atteso e varianza:
E[ y ] = ∑ a E[ x ]
N
i
i =1
i
Var[ y ] = ∑ a Var[ x ]
N
2
i
i =1
i
che discendono dal fatto che i momenti sono operatori lineari.
Utilizzando queste espressioni calcoliamo ora il valore atteso e la varianza della media aritmetica.
N
E[ x] = E[
∑x
i =1
i
N
1
∑ E[ x ] = E[ x ]
N
]=
N
N
Var[ x] = Var[
∑x
i =1
N
i
i =1
i
]=
1
1
∑ Var[ x ] = Var[ x]
N
N
N
2
i =1
i
Il risultato ci dice che:
Æ il valore atteso della media é lo stesso della variabile: l’operazione di media non cambia valore
atteso, ovvero la media é un buon estimatore del valore atteso di x;
60
Æ la varianza della media é (1/N) volte la varianza della variabile: la media ha dunque una varianza
minore della variabile. Questo fatto giustifica l’uso di
s
N
per la deviazione standard della media, che abbiamo usato tante volte. Quindi la media aritmetica
risulta essere un estimatore “potente” perché al crescere del numero di misure diminuisce la sua
varianza. Si noti come questo risultato sia indipendente dalla densità di probabilità della x. Esso
costituisce pertanto un risultato di grande generalità.
Quanto ad s 2 , calcoliamo ora il suo valore atteso. Qui il calcolo é leggermente più complesso. Lo
svolgiamo esplicitando tutti i passaggi rilevanti.
E[ s ] = E[
2
1
1
E[ ∑ ( x − E[ x ] + E[ x ] − x ) ] =
∑ ( x − x) ] =
N −1
N −1
N
N
2
i
i =1
i =1
2
i
1
E[∑ ( x − E[ x ]) + ∑ ( E[ x ] − x ) + 2∑ ( x − E[ x])( E[ x ] − x )] =
N −1
1
=
E[∑ ( x − E[ x ]) + N ( E[ x ] − x ) + 2( E[ x ] − x )∑ ( x − E[ x])] =
N −1
1
=
E[∑ ( x − E[ x]) + N ( E[ x] − x) + 2( E[ x] − x) N ( x − E[ x])] =
N −1
1
=
E[∑ ( x − E[ x]) − N ( E[ x] − x) ] =
N −1
1
=
(∑ E[( x − E[ x]) ] − NE[( E[ x] − x) ])
N −1
1
1
NVar[ x]
=
( NVar[ x] −
)=
( N − 1)Var[ x] = Var[ x]
N −1
N
N −1
Dunque il valore atteso di s é pari a Var[x] come deve essere. Dunque il quadrato
=
N
i =1
i
2
N
2
2
2
2
2
i
i
i
N
i =1
i
i =1
N
i =1
i =1
i
N
i =1
N
2
i =1
N
i =1
N
2
2
2
i
2
della nostra
deviazione standard campionaria é un buon estimatore della varianza della popolazione.
Si noti che se avessimo adottato s 2 avremmo avuto un 1/N in luogo di un 1/(N-1) davanti a tutto e
N
dunque alla fine avremmo avuto
E[ s ] =
2
N
N −1
Var[ x]
N
cioè una stima “distorta” della varianza. Questo giustifica l’uso dell’N-1 a denominatore che
avevamo a suo tempo dato senza spiegazione chiara.
Infine é interessante vedere quanto vale la “varianza della varianza”. Il calcolo risulta complesso,
tuttavia il risultato é interessante:
2(Var[ x])
Var[ s ] =
N −1
2
2
(2.6) Variabili casuali notevoli.
Passiamo a considerare alcuni casi notevoli di variabili casuali, che si prestano alla descrizione di
vaste classi di fenomeni.
(2.6.1) Distribuzione uniforme
61
Si ha quando tutti i valori possibili della variabile hanno la stessa probabilità di essere ottenuti,
ovvero quando la probabilità di un intervallo é pari al rapporto tra la larghezza dell’intervallo e la
larghezza totale dell’intervallo di definizione della variabile. Detti rispettivamente N il numero di
valori possibili nel caso di variabile discreta ed [a,b] l’insieme di definizione della variabile
continua, si ha:
p ( n) =
1
N
f ( x) =
1
b−a
Si noti che non si possono avere variabili con distribuzioni uniformi tra -∞ e+∞ né discrete né
continue. La definizione di p(n) e di f(x) per variabili discrete e continue uniformi sono fatte in
modo tale che le variabili in questioni siano normalizzate. N oltreché b ed a sono i parametri.
Esempi di distribuzioni uniformi si hanno sia per le variabili discrete (tombola, lancio di 1 dado)
che per variabili continue (è il caso del display digitale dove immaginiamo una distribuzione
uniforme tra i 2 estremi dell’intervallo). E’ interessante calcolare valore atteso e varianza. Lo
facciamo per il caso di variabile continua. Per il calcolo della varianza é conveniente fare la
sostituzione t = x – E[x]
1
1
1 x
b −a
b+a
=
=
E[ x ] = ∫ x
dx =
∫ xdx =
2(b − a )
2
b−a
b−a
b−a 2
b
b
a
a
2 b
2
2
a
1
1
1 t
Var[ x] = ∫ ( x − E[ x])
dx =
∫ t dt =
b−a
b−a
b−a 3
b
b− E [ x ]
2
3
b−a
2
2
a−E [ x ]
a
(b − a )
(b − a )
=
=
12(b − a )
12
3
=
a −b
2
2
da cui si deducono i 2 importanti risultati:
Æ il valore atteso di variabile casuale avente una densità di probabilità uniforme é il centro
dell’intervallo;
Æ la varianza é invece pari all’ampiezza dell’intervallo al quadrato diviso 12 e la deviazione
standard della popolazione é ampiezza dell’intervallo / √12.
Quindi nel caso in cui la mia variabile abbia una distribuzione uniforme tra a e b posso stimare
valore medio e deviazione standard dando centro dell’intervallo ± ampiezza / √12.
Quale é il significato probabilistico di un intervallo dato in questo modo ? Possiamo calcolarlo nel
modo seguente:
p( E[ x] − σ [ x] < x < E[ x] + σ [ x]) =
=
E [ x ] +σ [ x ]
∫σ
E [ x ]− [ x ]
dx
=
b−a
2σ [ x]
2(b − a)
2
=
=
= 0.577
12 (b − a)
12
b−a
cioè si tratta del 57.7%. Tale valore può essere confrontato con il ~ 70% che avevamo trovato dai
dati della prima esercitazione. Tra poche lezioni capiremo il significato di quel valore. Per ora é
interessante notare che il contenuto di probabilità di un intervallo standard, dipende dalla forma
della distribuzione. Nel caso dell’esercitazione avevamo visto che moltiplicando per 3 l’intervallo
standard ottenevamo un intervallo di “quasi-certezza” (entro il quale stava il ~ 99% dei dati). In
questo caso per avere un intervallo di quasi-certezza basta ricorrere a ± semiampiezza che fornisce
un intervallo di “certezza”.
62
(2.6.2) La distribuzione binomiale
La distribuzione binomiale si applica ai cosiddetti processi di Bernoulli. Si tratta di quei processi
in cui 2 sono i possibili risultati incompatibili (0 o 1), che chiamiamo successo ed insuccesso
caratterizzati da probabilità diverse p(0)=p (1)=1-p (questo esprime l’incompatibilità dei 2 eventi).
Molti processi sono schematizzabili in questo modo. Dal punto di vista delle applicazioni alla fisica
(tralasciando dunque dadi e monetine) il caso più interessante é quello della misura dell’efficienza
di un rivelatore.
Consideriamo infatti un rivelatore di radiazione posto in prossimità di una sorgente di radiazioni.
Ad ogni passaggio della radiazione proveniente dalla sorgente, il rivelatore può dire Ok (se é
efficiente) o non dire nulla (se inefficiente). Il fenomeno é schematizzabile come un processo di
Bernoulli nel quale il successo si ha con l’Ok e l’insuccesso con il nulla.
Ora, supponiamo che il rivelatore sia stato attraversato da N radiazioni, e di volere sapere quanto é
la probabilità di avere avuto n volte Ok e N-n volte nulla. n costituisce dunque la variabile casuale
(discreta) di questo problema definita nell’intervallo 0<n<N, mentre il numero di prove N e la
probabilità del successo p sono i parametri che dipendono dalle caratteristiche del problema. In
particolare la probabilità di successo p é proprio l’efficienza del rivelatore.
Costruiamo la funzione di distribuzione di n usando le regole di combinazione della probabilità e le
regole del calcolo combinatorio.
Intanto osserviamo che ciascuna delle N prove costituisce una prova indipendente dalle altre, e
dunque la probabilità di avere n successi e N-n insuccessi sarà data dal prodotto delle probabilità:
p ( n) = ppp... p (1 − p )(1 − p )...(1 − p )
n volte
p(n) = p (1 − p)
n
N-n volte
N −n
Tuttavia tale probabilità caratterizza solo una data sequenza, cioè per esempio quella in cui i primi n
sono successi e i restanti N-n sono insuccessi. Invece a me non interessa la sequenza. Infatti sono
interessato a sapere la probabilità che escano n successi indipendentemente dal loro ordine. Tengo
conto di ciò moltiplicando la probabilità p(n) appena scritta per il numero di possibili sequenze di n
successi e N-n insuccessi. Si tratta evidentemente del numero di combinazioni di N elementi presi n
a n. Dunque avremo
p(n) = ( ) p (1 − p)
N
n
N −n
n
La formula trovata costituisce l’espressione della distribuzione binomiale. Questa dunque permette
di calcolare la probabilità di avere n successi su N prove quando la probabilità del successo della
singola prova é p.
Vediamo alcuni esempi. Nel caso del testa o croce la probabilità di avere n teste in N lanci é:
p (n) = ( )⎜⎛ 1 ⎞⎟
⎝2⎠
N
N
n
Si noti la forma della distribuzione in questo caso. Vi é un fattore indipendente da n (1/2)N che
costituisce la probabilità di una qualsiasi sequenza. Il coefficiente binomiale fornisce poi il numero
di sequenza che posso costruire con n successi. Quindi se faccio 10 lanci e confronto le due
sequenze
TTTTTTTTTT
TCTTTCCTCT
osservo che queste due sequenze sono esattamente equiprobabili p=(1/2)10. Invece se confronto i
due risultati
N=10, n=10
N=10, n=6
Il secondo ha una probabilità maggiore perché ad esso corrispondono molte più possibili sequenze:
63
10
p =(
10
p =(
10
1
2
10
)⎛⎜ 1 ⎞⎟ = 1 × 9.8 ⋅ 10 ≈ 0.1%
⎝2⎠
)⎜⎛ 1 ⎞⎟ = 210 × 9.8 ⋅10 ≈ 21%
⎝ 2⎠
−4
10
6
−4
Sono illustrati in Fig.2.6 e Fig.2.7 esempi di distribuzioni binomiali per diversi p a due fissati valori
di N ed in Fig.2.8 per diversi N ad un dato p. Si nota chiaramente lo spostamento del “picco” al
variare di p e il restringimento e la simmetrizzazione della distribuzione al crescere di N. La
distribuzione binomiale non é in generale simmetrica (lo é solo se N e p hanno valori particolari e in
condizioni limiti che vedremo) e dunque moda, media e mediana non sono coincidenti.
Fig.2.6. Esempi di distribuzione binomiale per N=10 e 5 diversi valori di p. Si noti come solo nel caso p=0.5 la
distribuzione sia simmetrica. Si noti inoltre che i casi 0.25 e 0.75 e i casi 0.1 e 0.9 presentano forme uguali ma
semplicemente “ribaltate”.
64
Fig.2.7 Come per la Fig.2.6 nel caso N=30
Fig.2.8 Esempi di distribuzioni binomiali a p fissato (p=0.2) e diversi N. Si noti al crescere di N la
simmetrizzazione e il restringimento della distribuzione.
È interessante il caso in cui p sia o molto prossimo a 0 o molto prossimo a 1 (è chiaro che le due
situazioni sono “simmetriche” dato che successo ed insuccesso sono evidentemente
intercambiabili). Infatti come si vede dalle Fig.2.6 e 2.7 le due distribuzioni sono “addossate” in un
65
caso a n=0 e nell’altro ad n=N. Nel limite pÆ0 o pÆ1 si ottengono evidentemente due distribuzioni
“banali” in cui p(n=0)=1 e p(n>0)=0 (ovvero p(n=N)=1 e p(n<N)=0 nel caso simmetrico).
Verifichiamo che la binomiale soddisfa la condizione di normalizzazione. A tale scopo ricordiamo
la formula del binomio di Newton, utile per il calcolo della potenza n-esima di un generico binomio
(a+b):
(a + b) = ∑ ( )a b
N
N
n =0
N
n
N −n
n
i cui coefficienti binomiali, possono essere calcolati usando la costruzione del cosiddetto triangolo
di Tartaglia.
Ora, applicando appunto il binomio di Newton, si ha:
N
∑
n=0
( ) p (1 − p) = ( p + 1 − p) = 1 = 1
N
N −n
n
N
N
n
Calcoliamo ora valore atteso e varianza della binomiale
N
N
E[n] = ∑ np (n) = ∑ n
n =0
( )p
n =0
N
n
n
(1 − p)
N −n
nN !
pp n −1 (1 − p) N − n =
n =1 n!( N − n)!
N
=∑
M
( N − 1)!
M!
p n −1 (1 − p) N −1−( n −1) = Np ∑
p k (1 − p ) M − k =
k = 0 k!( M − k )!
n =1 ( n − 1)!( N − n)!
N
= Np ∑
= Np
Nel secondo passaggio ho usato il fatto che nella sommatoria il termine con n=0 si annulla poiché
c’è un n a moltiplicare e dunque posso far partire da 1 la sommatoria, quindi ho messo a fattore
comune N e p e infine ho osservato che ponendo k=n-1 e M=N-1 ottenevo la condizione di
normalizzazione.
Per calcolare la varianza calcolo E[n2] :
N
N
E[n 2 ] = ∑ n 2 p (n) = ∑ n 2
n =0
n =0
( )p
N
n
nnN !
pp n −1 (1 − p ) N − n =
n =1 n!( N − n)!
N
n
(1 − p ) N − n = ∑
M
n( N − 1)!
(k + 1) M ! k
n −1
N −1− ( n −1)
= Np ∑
p (1 − p )
= Np ∑
p (1 − p ) M − k =
n =1 ( n − 1)!( N − n)!
k = 0 k!( M − k )!
N
M
M
k =0
k =0
= Np ∑ kp(k ) + Np ∑ p (k ) = NpE[k ] + Np = NMp 2 + Np = Np (1 + ( N − 1) p )
Quindi mettendo insieme il risultato per E[n] e per E[n2] si ottiene:
Var[ n] = E[ n ] − ( E[ n]) = Np (1 + ( N − 1) p ) − ( Np ) = Np − Np = Np (1 − p )
2
2
2
2
Ricapitolando per la distribuzione binomiale si ha:
E[n] = Np
Var[n] = Np (1 − p)
Quando la probabilità p assume valori molto piccoli o molto grandi (qui molto grandi vuol dire
prossimi a 1) la distribuzione perde la sua proprietà di simmetria e risulta addossata a 0 o a 1 come
mostrato in Fig.2.6 e 2.7.
(2.6.3) Il processo di Poisson: limite del processo di Bernoulli.
Il Processo di Poisson costituisce la schematizzazione statistica di una vastissima classe di
fenomeni. In particolare si possono schematizzare secondo il processo di Poisson la gran parte dei
fenomeni di conteggio. L’esempio più classico é quello del conteggio della radioattività. Ma sono
descrivibili in termini di fenomeni di Poisson tanti fenomeni della vita quotidiana. In generale tutte
66
le volte che conto degli eventi che si presentano in modo “casuale” cioè senza una struttura
temporale determinata, la distribuzione di Poisson permette di caratterizzarne le proprietà più
rilevanti.
Introduciamo il processo di Poisson in due modi diversi. Dapprima lo consideriamo come caso
limite del processo di Bernoulli, poi lo introdurremo in modo autonomo sulla base delle
caratteristiche del processo stesso.
Consideriamo dunque un processo di Bernoulli in cui facciamo crescere il numero di prove N e
facciamo diminuire la probabilità del singolo successo p. Facciamo ciò mantenendo però fisso il
prodotto Np che come sappiamo é il valore atteso della distribuzione binomiale. Cosa significa fare
questo limite ? In sostanza il limite corrisponde a considerare il caso in cui sono tantissimi gli
“oggetti” ai quali può accadere qualcosa (sono N) ma questa cosa che può accadere accade poco
probabilmente. Immaginiamo una situazione di questo genere. Abbiamo un campione di N atomi
ciascuno dei quali ha una probabilità p di dare luogo ad un decadimento radioattivo nell’intervallo
di tempo Δt. E’ chiaro che se si tratta di un campione macroscopico (~1020 atomi per fissare le idee)
e se il nuclide radioattivo ha una “vita media” di milioni di anni saremo in una situazione in cui Né
molto grande e p é molto piccola. Ma non solo, infatti N oltre ad essere molto grande é anche di
difficile determinazione ed in fondo quanto sia non interessa nemmeno tanto. Tuttavia in una
situazione del genere se io ho un contatore di radioattività, io conto un certo numero di decadimenti
nell’unità di tempo Δt e il valore medio di tale conteggio é qualcosa che posso misurare ed é dunque
quella la variabile che mi interessa. Passiamo ora esplicitamente al limite binomiale per NÆ
infinito p Æ 0. Chiamo λ=Np.
N!
p (1 − p)
lim
n!( N − n)!
n
N →∞ , p →0
N −n
N!
⎛λ⎞
= lim
⎜ ⎟
n!( N − n)! ⎝ N ⎠
N →∞ , p →0
(1 −
λ
n
⎛ λ⎞
⎜1 − ⎟
⎝ N⎠
N −n
=
)
N ( N − 1)( N − 2)...( N − n + 1) λ
N
=
lim
n!
N (1 − λ )
N
n
N →∞ , p →0
N
n
n
lim
N →∞ , p →0
(1 −
λ
)
N ( N − 1)( N − 2)...( N − n + 1) λ
N
N
n! (1 − λ )
N
n
N
n
n
Dopo aver riscritto la binomiale in questo modo e avendo introdotto λ, passo ad effettuare i limiti.
Intanto osservo che il fattore
λ
n
n!
non dipende da N e da p e dunque esce fuori dal limite e va messo a fattore comune. Il rapporto
N ( N − 1)( N − 2)...( N − n + 1)
N
n
non dipende da p ma da N. Per N Æ infinito va come Nn/Nn e pertanto tende a 1. Il fattore
(1 −
λ
N
)
n
dipende solo da N e tende anch’esso a 1 avendo l’unica dipendenza da N a denominatore. Resta
l’ultimo fattore per risolvere il quale facciamo ricorso al limite fondamentale (noto dall’analisi)
67
1
lim(1 + ) = e
x
x
x→∞
in cui e é il numero di Nepero (e=2.718...). Il limite a cui siamo interessati é riconducibile al limite
fondamentale di cui sopra, facendo la sostituzione 1/x=-λ/N :
⎛ ⎛ 1⎞
⎛ λ⎞
⎛ 1⎞
lim⎜1 − ⎟ = lim⎜1 + ⎟ = ⎜⎜ lim⎜1 + ⎟
⎝ N⎠
⎝ x⎠
⎝ ⎝ x⎠
−λx
N
N →∞
x →∞
x →∞
x
−λ
⎞
⎟⎟ = e
⎠
−λ
In conclusione abbiamo ottenuto la funzione di distribuzione di Poisson:
p ( n) =
λe
n
−λ
n!
Si tratta della funzione di distribuzione della variabile casuale discreta n definita per valori tra 0 e ∞
ed avente come unico parametro λ. Si può dimostrare che la funzione cosi’ definita é normalizzata.
In Fig.2.9é mostrato il grafico della poissoniana per diversi valori di λ. Si noti che si tratta di una
funzione in generale non simmetrica, ma che tende a simmetrizzarsi nel limite di grandi λ.
Fig.2.9. Esempi di distribuzioni di Poisson per diversi valori di λ.
Il significato di λ risulta evidente quando calcoliamo il valore atteso e la varianza di n. Calcoliamo
E[n] ed E[n2]:
∞
λe
n
−λ
∞
= λ∑
λ e
n −1
−λ
=λ
(n − 1)!
λe
λ e
λe
= λ∑ n
= λ ∑ (k + 1)
= λ (λ + 1)
E[ n ] = ∑ n
(n − 1)!
n!
k!
E[ n ] = ∑ n
n!
n=0
2
∞
n =0
n
2
n =1
−λ
∞
n =1
n −1
−λ
∞
k
−λ
k =0
68
in cui come in altre circostanze abbiamo spostato la somma da n=0 a n=1 e abbiamo osservato che
la sommatoria rimasta fattorizzata é uguale a 1 in virtù della proprietà di normalizzazione.
Otteniamo dunque per la varianza:
Var[n] = E[n ] − ( E[n]) = λ (λ + 1) − λ = λ
2
2
2
Pertanto la distribuzione di Poisson ha λ sia come valore atteso che come varianza. Si tratta di un
fatto di estrema importanza. Una popolazione poissoniana é dunque caratterizzata da una
deviazione standard pari a
σ [n] = λ
In altre parole se effettuo un conteggio schematizzabile come poissoniano e trovo in media un certo
valore λ il risultato del conteggio é caratterizzato da una fluttuazione pari a √λ.
Si noti che il parametro λ non é necessariamente un numero intero. Infatti il numero medio di
conteggi nel tempo può anche essere un numero frazionario. E’ invece un numero intero la variabile
casuale n che può assumere tutti gli interi da 0 a ∞.
(2.6.4) Il processo di Poisson: definizione generale.
Non sempre il processo di Poisson si può schematizzare a partire da una binomiale. Se per esempio
conto quante macchine passano sotto casa mia tutti i giorni feriali tra le 8 e le 9, non so bene come
schematizzare questo processo in termini di N e di p. O anche se contiamo il numero di studenti che
ogni anno si immatricolano al corso di laurea in fisica all’Università “La Sapienza”, é altrettanto
difficile stabilire chi é p e chi é N. Ma nonostante ciò conto in media un certo valore che sarà
caratterizzato da certe fluttuazioni. Allora possiamo definire in modo più generale come processo di
Poisson un processo di conteggio che abbia alcune proprietà ben definite che ora vediamo di
specificare.
Si immagini a questo scopo di contare il numero di volte in cui si verifica un certo evento (di
qualsiasi tipo purché ben definito) in un intervallo di tempo finito Δt; e si immagini di suddividere
tale intervallo in intervallini di tempo δt “sufficientemente piccoli”. Il processo é poissoniano se
posso trovare una dimensione di intervallino δt per cui valgono le seguenti proprietà:
(a) la probabilità di avere un unico conteggio in un tempo δt é proporzionale a δt;
(b) la probabilità di avere più di un conteggio in un tempo δt é << della probabilità di avere un
solo conteggio nello stesso δt;
(c) il numero di conteggi che osservo in δt é indipendente dal numero di conteggi che osservo in un
altro intervallo da questo disgiunto.
Le proprietà viste sono prese nel “dominio del tempo” cioè ho immaginato di contare in intervallini
δt, ma in realtà possono essere anche date in un altro dominio (per esempio dello spazio se conto il
numero di auto lungo 1 km di autostrada ad un certo tempo, o il numero di molecole entro volumetti
di un certo gas).
Riflettiamo sul significato della definizione data, cercando di capire quando un fenomeno di
conteggio sia da considerare poissoniano o no. Le proprietà (a) e (b) in sostanza indicano che non
sono poissoniani quei processi in cui “arrivano improvvisamente tanti eventi insieme”. Gli eventi
devono verificarsi senza strutture temporali precise. Per esempio non sono poissoniani quegli eventi
che si manifestano “a gruppi” in cui cioè il singolo evento non é indipendente dagli altri. La
proprietà (c) ci dice invece che non sono poissoniani quei processi in cui il verificarsi dell’evento
avviene con regolarità (processi periodici). In effetti se conto il numero di battiti cardiaci in 1/2
secondo, se osservo 0 una volta é molto probabile che la volta dopo osservi 1 e quindi la proprietà
(c) cade. Quando gli eventi si presentano in modi “correlati” la poissoniana non li descrive
adeguatamente. La poissoniana va bene per quegli eventi che si presentano nel modo più casuale
possibile.
69
Per tali processi dunque la funzione di distribuzione del numero di conteggi sarà data dalla p(n)
sopra vista ed un solo parametro λ basta a descrivere il processo. λ determina in sostanza quanto
frequentemente gli eventi si presentano in media e la sua radice quadrata indica quanto quel
conteggio medio fluttua. Il valore di λ dipende tuttavia dall’intervallo di tempo Δt nel quale conto.
Se in un certo intervallo Δt = 1 s conto in media λ = r, in un intervallo generico Δt conterò λ = r Δt.
La quantità r ( conteggi al s ) é dunque indipendente dall’intervallo scelto e costituisce la misura
della velocità di conteggio ( rate in inglese ) del fenomeno. Noto r, il λ di qualsiasi intervallo si
ricava da λ = r Δt.
È interessante vedere cosa ci aspettiamo per la distribuzione dei tempi di attesa tra un conteggio ed
il successivo nel caso di un processo di Poisson.
Calcoliamo la probabilità che, a partire da un certo tempo iniziale arbitrario, dopo un tempo T non
sia ancora avvenuto alcun conteggio. A tale scopo immaginiamo di dividere il tempo T in N
intervallini δT = T / N, ciascuno caratterizzato da una probabilità di successo (ovvero di conteggio)
p. Dalla definizione del processo di Poisson so che se δT é sufficientemente piccolo p é
proporzionale a δT , p = α δT . Ci siamo ricondotti in questo modo ad un processo di Bernoulli di N
prove indipendenti ciascuna con probabilità di successo data da α δT. La probabilità di dover
attendere un tempo t >T per avere un conteggio sarà (applico la distribuzione binomiale per il caso
n=0):
p(t > T ) = (1 − p)
N
Se facciamo il limite N Æ ∞ otteniamo:
lim(1 − αδT ) = lim(1 −
N
N →∞
N →∞
αT
N
) =e
N
−αT
in cui di nuovo abbiamo usato il limite fondamentale cui abbiamo già fatto ricorso sopra.
Da ciò ricavo la probabilità che il conteggio sia avvenuto per un tempo di attesa t compreso tra 0 e
T
F (T ) = p (0 < t < T ) = 1 − p (t > T ) = 1 − e
− αT
che costituisce la cumulativa della densità di probabilità della variabile casuale t = tempo di attesa
per avere un conteggio. Pertanto la densità di probabilità cercata é:
f (t ) =
dF (t )
= αe −αt
dt
che costituisce la densità cercata, correttamente normalizzata. L’unico parametro da cui tale densità
di probabilità dipende é α. Si tratta di una probabilità di conteggio per unità di tempo, e ha le
dimensioni dell’inverso di un tempo. Per comprenderne il significato, torniamo allo schema
binomiale delle N prove nel tempo T. Sappiamo che:
λ = lim Np = lim Nαδt = lim NαT / N = αT
N →∞
N →∞
N →∞
da cui deduciamo che α si identifica con la velocità di conteggio r che abbiamo sopra definito. Tale
identificazione discende dal fatto che quando λ << 1, λ si identifica con la probabilità di avere un
conteggio nell’intervallo, come si vede dalla forma stessa della poissoniana:
P(1) = λe −λ → λ
quando λ << 1.
Infine notiamo che l’inverso di r, τ = 1 / r é detto costante di tempo. Si dimostra che
E[t ] = τ
cioè τ ha il significato di tempo di attesa medio. Fig.2.10 mostra un esempio di distribuzione di
tempi d’attesa.
70
f(t) (1/s)
f(t) (1/s)
5
4.5
4
1
3.5
3
2.5
10
2
-1
1.5
1
10
0.5
0
0
0.5
1
1.5
2
2.5
t (s)
-2
0
0.5
1
1.5
2
2.5
t (s)
Fig.2.10 Esempi di densità di probabilità esponenziali negative di tempi d’attesa di Poissoniane in scala lineare (a
sinistra) e semilogaritmica (a destra). Le 3 curve si riferiscono a valori di τ pari a 1 s , 0.5 s e 0.2 s. Individuare le 3
curve.
(2.6.5) La distribuzione di Gauss
Possiamo costruire ed inventare tutte le variabili casuali che vogliamo ciascuna con la sua funzione
di distribuzione per descrivere un certo fenomeno. Esiste tuttavia una distribuzione che assume un
ruolo particolare nelle applicazioni scientifiche in genere tanto da essere chiamata la distribuzione
normale. Essa fu introdotta per primo da Karl Frederich Gauss ed é pertanto nota come
distribuzione di Gauss e una qualsiasi variabile che segue una tale distribuzione é detta variabile
gaussiana.
Tale distribuzione fu introdotta da Gauss quando questi, a partire da osservazioni astronomiche,
vide che le modalità con cui le misure “fluttuavano”, erano ben descritte da un andamento del tipo:
~e
−( x − μ )2
in cui x é appunto il valore della misura che fluttua rispetto al “valore medio” μ.Tale funzione
presenta il ben noto andamento a “campana” illustrato in figura Fig.2.11. Si tratta cioè di una
funzione simmetrica intorno a μ e caratterizzata da un picco ben definito che si trova in
corrispondenza del valore di μ e da delle code che si estendono fino a – e a + ∞. La coincidenza di
picco e media indica che moda mediana e media sono coincidenti per questo tipo di distribuzione e
pari a μ.
71
Fig.2.11 Esempi di funzioni di distribuzione di Gauss per 3 scelte dei parametri μ e σ.
Per dare alla funzione di Gauss il significato di densità di probabilità di una variabile casuale x
qualsiasi occorre:
Æ rendere adimensionale l’esponente;
Æ rendere la funzione normalizzata (cioè ad integrale 1 tra – e + ∞).
A tale scopo introduciamo un secondo parametro che chiamiamo σ avente le stesse dimensioni di x
e scriviamo la funzione nella forma più generale:
1
f ( x) =
e
2π σ
−
( x − μ )2
2σ 2
che risulta correttamente normalizzata ad 1 (omettiamo la dimostrazione). Si tratta dunque di una
variabile casuale continua definita tra – e + ∞ caratterizzata dai 2 parametri μ e σ . I due parametri
cosi’ definiti risultano essere (anche in questo caso omettiamo la dimostrazione) rispettivamente il
valore atteso e la deviazione standard della variabile x
E[ x ] = μ
Var[ x ] = σ
2
Come già detto il massimo della funzione coincide con μ come si vede ponendo a 0 la derivata
prima. Ponendo a zero la derivata seconda si ottengono invece i due flessi in corrispondenza di
μ ± σ . Ciò fa vedere che il significato della deviazione standard é la distanza tra il massimo e i 2
flessi. Per avere una idea “grafica” della σ di una gaussiana basta osservare che la “larghezza a
metà altezza” (FWHM = full width at half maximum) é pari a 2.36 σ . Ciò fornisce un metodo
rapido per la valutazione della larghezza di una gaussiana.
La distribuzione di Gauss non ha una primitiva esprimibile analiticamente, pertanto i valori della
funzione cumulativa (che sono poi quelli che servono ai fini della valutazione delle probabilità)
sono in genere forniti sotto forma di tabelle. Naturalmente non é opportuno avere una diversa
tabella per ogni coppia di valori μ e σ. A tale scopo si introduce la variabile gaussiana
standardizzata o semplicemente normale cosi’ definita:
72
m=
x−μ
σ
Si tratta di una variabile adimensionale che ha una funzione di distribuzione data da:
1
f ( m) =
e
2π
−
m2
2
e che corrisponde ad una variabile gaussiana con valore atteso 0 e varianza 1. La forma della densità
di probabilità per la variabile gaussiana standardizzata, si ottiene semplicemente applicando le
considerazioni di (2.6.4) dove m é la y e dunque |dx/dm|=σ che cancella la σ a denominatore nella
f(x). Le tabelle forniscono in genere i valori relativamente alla variabile m della seguente quantità:
a
P(a) = ∫ f (m)dm
−∞
che risulta essere una funzione di a. Dati i valori in tabella possono poi essere valutati tutti i
possibili intervalli di probabilità. Se infatti si vuole determinare la probabilità che il valore cada tra
a e b, si avrà:
P ( a < m < b ) = P (b ) − P ( a )
Per passare da un intervallo relativo alla variabile standardizzata m all’intervallo corrispondente per
la variabile x, basterà usare la trasformazione inversa. Quindi se per esempio data una distribuzione
di Gauss di valore atteso μ e varianza σ2 voglio conoscere il contenuto di probabilità dell’intervallo
compreso tra i due valori di x x1 ed x2 dovrò procedere nel modo seguente: calcolare gli estremi
nella variabile m corrispondenti a x1 e x2 (diciamo m1 ed m2) quindi calcolare F(m2)-F(m1) usando
le tavole della variabile standardizzata. Si noti che usualmente le tabelle contengono solo i valori di
F(a) per a positivi. Tuttavia, data la simmetria della distribuzione di Gauss si avrà:
P (− a ) = 1 − P (a )
Di particolare interesse sono i contenuti di probabilità dei 3 intervalli μ±σ , μ± 2σ e μ± 3σ. Si
ottengono i valori:
P ( μ − σ < x < μ + σ ) = P ( −1 < m < 1) = 68.3%
P ( μ − 2σ < x < μ + 2σ ) = P( −2 < m < 2) = 95.5%
P ( μ − 3σ < x < μ + 3σ ) = P (−3 < m < 3) = 99.7%
si tratta dei valori che abbiamo trovato per via “empirica” a partire dai dati “simulati” della prima
esercitazione. In effetti in quel caso le sequenze di 51 valori erano state ottenute estraendo da
distribuzioni gaussiane con μ e σ diverse. Troviamo dunque che i contenuti di probabilità di
intervalli di ampiezza proporzionale a σ rispetto a μ non dipendono dai parametri ma sono
“universali”. Dato lo straordinario valore della distribuzione di Gauss nell’ambito della descrizione
degli errori di misura, questi numeri devono essere tenuti in considerazione.
73
Tabella della gaussiana standardizzata. Per valori positivi di z, sono tabulate le
P(z)=P(-∞<m<z). Si ricordi che per ricavare P(-z) basta fare 1-P(z).
(2.6.6) Distribuzioni di variabili casuali derivate dalla distribuzione di Gauss.
Introduciamo a questo punto alcune ulteriori variabili casuali derivate dalla gaussiana che svolgono
un ruolo di grande importanza nei problemi di inferenza. In generale l’importanza delle variabili
casuali derivate dalla gaussiana si basa sull’importanza della distribuzione di Gauss che verrà
precisata in modo più chiara nel prossimo capitolo.
Æ Variabile χ2
Consideriamo N variabili gaussiane x1,x2,...,xN e per ciascuna di esse costruiamo la variabile
standardizzata corrispondente: m1,m2,...,mN. La somma dei quadrati di queste N variabili gaussiane
standardizzate,
χ = ∑m
2
N
k =1
2
k
costituisce una variabile casuale definita positiva (cioè definita nell’intervallo 0,+∞) di funzione di
distribuzione nota. Si tratta della variabile detta appunto χ2 (si legge del chi quadro).
74
La funzione di distribuzione di una variabile χ2é caratterizzata da un unico parametro dato dal
numero N di variabili gaussiane standardizzate incluse nella somma. Tale valore é detto numero di
gradi di libertà e si indica in genere con il simbolo ν. La funzione di distribuzione é la seguente:
f (χ ) =
1
2
ν
2 Γ(ν / 2)
( )
2
(χ ) e
2
ν −1
2
−
χ2
2
Nella formula abbiamo introdotto la funzione Γ detta di Eulero definita come:
∞
Γ(t ) = ∫ e x dx
−x
t −1
0
che costituisce una generalizzazione del fattoriale al campo reale.
Il valore atteso e la varianza della variabile χ2 dipendono dal numero di gradi di libertà secondo le:
E[ χ ] = ν
2
Var[ χ ] = 2ν
2
La funzione di distribuzione della variabile χ2é mostrata in Fig.2.12 per alcuni valori del parametro
ν.
Fig.2.12 Funzione di distribuzione della variabile χ2 per 3 diversi valori dell’unico parametro ν.
L’importanza della variabile χ2 deriva dal fatto che la variabile
N
∑
i =1
( x − x)
2
i
σ
2
è anch’essa una variabile χ2 con parametro ν=N-1 gradi di libertà. Si noti che a differenza della
definizione della variabile χ2 data sopra, in questo caso non siamo di fronte ad una somma di
variabili normali standardizzate, ma ad una somma di scarti quadratici dalla media campionaria,
divisa per la varianza. Il fatto che il numero di gradi di libertà sia ridotto di una unità corrisponde al
75
fatto intuitivo, che la media é una funzione delle N variabili in gioco e dunque l’uso della media
riduce di una unità il grado di libertà complessivo della variabile.
In ogni caso l’osservazione fatta permette di caratterizzare la funzione di distribuzione della
varianza campionaria della quale abbiamo già stabilito valore atteso e varianza. Infatti se considero
la variabile
( N − 1)
s
2
σ
2
questa é evidentemente una variabile χ2 con N-1 gradi di libertà , e dunque la variabile s2é a meno di
una costante (N-1)/σ2 descritta da una variabile χ2. Ritroviamo allora i risultati già visti per valore
atteso e varianza:
σ
E[ s ] =
2
2
E[ χ ] =
σ
2
N −1
σ
N −1
2
N −1
( N − 1) = σ
2σ
2( N − 1) =
Var[ s ] =
Var[ χ ] =
( N − 1)
( N − 1)
( N − 1)
2
σ
2
4
2
N −1
2
4
4
2
Æ Variabile t-Student
Un’altra variabile derivata dalla gaussiana e di particolare interesse perché di funzione di
distribuzione nota é la cosiddetta variabile t di Student. Supponiamo di nuovo di avere una variabile
normale standardizzata m e di avere costruito una variabile χ2 a partire da un insieme di variabili
normali standardizzate con ν gradi di libertà. Se consideriamo la variabile
t=
m
χ
2
ν
questa é caratterizzata dalla seguente funzione di distribuzione (anche in questo caso νé l’unico
parametro con lo stesso significato per il caso della variabile χ2):
ν +1
Γ(
)
⎛ t ⎞
2
f (t ) =
⎜1 + ⎟
πν Γ(ν 2 ) ⎝ ν ⎠
2
− (ν +1 )
2
in cui di nuovo si fa uso della funzione Γ di Eulero. La variabile t é definita in tutto l’asse reale tra –
e +∞ e la sua funzione di distribuzione é simmetrica intorno all’origine come mostrato in Fig.2.13.
Si tratta di una funzione di distribuzione in molto assomigliante alla distribuzione di Gauss. La
differenza sta nel fatto che le code risultano più estese. Valore atteso e varianza della variabile t di
Student sono:
E[t ] = 0
Var[t ] =
ν
ν −2
definita quest’ultima evidentemente solo per ν >2 (al di sotto di 2 l’integrale della varianza
diverge).
76
Fig.2.13 Distribuzione della variabile t di Student per 4 diversi valori dell’unico parametro ν. Al crescere di ν la
distribuzione si restringe e si alza.
La variabile t rappresenta lo scarto di una misura da un valore atteso, relativamente “ad uno scarto
medio” dato dal χ2 a denominatore. La rilevanza di questa variabile nasce dal fatto che può essere
applicata alle proprietà della media aritmetica. Infatti la variabile
(x − μ)
s
N
è una variabile t in base alle considerazioni fatte sopra a proposito della variabile χ2. Infatti la posso
scrivere come:
(x − μ)
(x − μ) σ
=
σ
s
N
2
2
σ
N
χ
2
=t
N −1
N −1
N −1
Dunque gli scarti della media aritmetica dal valore atteso gaussiano corrispondente sono descritti da
una variabile t con N-1 gradi di libertà. Questo ci fa capire che l’uso di un intervallo di ampiezza 3s
/ √N per l’incertezza sulla stima del valore vero basato sulla media aritmetica, ha un significato
gaussiano solo quando Né sufficientemente grande. Torneremo su questo punto nel terzo capitolo.
(2.7) Proprietà notevoli delle variabili casuali
77
(2.7.1) Contenuto di probabilità di intervalli di variabili casuali.
Dall’analisi degli esempi di variabili casuali visti finora, desumiamo che i contenuti di probabilità
che associamo ad un intervallo costruito come “valore atteso±deviazione standard” non é uguale per
tutte le distribuzioni, ma dipende dalla forma della distribuzione. Abbiamo visto per esempio che
nel caso della distribuzione di Gauss tale valore é prossimo al 68% mentre nel caso della
distribuzione uniforme é di circa il 58%. Valori ancora diversi si ottengono per la distribuzione
triangolare (il 65%) e per altre distribuzioni ancora. Per quanto riguarda le distribuzioni binomiali e
poissoniane tale numero non é ben definito, perché dipende dai valori dei parametri. Oltre a ciò
anche la moltiplicazione per 2 o per 3 della dimensione dell’intervallo dà luogo a risultati aventi
contenuti probabilistici diversi. Tuttavia in tale apparentemente confusa situazione si possono
riscontrare alcune regolarità. Enunciamo a tale scopo la disuguaglianza di Chebychev (di cui
omettiamo la dimostrazione):
P( x − E[ x] > kσ [ x]) <
1
k
2
La probabilità che la variabile scarti dal valore atteso per più di k deviazioni standard limitata
superiormente da 1/k2.
Questa disuguaglianza non é di grande interesse pratico. Ci dice infatti per k=1 che la probabilità
che la variabile scarti più di una deviazione standard é <1 (bella scoperta verrebbe da dire !) per k=2
ci dice che la probabilità che la variabile scarti dal valore atteso più di 2 sigma é < 25% e per k=3
minore del 11% e cosi’ via. Vediamo che i 3 numeri in questione per il caso della gaussiana
rispettano ampiamente la disuguaglianza, infatti sono 32% 5% e 0.3%. Nel caso della uniforme i 3
numeri sono 42% 0% e 0%. Tuttavia il significato concettuale di tale disuguaglianza é
estremamente importante. Ci dice infatti che una variabile casuale, qualunque sia la forma della sua
distribuzione, é sostanzialmente contenuta entro poche deviazioni standard. Quindi un intervallo di
quelli che noi abbiamo chiamato di “quasi-certezza” cioè pari a 3 deviazioni standard e che nel caso
della gaussiana corrisponde ad una certezza a meno dello 0.4% nel caso di distribuzione qualsiasi é
una certezza a meno di meno del 11%.
(2.7.2) Il teorema del limite centrale
Nell’introdurre la distribuzione di Gauss abbiamo accennato al fatto che tale distribuzione fu
introdotta da Gauss come descrizione degli scarti dal valor medio di un certo campione di misure.
L’osservazione di Gauss é solo il primo esempio di un tipo di osservazione che quotidianamente i
fisici fanno nei loro laboratori, e che anche voi avete (anche se ancora in modo embrionale) fatto
nelle vostre prime esperienze di laboratorio. L’osservazione é la seguente: la distribuzione
(istogramma) di misure ripetute in condizioni di ripetibilità normalmente ha una forma a campana
ben approssimata da una distribuzione di Gauss. Questo fatto “empirico” ha in realtà una sua
giustificazione teorica attraverso il teorema del limite centrale, che costituisce forse il più rilevante
risultato della teoria delle distribuzioni di variabili causali. Enunciamo il teorema:
date N variabili casuali x1, x2, ... , xN di distribuzione qualsiasi purché caratterizzate da valori attesi
finiti e inoltre di varianze finite e tutte “dello stesso ordine di grandezza”; una qualsiasi
combinazione lineare y di tali variabili,
y = ∑a x
N
k =1
k
k
tende, al crescere di N, ad una distribuzione gaussiana di parametri
μ = ∑ a E[ x ]
N
k =1
k
k
σ = ∑ a (Var[ x ])
2
N
k =1
2
k
2
k
78
L’importanza di tale teorema é evidente. In tutti quei casi infatti in cui una misura é caratterizzata
da un certo numero di cause di fluttuazione indipendenti, il valore della misura può essere pensato
come la somma di tali fluttuazioni. Il teorema del limite centrale ci dice che in tal caso il risultato
della misura costituisce una variabile con fluttuazioni di tipo gaussiano, cioè una variabile
gaussiana. La generalità di questo teorema é dovuta al fatto che nel caso degli errori di misura ci si
trova quasi sempre in condizioni di questo tipo, cioè nella situazione in cui cause diverse di errore si
sommano per dare la fluttuazione complessiva. Si noti l’importanza della condizione “varianze tutte
finite e dello stesso ordine di grandezza”. Se infatti tra le cause di fluttuazione ce ne fosse una
preponderante di tipo non gaussiano, allora questa dominerebbe le fluttuazioni della misura che
dunque avrebbe quella forma.
La Fig.2.14 illustra con un esempio simulato il teorema del limite centrale. Inoltre la Fig.2.15
mostra un caso in cui pur sommando tante variabili, se ce n’è una con varianza molto più grande
delle altre, la forma di questa continua a determinare la forma della distribuzione complessiva che
dunque non diventa gaussiana.
Il teorema del limite centrale sancisce l’importanza della distribuzione di Gauss come migliore
approssimazione degli istogrammi dei dati in condizioni di errori casuali.
Fig.2.14 Distribuzione della somma di n=1,2,4,6,8,10 variabili casuali tutte estratte da distribuzioni uniformi tra
0 e 1 (di valore atteso 0.5 e varianza 1/12). A partire dal caso n=4 ad ogni distribuzione é sovrapposta una
distribuzione di Gauss per mostrare il buon accordo. Nel caso n=10 la distribuzione di Gauss “corrispondente” ha
valore atteso 5.0 e deviazione standard 0.91 in accordo con il teorema del limite centrale.
79
Fig.2.15 Distribuzione della somma di n=1,2,4,6,8,10 variabili casuali tutte con distribuzione uniforme tra 0 e 1
eccetto la prima che ha una distribuzione sempre uniforme ma tra 0 e 10. Si noti come non venga raggiunto in
questo caso il limite gaussiano con la somma di n=10 variabili. Resta il “ricordo” della variabile con varianza di un
ordine di grandezza più grande delle altre.
Una importante conseguenza del teorema del limite centrale riguarda la media aritmetica di un
campione di N misure. Questa é infatti una combinazione lineare di N variabili casuali tutte aventi
la stessa distribuzione e dunque stesso valore atteso e stessa varianza. Qualunque sia la
distribuzione di x, la distribuzione di x é dunque normale, e lo é tanto più quanto più grande é N.
(2.7.3) Limite gaussiano
Da ultimo osserviamo che tra tutte le distribuzioni viste, molte dipendono da uno o più parametri
aventi il significato di numero di misure. E’ il caso della binomiale (il numero di prove N) e della
poissoniana (il parametro λ) ma anche delle 2 variabili derivate dalla gaussiana χ2 e t che dipendono
dall’unico parametro ν . Tutte queste variabili godono della seguente importantissima proprietà
limite: esse tendono ad una distribuzione di Gauss quando il numero di misure (nel senso appena
detto) diventa sufficientemente grande. Non procediamo alla dimostrazione di questo teorema ma ci
limitiamo ad illustrarlo graficamente confrontando per le citate distribuzioni, la distribuzione stesso
con la gaussiana corrispondente al crescere del numero di misure. Occorre fare attenzione al caso
della binomiale in cui oltre ad N compare il parametro p. Affinché il limite gaussiano sia raggiunto
occorre in quel caso non solo un alto valore di N ma anche un valore di p “sufficientemente
lontano” dagli estremi 0 e 1.
Le fig. 2.16 e 2.17 illustrano il limite gaussiano per il caso della distribuzione poissoniana e per il
caso di quella di t di Student rispettivamente. In tutti i grafici mostrati, la distribuzione viene
confrontata con una gaussiana corrispondente, cioè con una gaussiana avente stesso valore atteso e
stessa varianza.
Tale proprietà limite risulta di straordinaria importanza. Per esempio nel caso di conteggi
“poissoniani” questo implica che posso dare intervalli di probabilità al 68% al 95% e al 99.7%
esattamente come per il caso gaussiano se il numero medio di conteggi é di almeno 20-30. Nel caso
della t di Student significa che le fluttuazioni della media dal valore atteso in unità di deviazioni
standard campionarie della media, sono gaussiane nel limite di elevato numero di misure.
80
Fig.2.16 Stessi esempi di distribuzioni di Poisson della Fig.2.9 per valori del parametro λ da 0.2 a 50.0. Ad ogni
distribuzione é sovrapposta una gaussiana di parametri μ=λ e σ=√λ.
Fig.2.17 Stessi esempi di variabili t di Student vista in Fig.2.13 per valori del parametro ν tra 3 e 50. Ogni
distribuzione é confrontata con una gaussiana di parametri μ=0 e σ=√ν/(ν−2).
(2.8) Variabili casuali multiple.
(2.8.1) Impostazione del problema
81
In (1.6) abbiamo accennato al fatto che in molte circostanze un fenomeno deve essere trattato
considerando più di una variabile casuale. A tal fine occorre utilizzare un formalismo che consenta
di caratterizzare la densità di probabilità di più variabili casuali.
(2.8.2.) Probabilità congiunta e covarianza
Per trattare correttamente i casi in cui siano in gioco più grandezze misurate simultaneamente ed
eventualmente caratterizzate da errori correlati é utile utilizzare il formalismo delle funzioni di più
variabili casuali. Formalizziamo il problema limitandoci per semplicità al caso in cui si abbiano 2
variabili casuali x1 ed x2 ed una terza, y, legata a queste tramite la relazione y=y(x1,x2).
Nel caso di una singola variabile casuale, abbiamo definito la densità di probabilità f(x). Nel caso in
cui sono in gioco 2 variabili casuali, possiamo ancora definire una densità di probabilità per le due
variabili f(x1,x2) detta probabilità congiunta o densità di probabilità congiunta. Si tratta di una
funzione di due variabili casuali che contiene sia le informazioni sulla densità di probabilità
dell’una e dell’altra, che le informazioni sul grado di correlazione tra le due. E’ la funzione che
descrive la popolazione delle due grandezze.
La condizione di normalizzazione é espressa nel modo seguente:
b1 b 2
∫ ∫ f ( x , x )dx dx = 1
1
a1 a 2
2
1
2
in cui ho chiamato rispettivamente a1 e b1 gli estremi della variabile 1 e a2 e b2 quelli della
variabile 2. Per imporre la condizione di normalizzazione sono dovuto evidentemente ricorrere ad
un integrale doppio sulle due variabili. La doppia integrazione corrisponde alla successione di due
integrazioni semplici. Immaginando la funzione f(x1,x2) come l’equazione di una superficie nello
spazio, l’integrale doppio é il calcolo del volume sottostante la superficie.
Se invece integriamo solo in una delle due variabili (lasciando cioè l’altra come parametro da cui
dipende il risultato):
b2
f ( x ) = ∫ f ( x , x )dx
1
1
a2
1
2
2
otteniamo una funzione solo dell’altra variabile, corrispondente alla densità di probabilità di x1. Si
noti che quest’ultima operazione corrisponde al passare dal grafico bidimensionale a quello
monodimensionale (all’istogramma vedi Fig.1.10 e 1.11 nel primo capitolo), cioè si tratta di fare
una proiezione sull’asse x1.
Si estendono in modo naturale le definizioni dei momenti ed in particolare di valore atteso e
varianza:
b1
E[ x1 ] = ∫ x1 f1 ( x1 )dx1 =
a1
b2
b 2 b1
∫∫
x1 f ( x1 , x2 )dx1dx2
a 2 a1
b1 b 2
E[ x2 ] = ∫ x2 f 2 ( x2 )dx2 = ∫ ∫ x2 f ( x1 , x2 )dxdx21
a2
a1 a 2
b1
Var[ x1 ] = ∫ ( x1 − E[ x1 ]) 2 f1 ( x1 )dx1 =
a1
b 2 b1
∫∫
( x1 − E[ x1 ]) 2 f ( x1 , x2 )dx2 dx1
a 2 a1
b2
b1 b 2
a2
a1 a 2
Var[ x2 ] = ∫ ( x2 − E[ x2 ]) 2 f 2 ( x2 )dx2 = ∫ ∫ ( x2 − E[ x2 ]) 2 f ( x1 , x2 )dx1 dx2
in cui compaiono integrali doppi sulle due variabili, semplici estensioni degli integrali singoli.
Risulta altrettanto naturale estendere la definizione di varianza introducendo una misura di quanto
le due variabili risultano “legate”. Si fa ciò definendo la covarianza tra le due variabili:
b1 b 2
cov[ x , x ] = ∫ ∫ ( x − E[ x ])( x − E[ x ]) f ( x , x )dx dx
1
2
a1 a 2
1
1
2
2
1
2
1
2
82
Si tratta di un numero avente le dimensioni [x1][x2]. Se la densità di probabilità congiunta é pari al
prodotto delle probabilità di ciascuna variabile, cioè se, come si dice, la densità di probabilità
congiunta si fattorizza:
f (x , x ) = f (x ) f (x )
1
2
1
1
2
2
la covarianza sopra definita si annulla. Infatti,
b1 b 2
cov[ x , x ] = ∫ ∫ ( x − E[ x ])( x − E[ x ]) f ( x ) f ( x )dx dx =
1
2
1
a1 a 2
1
b1
2
2
1
1
2
2
1
2
b2
∫ ( x − E[ x ]) f ( x )dx ∫ ( x − E[ x ]) f ( x )dx = 0
a1
1
1
1
1
1
2
a2
2
2
2
2
essendo i 2 ultimi integrali ambedue nulli per la definizione di valore atteso.
Quando la probabilità congiunta si esprime come prodotto delle probabilità singole, si dice che le 2
variabili sono indipendenti. In caso contrario si dice che sono correlate. La covarianza é dunque una
misura della correlazione tra le variabili, cioè di quanto la variazione dell’una incide sulla
variazione dell’altra. Per tornare all’analogia con le probabilità viste sopra, il caso di indipendenza
corrisponde all’essere
P ( A ∩ B ) = P ( A / B ) P ( B ) = P ( A) P ( B ) .
A partire dalla covarianza si introduce una quantità adimensionale detta coefficiente di correlazione:
ρ[ x , x ] =
1
2
cov[ x , x ]
Var[ x ]Var[ x ]
1
2
1
2
che é come dire la covarianza normalizzata alle varianze. Si dimostra che il coefficiente di
correlazione può assumere solo valori compresi tra –1 ed 1:
− 1 < ρ[ x , x ] < 1
1
2
quando vale 1 si dice che le due grandezze sono completamente correlate, quando vale –1 si dice
che sono completamente anticorrelate. Il caso 0é il caso di non correlazione ovvero di indipendenza.
Le definizione date per una generica popolazione delle 2 variabili x1 ed x2, hanno evidentemente il
corrispettivo campionario nelle variabili introdotte nel capitolo (1.6).
(2.8.3) Calcolo di E[y] e Var[y]
L’importanza di quanto visto nel paragrafo precedente risulta particolarmente evidente quando ci
poniamo il problema della propagazione delle incertezze, cioè del problema cui abbiamo già
accennato nel cap(1.9) di come l’incertezza su una variabile si propaga quando si calcola una
funzione di questa variabile. Tale problema, nel linguaggio delle variabili casuali si traduce nel
chiedersi: data le distribuzioni di x1 e di x2, e dati in particolare i loro valori attesi E[x1] ed E[x2] e le
loro varianze Var[x1] e Var[x2], quale é la distribuzione di y=y(x1,x2) ed in particolare quanto
valgono E[y] e Var[y] ?
Diamo qui i risultati senza dimostrazione. La dimostrazione fa uso dello sviluppo in serie di Taylor
della funzione y intorno ai valori E[x1] ed E[x2] troncata al primo ordine. Pertanto risulta a rigore
valida solo nel limite in cui i termini del secondo ordine sono trascurabili, ovvero nel limite in cui la
funzione é approssimativamente lineare in un intervallo delle 2 variabili pari alle 2 deviazioni
standard. Si ottiene (qualunque sia la forma delle funzione di distribuzione di x1 e di x2):
E[ y ] = y ( E[ x ], E[ x ])
1
⎛ ∂y
Var[ y ] = ⎜⎜
⎝ ∂x
⎛ ∂y
+ 2⎜⎜
⎝ ∂x
2
2
⎞
⎛ ∂y
⎟ Var[ x ] + ⎜
⎟
⎜ ∂x
⎠
⎝
⎞⎛ ∂y
⎞
⎟⎜
⎟ cov[ x , x ]
⎟⎜ ∂x
⎟
⎠⎝
⎠
1
1 E [ x 1 ], E [ x 2 ]
1 E [ x 1 ], E [ x 2 ]
2 E [ x 1 ], E [ x 2 ]
1
2
⎞
⎟ Var[ x ] +
⎟
⎠
2
2
2 E [ x 1 ], E [ x 2 ]
83
dove sono stati introdotti i simboli di derivata parziale che sono propri del calcolo differenziale per
le funzioni di più variabili. Le derivate parziali, come espresso esplicitamente nella formula, sono
calcolate in corrispondenza di E[x1] e di E[x2].
Vediamo il significato delle due relazioni date che valgono, giova ripeterlo, solo nel limite in cui
posso trascurare gli infinitesimi del secondo ordine, ovvero nel limite in cui nella regione della
funzione y in questione, questa presenta variazioni “piccole”.
Æ Il valore atteso di y é la stessa funzione y calcolata per i 2 valori attesi delle 2 variabili. Si tratta
effettivamente di quanto ci si aspetta.
Æ La varianza di y si ottiene sommando le varianze delle 2 variabili, ciascuna “pesata” per il
quadrato della derivata parziale della y rispetto a quella variabile. A ciò si aggiunge un termine di
covarianza data dal prodotto della covarianza delle 2 variabili per il prodotto delle derivate. Si noti
che nel caso di 2 variabili indipendenti (secondo quanto detto sopra) il terzo termine si annulla e
rimane la somma in quadratura pesata delle due varianze.
Il caso di una sola variabile ci restituisce il risultato già visto per via intuitiva.
Estendiamo questa definizione al caso di una funzione di N variabili casuali:
E[ y ] = y ( E[ x ],...., E[ x ])
1
Var[ y ] = ∑
N
i , j =1
N
∂y ∂y
cov[ x , x ]
∂x ∂x
i
i
j
j
in cui abbiamo adottato una forma compatta per le varianze secondo cui
cov[xi,xi]=Var[xi].
per qualunque i,
(2.8.4) Propagazione delle incertezze
Come si propagano dunque le incertezze ? Intanto la prima osservazione é che la propagazione
avviene a livello di varianze non di deviazioni standard. Dunque la propagazione é “quadratica” non
“lineare”. In secondo luogo le varianze sono “pesate” con i quadrati delle derivate, cioè con quanto
é ripida la dipendenza da quella variabile in quell’intorno.
Se ho 2 variabili le cui popolazioni hanno varianze Var[x1] e Var[x2] e considero la funzione più
semplice che posso costruire, cioè la somma
y=x +x
1
2
(naturalmente in questo caso le due variabili devono avere le stesse dimensioni fisiche), avrò che,
essendo =1 ambedue le derivate,
Var [ y ] = Var[ x1 ] + Var[ x2 ] + 2 cov[ x1 , x2 ]
Distinguiamo 3 casi:
(a)
(b)
(c)
x1 ed x2 sono indipendenti:
x1 ed x2 sono completamente correlate
x1 ed x2 sono completamente anti-correlate
Nel caso (a) cov[x1,x2]=0 e dunque
Var[ y] = Var[x ] + Var[ x ]
1
2
cioè si ha una semplice somma in quadratura. Si noti che nella somma in quadratura domina il più
“forte” più che nella somma lineare.
I casi (b) e (c), abbiamo visto, significano che
ρ[ x , x ] = ±1
1
2
cov[x , x ] = ± Var[ x ]Var[ x ]
1
2
1
2
e si traducono in
84
Var[ y ] = Var[ x1 ] + Var[ x2 ] ± 2 Var[ x1 ]Var[ x2 ]
ovvero in termini di deviazioni standard
σ 2 [ y] = σ 2 [ x1 ] + σ 2 [ x2 ] ± 2σ [ x1 ]σ [ x2 ] = (σ [ x1 ] ± σ [ x2 ])2
Cioè: nel caso in cui le due variabili siano completamente correlate la deviazione standard della
somma é pari alla somma delle deviazioni standard, si ritrova cioè il risultato della propagazione
lineare (quella cosiddetta dell’errore massimo che qualcuno ha visto alle scuole superiori)
σ [ y] = σ [ x ] + σ [ x ]
1
2
Nel caso (c) completamente anticorrelato si ha invece
σ [ y ] =| σ [ x ] − σ [ x ] |
1
2
risultato questo che dice che se le due sigma sono uguale la y é priva di varianza.
I tre casi sono schematizzati nelle Fig. 2.18 2.19 e 2.20 che illustrano i tre casi (a) (b) e (c).
Fig.2.18 Stesso grafico di correlazione tra 2 variabili non correlate (ρ=0.) aventi entrambi varianza unitaria, di Fig.1.11.
Sotto é mostrato l’istogramma della somma delle 2 variabili. Si noti come la deviazione standard campionaria (RMS nel
riquadro) sia prossima al valore √2 come atteso dalle considerazioni fatte.
85
Fig.2.19 Grafico di correlazione tra 2 variabili di varianza unitaria e totalmente correlate (qui ρ=1.).
L’istogramma della somma delle 2 variabili ha una deviazione standard campionaria prossima a 2 come atteso.
Fig.2.20 Grafico di correlazione tra 2 variabili di varianza unitaria e totalmente anticorrelate (qui ρ=-1.).
L’istogramma della somma delle 2 variabili ha una deviazione standard campionaria “nulla”, dal momento che la
somma dei 2 valori é sempre pari allo stesso valore (=0 nel nostro caso).
Altrettanto interessante é il caso della funzione
86
y=x −x
1
2
per il quale valgono “quasi” esattamente gli stessi risultati visti sopra. Infatti si ha:
ρ [ x , x ] = 0 ⇒ Var[ y ] = Var[ x ] + Var[ x ]
ρ [ x , x ] = ±1 ⇒ σ [ y ] =| σ [ x ] m σ [ x ] |
1
2
1
2
1
1
2
2
cioè nel caso della differenza tra 2 variabili correlate, il segno della correlazione gioca in senso
opposto rispetto a come gioca per il caso della somma.
87
Esercizi relativi al Capitolo (2)
2.1) Un’urna contiene 5 palline numerate da 1 a 5. Estraendole una ad una senza reintrodurle ogni
volta, quant’è la probabilità di ottenere la sequenza 1-2-3-4-5 ? E se ogni volta reintroduco la
pallina estratta quanto vale la probabilità di ottenere la stessa sequenza ? Infine quanto cambiano le
2 probabilità se anziché cercare la sequenza 1-2-3-4-5 cerco la sequenza 2-5-4-1-3 ?
2.2) Disegnare la distribuzione di probabilità della variabile casuale data dalla differenza tra il
valore di 2 dadi lanciati simultaneamente. Quanto vale la probabilità che lanciando per tre volte
consecutive una coppia di dadi io abbia tutte e tre le volte una differenza pari a 0 ?
2.3) Il 10% degli abitanti dell’isola di Pasqua soffre di daltonismo. Un test del daltonismo funziona
in modo tale che su 100 pazienti daltonici, 98 sono individuati, mentre su 100 pazienti non daltonici
16 sono individuati erroneamente come daltonici.
Se faccio il test su un individuo qualsiasi della popolazione dell’isola e ho responso positivo,
quant’è la probabilità che sia effettivamente daltonico
2.4) Un bimbo maschio di 4 anni ha un peso di 22.5 kg. Dalla tabella dei “percentili” i suoi genitori
desumono che si trova al 90-esimo percentile. Il cugino avente la stessa età ma avente un peso di
18.2 kg si trova al 40-esimo percentile. Determinare μ e σ della popolazione gaussiana descrivente i
pesi dei bambini di 4 anni (si definisce percentile la probabilità che un valore sia minore del valore
dato secondo la popolazione in questione).
2.5) La radioattività ambientale standard, misurata con un certo contatore é caratterizzata da un
valor medio r=1.8x10-3 conteggi al secondo. Metto quel contatore a casa mia e lo lascio contare per
un giorno intero. Se ottengo N=404, devo preoccuparmi ?
2.6) L’incidenza alla nascita della sindrome genetica X é dell’ 0.12% per età della madre inferiore
ai 30 anni e del 0.28% per età superiore a 30 anni. La signora Y ha 10 figli di cui 3 avuti prima dei
30 anni e 7 dopo i 30 anni. Quant’è la probabilità che nessuno sia affetto da sindrome X ?
2.7) Il nucleo di valutazione di rischio delle centrali nucleari ha stabilito il tempo medio di attesa
per avere un incidente in una centrale nucleare di un certo tipo é di 20000 anni. Il governo di un
certo paese nel quale stanno per entrare in funzione 98 centrali di quel tipo é chiamato a rispondere
in parlamento circa la probabilità di non avere alcun incidente nei prossimi 100 anni. Quanto vale
tale probabilità ?
2.8) Un certo rivelatore che si propone di distinguere una radiazione di tipo A da una radiazione di
tipo B, ha due possibili risultati che chiamiamo α e β. Viene portato in prossimità di una sorgente di
tipo A, e si trova che, nel 98% dei casi dà il risultato α e nel 2% dà il risultato β. In prossimità della
sorgente di tipo B dà nel 10% risultato α e nel 90% il risultato β. Viene in seguito portato
nell’ambiente entro il quale si vuole distinguere i 2 tipi di radiazione. A priori non si sa nulla circa
la quantità relativa delle 2 radiazioni. Quant’è la probabilità che ottenuto il risultato α questo
corrisponda alla radiazione A ? Come cambia il risultato se da misure precedenti si sa che B é il
doppio più frequente di A ?
2.9) Dopo anni di esperienza é nota che la distribuzione della concentrazione di rame nel sangue
umano é ben descritta da una distribuzione di Gauss di parametri μ = 3.2 x 10-5 cm-3 e σ = 2.2 x 10-6
cm-3. All’ultimo esame del sangue trovo 9.2 x 10-5 cm-3. Devo preoccuparmi ?
88
2.10) Un medico mi spiega che l’intervallo di accettabilità del valore del colesterolo tra 150 e 220
mg/dl , corrisponde ad un intervallo di probabilità del 90% calcolato su una popolazione gaussiana.
Determinare μ e σ di tale distribuzione.
2.11) In un referendum svolto su tutto il territorio nazionale, i SI hanno vinto con una percentuale
finale del 52.67%. Sapendo che nel paese X vi sono 1654 aventi diritto al voto, quant’è la
probabilità che in quel paese i SI siano minoritari ? Specificare le ipotesi essenziale per arrivare al
risultato.
2.12) Un dispositivo elettronico conta i segnali che provengono da un rivelatore. Tuttavia tale
dispositivo ha il problema di bloccarsi allorché rimane fermo (cioè non riceve segnali) per un tempo
superiore a 10 s. Sapendo da misure indipendenti che la poissoniana del fenomeno in questione
costruita su un intervallo di 100 s ha λ=38.4, dire quante volte in un ora il dispositivo si blocca.
2.13) Il test dell’epatite C ha una probabilità di successo del 90% (cioè la probabilità che un
paziente effettivamente affetto dal virus ottenga P al testé del 90% e che uno non affetto dal virus
ottenga Né pure del 90%). Un individuo si sottopone a 3 test indipendenti, e ottiene la sequenza
PNP. Quant’è la probabilità che sia positivo ? Se invece avessi ottenuto la sequenza PPP ?
2.14) Un allenatore per i mondiali ha a disposizione una rosa fatta da 3 portieri, 6 difensori, 7
centrocampisti e 6 attaccanti. Considerando che in una squadra di calcio trovano posto 1 portiere, 4
difensori, 4 centrocampisti e 2 attaccanti, quante formazioni diverse può preparare ?
2.15) Disegnare la distribuzione di probabilità della variabile “valore più grande dei 2 dadi tirati
simultaneamente”.
2.16) Quant’è la probabilità che su una famiglia di 5 figli, 2 siano maschi ? Quale tra le 3 sequenze
é meno probabile (FFMFM, FFFFM, FFFFF) ?
2.17) Nei risultati degli esami del sangue vengono indicati “intervalli normali” dei valori misurati
ottenuti dalla popolazione sana, imponendo che il 95% dei sani siano inclusi nell’intervallo.
Quant’è la probabilità che una persona sana sia fuori intervallo per l’esame X e per almeno uno dei
2 esami Y1 e Y2 ?
2.18) Quante sono le possibili cartelle della tombola ? (90 numeri in totale, 15 numeri a cartella)
2.19) Il reparto ostetrico di un piccolo paese ha un solo posto e dunque può gestire non più di un
parto al giorno. Negli ultimi anni é stato visto che si ha un parto nel paese circa una volta la
settimana. Quant’è la probabilità che domani arrivino 2 o più donne per partorire e quindi una o più
di una debba essere mandata altrove ?
2.20) Misuro l’efficienza di un rivelatore basandomi su 1250 particelle incidenti. Sapendo che la
distribuzione del numero di successi ha una deviazione standard relativa del 2 %, quant’è
l’efficienza ?
2.21) Discutere se le seguenti variabili casuale discrete sono caratterizzabili da una distribuzione
Poissoniana ed eventualmente in quali ipotesi. (a) Il numero di stelle in volumi dell’universo di 1
parsec3 ,(b) il numero di battiti cardiaci in 15 s, (c) il numero di studenti che si iscrive ogni anno al
corso di laurea in Fisica dell’Università “La Sapienza”, (d) il numero di persone che trovo in fila
nell’ufficio X il martedì’ mattina alle 10.
89
2.22) Un test del virus HIV é caratterizzato dalle seguenti prestazioni: p(+/infetto)=99.0% , p(-/non
infetto)=99.3% . Calcolare quant’è la probabilità che facendo un test e risultando positivo una
persona sia effettivamente infetta in 2 casi: (1) il testé fatto su tutta la popolazione nazionale italiana
(per la quale il ministero della salute stima una frazione di infetti dello 0.2% circa); (2) il testé fatto
solo su un campione “a rischio” in cui ci si aspetta che circa la metà delle persone testate sia infetta.
2.23) Dai dati dell’esercizio precedente (caso(1)): Quanto cambia la probabilità di essere infetto se
ripeto 3 volte il test e per tre volte la persona risulta positiva ?
2.24) Quante auto possono essere immatricolate in Italia dato il tipo di targa che abbiamo adottato
dal 1994 (2 lettere, 3 numeri 2 lettere) ? Quant’è la probabilità che in una targa le ultime 2 lettere
siano una copia delle prime due (ad esempio CH 017 CH) ?
2.25) La password di una banca data é una parola di 6 lettere, dove per lettera si deve intendere o
una lettera dell’alfabeto inglese o un numero. Quanti anni impiega a trovarla un calcolatore che
impiega 1 ms per tentare ogni singola combinazione ? Quanto impiega invece se sa che sono una
sequenza i cui primi 3 posti sono occupati da numeri e gli altri 3 da lettere ?
2.26) Una variabile casuale é caratterizzata da una distribuzione uniforme tra 0 e 10. Quant’è la
probabilità di ottenere un numero maggiore di 8.2 ? Quant’è la probabilità che estraendo 3 volte, io
ottenga sempre un numero maggiore di 8.2 ?
2.27) La distribuzione della variabile M (massa invariante di un sistema di particelle che escono da
un esperimento di collisioni) é gaussiana con parametri μ = 138.2 MeV e σ = 4.58 MeV. Accetto
solo gli eventi per i quali 129 < M < 149 MeV. Che frazione di eventi buoni rigetto (sinonimo di
non accetto) ? Una simulazione dello stesso processo mi fornisce una variabile sempre gaussiana
con lo stesso μ ma con σ = 3.96 MeV. Quanto é diversa la mia frazione di reiezione tra dati e
simulazione ?
2.28) L’Alitalia dichiara che la probabilità di un ritardo maggiore di 1 ora sul volo Roma-Parigi
delle 10:00é del 2.34%. Nei prossimi 2 anni dovrò andare una volta al mese ad una riunione a Parigi
che inizia appena 1 ora dopo l’arrivo di quel volo. Quant’è la probabilità che io arrivi almeno una
volta in ritardo (si trascuri il tempo di trasporto dall’aereo alla sede della riunione)?
2.29) Nel paese X si ha un decesso in media ogni 62 giorni. L’unica agenzia di pompe funebri
decide di chiudere (per lutto) per un intero mese. Quant’è la probabilità che ci sia almeno un
decesso durante questo periodo di chiusura ?
2.30) La distribuzione dell’età del corpo docente dell’Università “La Sapienza” di Roma é
approssimabile con una distribuzione “triangolare” simmetrica tra 30 e 70 anni. Fare il grafico della
distribuzione. Quant’è la probabilità che nei primi corsi del primo trimestre uno studente si trovi di
fronte 3 persone tutte di età superiore ai 60 anni ?
2.31) Per un errore di produzione, su una partita di 2000 uova di Pasqua solo 1250 contengono la
sorpresa. Per Pasqua abbiamo comprato 5 uova appartenenti a questa produzione. Quant’è la
probabilità che almeno 3 di queste contengano una sorpresa ?
2.32) Tre contatori per raggi cosmici contano in media 256 eventi in un minuto. Quant’è la
probabilità che almeno 2 contatori osservino un conteggio inferiore a 240 ?
2.33) La variabile casuale continua x ha una funzione di distribuzione uniforme tra –1.5 e 1.5.
Viene estratto un campione di dimensione 5290 e viene fatto un istogramma di frequenza con passo
90
0.3 dei valori ottenuti. Quale é la probabilità di osservare in due intervalli un numero di valori
superiore a 575 ?
2.34) Ad un torneo partecipano 10 squadre. Quante partite complessivamente saranno giocate se
ogni squadra deve incontrare per 2 volte tutte le altre (gironi di andata e di ritorno) ?
2.35) Nello stato del Texas, i Repubblicani hanno avuto una maggioranza schiacciante alle ultime
elezioni presidenziali: il 76.4% contro il 23.6% dei Democratici. Un sondaggio rivela che il 16.2%
dell’elettorato Democratico é costituito da persone di colore, mentre solo il 2.5% di quello
Repubblicano é costituito da persone di colore.
a) Se incontro un elettore di colore, quant’è la probabilità che abbia votato Democratico ?
b) Nella mia azienda ho 7 dipendenti tutti di colore: quant’è la probabilità che tra i miei
dipendenti vi sia almeno un Repubblicano ?
2.36) Nella regione X si hanno in media 3.24 incidenti ogni notte tra il sabato e la domenica.
a) Quant’è la probabilità che il prossimo sabato sera non si abbiano incidenti ?
b) Qual è la distribuzione di probabilità del numero di incidenti in un anno ?
c) Quanto vale la probabilità di avere in un anno meno di 150 incidenti ?
[si ricorda che in un anno vi sono complessivamente 52 notti tra sabato e domenica.]
2.37) Si deve organizzare una riunione in un nuovo Centro Congressi la cui sala più grande contiene
fino a 90 persone sedute. Analizzando i dati relativi alle stesse riunioni effettuate negli ultimi
anni, si é trovato che il numero di presenze ha una distribuzione descritta da una poissoniana con
valore centrale 78. Quant'è la probabilità che, quest'anno, qualcuno resti in piedi?
2.38) Cinque anni fa ho versato un bicchiere pieno d’acqua nel mare. Oggi mi trovo dall’altra parte
del mondo e con un altro bicchiere prendo dell’acqua dal mare. Quant’e’ il numero medio di
molecole nel nuovo bicchiere che erano anche nel bicchiere di cinque anni fa ?
91
(3) Introduzione all’inferenza
Gli argomenti e gli esempi trattati nel capitolo precedente sono certamente interessanti. Tuttavia
risulta evidente che essi da soli non giustificano il fatto che un fisico sperimentale debba studiarli
cosi’ intensamente proprio all’inizio del suo corso di studi. In realtà il motivo per cui sono stati
trattati é che si rivelano estremamente utili per risolvere i problemi di inferenza che abbiamo già in
parte affrontato e per ora solo approssimativamente incontrato nel primo capitolo.
Riformuliamo alcuni dei problemi che abbiamo incontrato nella prima parte del corso:
(a) come dare il risultato di una misura, come dare la stima dell’intervallo e che significato ha
questo intervallo nei seguenti casi:
Æ risultato di una singola misura (analogica, digitale o numero senza altre informazioni);
Æ risultato di una sequenza di numeri (qui abbiamo già alcune idee che vanno chiarite);
Æ risultato di un conteggio (poissoniano): come dare la migliore stima di r ;
Æ risultato di una misura di efficienza (binomiale);
Æ combinazione di diverse misure indipendenti di una stessa grandezza;
(b) come stimare l’incertezza di una misura indiretta: si tratta di applicare la propagazione delle
incertezze cui abbiamo già accennato;
(c) come stabilire la compatibilità tra diverse misure in modo più quantitativo, ovvero come
stabilire che due misure sono “significativamente” diverse;
(d) come determinare con la loro incertezza il coefficiente angolare e l’intercetta della retta che
meglio approssima una dipendenza lineare tra due grandezze.
Ciascuna delle questioni qui poste sono state incontrate in vario modo nelle esperienze di
laboratorio. Per esempio nella prima esperienza abbiamo incontrato problemi del tipo (a) per
ciascuna misura di massa e di volume e per la distribuzione delle densità, dei riflessi e della capacità
di interpolazione, di tipo (b) per stimare l’incertezza della densità a partire da quelle su massa e
volume e di tipo (c) per vedere se si hanno differenze tra i riflessi degli studenti, o tra la densità
media e quella nota dell’alluminio.
Nell’ esperienza della molla sono entrati in gioco anche i problemi di tipo (d) nei 2 tipi di fit che
abbiamo fatto, per ora solo “a mano” e che intendiamo fare secondo una modalità meglio definita.
Nell’ esperienza del contatore, oltre alle altre cose pure presenti, si é posto il problema di stimare la
radioattività a partire da varie misure di conteggio. E cosi’ via.
In questo capitolo dopo una breve introduzione di considerazioni generali sull’inferenza, vedremo
alcune soluzioni per le 4 classi di problemi posti, soluzioni che evidentemente non esauriscono tutti
i problemi immaginabili, ma che risultano utili in molte circostanze.
Lasciamo dunque da parte urne con palline, o probabilità di malattie, e torniamo a parlare di misure.
(3.1) Introduzione “formale” all’inferenza
(3.1.1) Considerazioni generali
L’inferenza é il processo attraverso il quale a partire da un insieme di dati “inferisco” sul valor vero
di una o più grandezze. E’ dunque la procedura con cui in un modo o nell’altro facciamo
l’induzione. Con il termine inferenza indichiamo dunque il metodo quantitativo dell’induzione e
quindi del metodo sperimentale. Il risultato del procedimento consiste in generale nello stabilire le
caratteristiche della funzione di distribuzione del valor vero della grandezza in esame o dei valori
veri delle grandezze in esame, ed in particolare nella definizione di un intervallo, caratterizzato da
un certo contenuto di probabilità, all’interno del quale si ritiene il valor vero debba stare. Si noti che
intrinsecamente l’inferenza fa passare da una osservazione particolare ad una affermazione generale
sulla o sulle grandezze.
92
Formalizziamo ora l’inferenza. Per fare ciò riprendiamo lo schema della prima parte del corso:
valor vero, misurando e risultato della misura.
Il misurando é caratterizzato da una popolazione (la sua funzione di distribuzione) che dipende sia
dal processo che si sta studiando, che dalle caratteristiche dell’apparato di misura. La misura si
riferisce invece ad un campione, che costituisce una realizzazione finita della popolazione. Dunque
tra popolazione e campione vi é un rapporto di natura statistica. Il valore vero invece non dipende
dall’apparato di misura, ma solo dal fenomeno. La differenza tra valore vero e valore misurato
(l’errore dunque) può sempre essere espresso come somma di 2 contributi:
Æ differenza tra valore osservato e valore atteso del misurando (errore casuale)
Æ differenza tra valore atteso del misurando e valore vero (errore sistematico)
Decomponiamo dunque l’errore complessivo δ nella forma:
δ = x − x = ( x − μ ) + (μ − x ) = δ + δ
v
m
v
m
sist
cas
in cui, con ovvio significato di simboli, xv é il valor vero, xm quello misurato, e μ il valore atteso del
misurando.
Nel limite in cui il campione approssima bene la popolazione (per esempio altissimo numero di
osservazioni), l’errore casuale tende ad annullarsi in base alla legge della stabilità della frequenza.
In tale caso rimane la seconda sorgente di errore soltanto. L’errore sistematico é dunque quello che
rimane dell’errore, nel limite di statistica infinita.
Si noti che stiamo parlando di errori, non di incertezze. Lo sperimentatore non “vede” il misurando,
né “vede” il valore vero. Tuttavia deve stimare quanto sono questi errori dando degli intervalli di
probabilità per la grandezza.
(3.1.2) L’inferenza bayesiana
Ci sono vari metodi generali per l’inferenza cioè per fare il passaggio da xm a μ e da questo a xv.
Uno di questi é il metodo dell’inferenza bayesiana al quale accenniamo ora brevemente.
Utilizzando le definizioni appena date, possiamo chiamare f(μ/xm) la funzione di distribuzione di μ
dato xm, che descrive la popolazione del misurando μ , condizionata all’essere stato ottenuto xm
come risultato della misura. Allo stesso modo chiameremo g(xm/μ) la funzione di distribuzione di
xm dato il parametro μ. Il problema é posto in modo tale che si può interpretare μ come la “causa”,
cioè la popolazione, e xm come l’effetto, ovvero il campione. La forma della popolazione del
misurando determina cioè il risultato della misura, con un meccanismo tipo causa-effetto. La
situazione é simile a quella che abbiamo visto in occasione del teorema di Bayes. Li’ avevamo una
formula che ci permetteva di passare dalle probabilità degli effetti date le cause, alle probabilità
delle cause dati gli effetti. Adattiamo la formula di Bayes al sistema popolazione - campione,
passando dalle probabilità di eventi alle densità di probabilità di variabili casuali continue, secondo
quanto visto nel precedente capitolo:
f (μ / x ) =
m
g ( x / μ ) f (μ )
0
m
∫ dμg ( x / μ ) f ( μ )
b
a
m
0
A numeratore vi é il prodotto della funzione g detta verosimiglianza per la funzione f0 che
costituisce la probabilità a priori del valore del misurando. A denominatore lo stesso prodotto é
integrato in dμ tra a e b che sono gli estremi dell’intervallo in cui μ è definito. L’integrale a
denominatore svolge il ruolo della sommatoria nella formula di Bayes per le probabilità.
Se conosco la verosimiglianza, cioè se conosco come é fatta la distribuzione del campione data la
popolazione (che dipende da come é fatto l’apparato di misura), e se ho una probabilità a priori
(eventualmente uniforme se non ho alcun “pregiudizio”) posso ricavare la funzione di distribuzione
del misurando. Il valore atteso di tale distribuzione, o il valore più probabile qualora la distribuzione
fosse in buona misura simmetrica, costituiscono la migliore stima del misurando.
Il passaggio poi al valore vero viene fatto usando tutte le conoscenze a disposizione relativamente
agli eventuali errori sistematici, e applicandoli come correzioni alla stima fatta del misurando.
93
(3.1.3) Il principio di massima verosimiglianza
La formula di Bayes permette di giustificare il cosiddetto principio di massima verosimiglianza.
Infatti se la probabilità a priori di μ è uniforme tra a e b e pari a k=1/(b-a), si ha:
f (μ / x ) =
m
g ( x / μ )k
m
k ∫ dμg ( x / μ )
b
m
a
=
g(x / μ)
I
m
dove con I abbiamo indicato l’integrale che compare a denominatore, che é comunque un numero
indipendente da μ avendo noi integrato in μ. Quindi si ha che la funzione di distribuzione di μ dato
xm é proporzionale alla verosimiglianza.
f (μ / x ) ∝ g ( x / μ )
m
m
In particolare se la f é una distribuzione simmetrica, cioè tale che la moda e la media coincidono, il
massimo della g rispetto a μ corrisponde al valore più probabile di μ.
Di qui il principio della massima verosimiglianza: la migliore stima di μ è quella per cui é massimo
il valore della funzione di verosimiglianza. La funzione di verosimiglianza (likelihood in inglese) é
data in generale dalla densità di probabilità congiunta dei dati sperimentali, data la popolazione del
misurando. Questo principio (che applicheremo in seguito) fornisce un utile metodo per stabilire
quale é il valore più probabile del misurando μ secondo il nostro campione xm. Il valore più
probabile di μ è dunque quello per cui é massima la verosimiglianza.
(3.2) Inferenza sul valore vero
Passiamo ora ad affrontare i casi che si incontrano nel processo di misura, per arrivare a dare metodi
operativi. In questo paragrafo affrontiamo i casi che abbiamo elencato sotto (a) nel paragrafo
introduttivo di questo capitolo.
Consideriamo dunque i vari casi presentati sopra. Nel seguito usiamo la seguente notazione: x̂ ed
in generale ogni simbolo con il cappuccio indica la stima del valor vero, ovvero la stima dei
parametri della densità di probabilità del misurando. Per il momento assumiamo l’assenza di errori
sistematici che richiedono una trattazione a parte, e dunque nella trattazione che segue,
identificheremo il valor vero xv con μ, valore atteso del misurando. La trattazione é svolta ad un
livello elementare ed intuitivo, ed ha come obiettivo quello di fornire metodi di analisi e non di dare
una trattazione esauriente e generale dell’inferenza. Per una discussione generale della teoria degli
stimatori e dell’inferenza si rimanda ai corsi successivi.
(3.2.1) Caso di una singola misura
Se la mia misura si traduce in un unico numero xM, (il che accade per esempio quando non sono in
condizioni di ripetibilità e non ho alcuna informazione sull’incertezza da attribuire ad xM), devo
avere informazioni indipendenti. Con un solo numero non si riesce a dare una misura sensata. O
devo poter ripetere la misura o devo sapere qualcosa su come funziona il mio esperimento.
Se invece sappiamo che la distribuzione del misurando μ (la popolazione da cui xM proviene) é
gaussiana con varianza σ2 , allora l’intervallo cosi’ costruito:
x − σ < μˆ < x + σ
M
M
costituisce un intervallo al 68.3% di probabilità per il valore atteso μ del misurando. Infatti in
questo caso la verosimiglianza é:
1
g(x / μ) =
e
2π σ
−
( xM − μ ) 2
2σ 2
M
e, se la probabilità a priori é uniforme, la densità di probabilità di μ è data da
f (μ / x ) = g ( x / μ )
M
M
(in cui il fattore di proporzionalità é 1 essendo la gaussiana già normalizzata) e dunque si ha che:
94
P ( x − σ < μ < x + σ ) = 68.3%
M
M
Si noti il procedimento seguito, che é consistito nell’individuare la densità di probabilità di μ a
partire dalla verosimiglianza.
Nel caso in cui il valore xM proviene da una misura diretta letta su una scala “analogica” sappiamo
che si tratta di stimare al meglio la precisione di interpolazione. Si potrebbe pensare di usare una
misura come quella fatta in laboratorio per il nonio (aumentando magari il numero di osservazioni)
come misura della popolazione della variabile δx scarto del valore misurato dal valore vero. Se tale
popolazione si rivela essere gaussiana caratterizzata da valore atteso nullo e varianza σ2 si può
procedere come nel caso appena trattato dando un intervallo gaussiano di semilarghezza σ.
In questi casi é evidente che per avere un intervallo del tipo di quelli chiamati di “quasi certezza” nel
capitolo 1, occorrerà moltiplicare per 3 la larghezza dell’intervallo portando cosi’ il contenuto
probabilistico dell’intervallo al 99.7%.
Se invece la misura in questione proviene da un display digitale fisso e Δx é l’ampiezza
dell’intervallo corrispondente all’ultimo digit centrato in xM, posso affermare che, per quel che posso
sapere, la densità di probabilità di μ è uniforme tra xM - Δx/2 e xM + Δx/2. Non ho nessun elemento
infatti per privilegiare una parte dell’intervallo rispetto ad un’altra. In tal caso la migliore stima del
valore vero e della sua incertezza, avente il significato di deviazione standard della distribuzione di x
(vedi cap.(2.4)) é
μˆ = x ±
M
Δx
12
corrispondente ad un intervallo di probabilità del 57.7%. In questo caso un intervallo di certezza é
ovviamente ± Δx / 2.
Bisogna comunque sempre tenere presente che non esiste un metodo generale. Si tratta di usare tutte
le informazioni a disposizione e, se non si hanno informazioni sufficienti, in generale non si potrà
dare una stima sensata di un intervallo.
(3.2.2) Caso di una misura ripetuta N volte.
Se invece ho un campione di dimensione N (sequenza di numeri) posso calcolare x ed s . Di
nuovo però é interessante distinguere tra due casi, cioè tra il caso in cui ho informazioni aggiuntive
al mio campione e il caso in cui tutte le mie informazioni sono date dal campione.
Supponiamo allora di conoscere a priori che x ha una distribuzione gaussiana con valore atteso μ e
varianza σ2 : la variabile
x−μ
σ
N
è una gaussiana standardizzata, e dunque, applicando le stesse considerazioni fatte per il caso della
singola misura, un intervallo
x−
σ
N
< μˆ < x +
σ
N
è caratterizzato da un intervallo di probabilità del 68.3%. Infatti se il misurando è caratterizzato da
una popolazione gaussiana, la media di N misure estratte da questa popolazione é (a maggior
ragione) gaussiana e d’altra parte sappiamo che la sua varianza é la varianza di x diviso N. Allora
posso ripetere il ragionamento fatto per la singola misura e scrivere come risultato:
95
μˆ = x ±
σ
N
che ha il significato di un intervallo di probabilità del 68.3% per il valor vero
C’è poi il secondo caso. Supponiamo di sapere che x ha una distribuzione gaussiana ma di non
conoscere σ2 : allora devo ricorrere a:
μ̂ = x ±
s
N
Tuttavia sappiamo già che un tale intervallo (che peraltro abbiamo già ampiamente usato nella
prima parte del corso) non caratterizza un intervallo al 68.3%. Infatti sappiamo che, detto μ il
valore atteso gaussiano della popolazione, la variabile
x−μ
s
N
in tutto analoga a quella che abbiamo costruito nel caso precedente con l’unica differenza che ora
compare s al posto di σ, non é una variabile gaussiana standardizzata, ma é piuttosto una t di
Student con N-1 gradi di libertà che tende ad una gaussiana solo nel limite di grande N.
Per cui se vogliamo un intervallo di probabilità confrontabile con quello gaussiano, per esempio al
68.3%, dobbiamo trovare quel valore della variabile t con N-1 gradi di libertà, diciamo tΝ−1(68.3%)
tale che:
P (−t (68.3%) <
N −1
x−μ
< t (68.3%)) = 68.3%
s
N
N −1
I valori di questi tN-1 per diverse probabilità (tra cui il 68.3%) sono dati nella tabella data qui di
seguito. Dalla tabella si nota che al crescere di N i valori di t tendono a quelli “gaussiani” come
deve essere per le proprietà limite della variabile t di Student. Quindi l’uso della variabile t é
importante solo quando si stanno considerando medie di campioni di bassa statistica estratti da
popolazioni gaussiane di σ non nota.
Si scrive dunque il risultato per un intervallo di probabilità α qualsiasi:
μˆ = x ± t (α )
N −1
s
N
96
Tabella con i valori di t(N-1) introdotti nel testo, per dare intervalli di probabilità corretti nel caso di un numero
limitato di misure. Si noti che gli 1-α della tabella corrispondono agli α del testo. La tabella deve essere usata
anche per fissare gli estremi degli intervalli di accettabilità nel contesto dei test di ipotesi (vedi seguito).
Si noti che il valore di t fa aumentare le dimensioni dell’intervallo rispetto al caso gaussiano. In un
certo senso si sta pagando la non conoscenza della σ e il fatto che si sta introducendo anche
l’incertezza su s, stima di σ.
(3.2.3) Caso dei conteggi poissoniani.
Supponiamo di volere stimare il “rate” di conteggio di un certo tipo di eventi. Devo stimare il
parametro λ di un fenomeno poissoniano relativo ad un intervallo di tempo Δt, dato una certa
misura di conteggio N nel tempo Δt.
La trattazione esatta del problema, richiede l’uso del teorema di Bayes in caso di verosimiglianza
poissoniana. Qui consideriamo solo il caso in cui il numero di conteggi osservato é
sufficientemente grande. In tal caso infatti, ma solo in tal caso, il numero di conteggi diventa una
variabile gaussiana, e pertanto si possono costruire intervalli di probabilità gaussiani. Supponiamo
allora di avere contato N conteggi nel tempo Δt e di volere stimare la “radioattività ambientale” r.
Nel limite in cui N é “grande” (per N maggiore di 10-20 tale limite é già in pratica raggiunto) si
trova che la migliore stima di λ è fornita dall’unico valore trovato N.
λ̂ = N
e pertanto
rˆ =
N
Δt
Se ho validi motivi per ritenere che la popolazione sia poissoniana, posso ragionevolmente
assumere che la radice quadrata di N sia una buona stima della deviazione standard, e pertanto
avrò:
rˆ =
N
N
±
Δ t Δt
in cui evidentemente ho assunto trascurabile l’incertezza su Δt. Si noti che (caratteristica distintiva
dei processi poissoniani) al crescere di N l’incertezza cresce, ma più lentamente di N e dunque
l’incertezza relativa su r decresce
97
s ( rˆ)
1
=
rˆ
N
qui abbiamo indicato con s(r) l’incertezza sulla stima di r. Dunque la stima del “rate” di un evento
é tanto migliore quanto più alto é il numero di conteggi ovvero, a parita’ di rate, quanto maggiore é
il mio tempo di osservazione Δt.
Consideriamo ora l’esperienza del contatore. Sono stati fatti diversi conteggi a tempo fissato (per
esempio N=50 conteggi da δt=100 s l’uno) e i miei dati sono una sequenza di conteggi: n(i),i=1,N.
In tal caso la migliore stima della radioattività può essere ottenuta in due modi tra loro equivalenti.
(a)
Calcolo la media n e la deviazione standard campionaria s(n) dei 50 conteggi
(n(i),i=1,N). Uso la proprietà della media e scrivo:
rˆ =
n
s ( n)
±
δt
N δt
che, assumendo di essere nel limite gaussiano, corrisponde ad un intervallo di probabilità del
68.3%.
(b)
Sommo tutti i conteggi fatti e li divido per la somma di tutti gli intervalli pari
evidentemente a Nδt, cioé agendo come se avessi fatto un unico conteggio per un tempo Nδt.
N
N
rˆ =
∑ n (i )
i =1
Nδ t
±
∑ n(i)
i =1
Nδt
e assumo la radice del totale dei conteggi come stima della deviazione standard.
I 2 approcci sono esattamente uguali per quel che riguarda il valore centrale, essendo infatti
N
n = ∑ n(i ) / N , mentre per quel che riguarda l’incertezza sono uguali solo se la deviazione
i =1
standard campionaria é pari
poissoniana.
n.
Ciò é verificato solo se la distribuzione é effettivamente
Quindi ricapitolando quanto detto per il caso dei conteggi poissoniani nel limite gaussiano: se la
distribuzione é poissoniana é opportuno sommare tutti i conteggi fatti ed assumere come incertezza
la radice di tale numero; se invece si hanno dubbi sulla poissonianità, é opportuno suddividere il
tempo di misura in sottocampioni e controllare che la deviazione standard campionaria sia in
accordo con la radice della media aritmetica. Se ciò é ragionevolmente verificato si può procedere
come nel caso poissoniano. Altrimenti si deve concludere che il fenomeno non é poissoniano
(perché ad esempio alcune delle ipotesi non sono verificate) e assumere la deviazione standard
della media come incertezza.
Il caso di pochi conteggi (in cui il limite gaussiano non é verificato) é estremamente importante ma
richiede una trattazione che esula dagli obiettivi di questo corso.
(3.2.4) Caso dei conteggi binomiali.
Supponiamo di aver contato n successi su N prove e di volere stimare p. Si tratta di un tipico caso
di inferenza, nel quale voglio passare da un valore misurato n caratteristico di un campione
“estratto” dalla popolazione, al parametro che descrive la popolazione. L’esempio più tipico é
quello della misura di efficienza di un rivelatore.
Anche in questo caso ci limitiamo al limite gaussiano. La migliore stima di p sarà data dalla
frequenza con cui ho ottenuto il successo
pˆ =
n
N
98
che corrisponde al fatto che in una binomiale E[n]=Np. La deviazione standard é ottenuta
prendendo la deviazione standard della popolazione e sostituendo a p il suo valore stimato:
pˆ (1 − pˆ )
1
1
s( pˆ ) =
Var[n] =
Np(1 − p) =
N
N
N
Anche in questo caso giova ricordare che al di fuori del limite gaussiano la trattazione data non é
adeguata. Ricordiamo che nel caso della distribuzione binomiale il limite gaussiano é raggiunto
quando N é sufficientemente elevato e quando p é sufficientemente lontano da 0 e da 1.
(3.2.5) La “barra di incertezza”
Fig.3.1 Alcuni esempi di dati sperimentali espressi su di un grafico con la (o le) barre di incertezza. Si noti
che la barra esprime sempre una stima dello sperimentatore di un intervallo di probabilità del quale deve
essere specificato il contenuto. In caso non si abbia una tale stima, é bene presentare il dato senza barra.
In tutti i casi visti, il risultato della misura può essere espresso come un valore ± una incertezza
stimata. Se la misura di cui stiamo parlando viene messa in un grafico in cui é espressa in funzione
di un altra grandezza per evidenziare un eventuale andamento (è il caso di molte delle misure viste
in laboratorio), allora sarà opportuno riportare sul grafico non solo un punto, ma un punto con due
barre di incertezza: una per la misura della grandezza in ascisse, e l’altra per la misura della
grandezza nelle ordinate, secondo quanto mostrato nella figura illustrativa (Fig.3.1). Si tratta di
una espressione grafica molto utilizzata perché estremamente utile alla comprensione del grafico.
Di norma le barre di incertezza rappresentano incertezze standard e quindi il loro significato é che
il valore vero cade là dentro con una probabilità che nel caso gaussiano é del 68.3%. Come
vedremo, nella valutazione degli andamenti, l’uso delle barre di incertezza si rivela di cruciale
importanza.
(3.3) Misure indirette: la propagazione delle incertezze
(3.3.1) Riformulazione del problema
Dopo aver fatto una lista di casi di misure dirette, torniamo al caso delle misure indirette.
Possiamo ora applicare la formula che abbiamo ricavato nel capitolo precedente.
99
Riformuliamo il problema. Supponiamo di aver misurato le 2 grandezze x1 ed x2 e di avere ottenuto
x̂1 e x̂2 con le loro incertezze standard s( xˆ1 ) e s( xˆ 2 ) e di avere anche stimato una covarianza tra le
2 grandezze. Vogliamo trovare una stima di y che é una funzione di x1 ed x2 , y(x1 , x2) e una stima
della sua incertezza s ( yˆ ) . Nel capitolo precedente abbiamo imparato a calcolare il valore atteso e la
varianza della popolazione della variabile causale y. Ora però per utilizzare quella formula,
dobbiamo applicarla a campioni di x1 e di x2 non alle popolazioni. Per fare ciò identifichiamo i
valori attesi di y di x1 e di x2 con le rispettive stime di y, x1 ed x2, e le varianze con i quadrati delle
incertezze standard, secondo il procedimento che abbiamo già usato nel precedente paragrafo.
Identifichiamo infine la covarianza della popolazione delle 2 variabili con la covarianza
campionaria. Naturalmente questo passaggio richiede una identificazione campione-popolazione
che é lecita solo nella misura in cui i campioni “rappresentano” ragionevolmente bene le
popolazioni, cioé nel limite di errori casuali piccoli.
(3.3.2) Propagazione delle incertezze
Utilizzando le formule viste nel capitolo precedente, ed applicandola ai valori campionari, abbiamo
allora per la stima di y e per la stima della sua varianza:
yˆ = y ( xˆ , xˆ )
1
2
2
2
⎛ ∂y
⎛ ∂y ⎞
⎛ ∂y ⎞
⎛ ∂y ⎞
⎜⎜
⎟⎟
s ( yˆ ) = ⎜⎜ ⎟⎟
s ( xˆ ) + ⎜⎜
s ( xˆ ) + 2⎜⎜ ⎟⎟
x
x
x
∂
∂
∂
⎝ ⎠ xˆ1 , xˆ2 ⎝ ∂x
⎠ xˆ1 , xˆ2
⎝
⎝ ⎠ xˆ1 , xˆ2
2
2
2
1
2
1
2
1
2
⎞
⎟⎟
cov( xˆ , xˆ )
⎠ xˆ1 , xˆ2
1
2
Soffermiamoci su questa formula. Vi compaiono 2 categorie di elementi: da un lato le derivate della
funzione y calcolate in corrispondenza dei valori stimati di x1 e di x2, che non hanno nulla a che
vedere con le incertezze delle variabili x; dall’altra appunto le incertezze standard delle variabili x e
la covarianza tra queste, che sono invece grandezze indipendenti dalla forma di y, ma legati alla
nostra conoscenza sulle due variabili x ed anche al loro grado di correlazione. Sono questi 2
elementi a determinare l’incertezza propagata.
È utile a questo punto applicare la formula trovata al caso della misura indiretta delle densità dei
pesetti, per verificare se la deviazione standard delle misure di densità del campione di pesetti é in
accordo con il valore stimato in base alla propagazione.
In primo luogo calcoliamo le derivate della funzione y, poi prendiamo dai dati i valori stimati delle
deviazioni standard delle misure di massa e volume. Osserviamo dunque che le 2 misure non sono
correlate (nel senso che non sono correlati gli errori di bilancia e calibro).
Concludiamo dando una formula di propagazione molto utile nelle applicazioni, valida nel caso in
cui la funzione y sia una funzione ‘monomia’, cioè del tipo
y = kx x ...
α
β
1
2
esprimibile come prodotto delle variabili x elevate a esponenti (anche negativi). In caso di non
correlazione si ha:
2
2
⎛ s ( yˆ ) ⎞
⎜
⎟ =α
y
ˆ
⎝
⎠
2
⎛ s ( xˆ ) ⎞
⎜⎜
⎟⎟ + β
x
ˆ
⎝
⎠
1
1
2
⎛ s ( xˆ
⎜⎜
⎝ xˆ
2
2
2
)⎞
⎟⎟ + ...
⎠
Si noti il ruolo determinante degli esponenti α e β con cui x1 e x2 compaiono nella formula. Essi
determinano in effetti quanto “fortemente” y dipende da x1 e da x2.
(3.4) Nozione di consistenza e significatività: test d’ipotesi
100
(3.4.1) Consistenza tra risultati di esperimenti
Abbiamo dunque visto come in casi semplici si possono attribuire degli intervalli al valor vero sia
che si tratti di una misura diretta sia che si tratti di una misura indiretta. Supponiamo ora di aver
misurato una certa grandezza in laboratori diversi e con apparati diversi. Può essere, per esempio,
che diversi gruppi sperimentali siano impegnati in diversi esperimenti che intendono tuttavia
misurare una stessa grandezza per fare luce su un certo problema di fisica. Al termine di questi
esperimenti la comunità scientifica ha a disposizione N risultati diversi uno per ciascun
esperimento. Prima di qualunque altra cosa ci si chiede se i risultati ottenuti dai diversi esperimenti
siano tra di essi consistenti. La domanda é evidentemente di straordinaria rilevanza. Infatti la
consistenza tra diversi esperimenti, “rafforza” la conoscenza complessiva del fenomeno, mentre una
eventuale inconsistenza può significare che qualcuno degli esperimenti stia stimando male la
propria incertezza oppure che gli esperimenti stiano misurando grandezze diverse. Quest’ultimo é il
caso in cui uno o più degli esperimenti sono caratterizzati da errori sistematici fuori controllo che
fanno si’ che il misurando non rappresenti correttamente il valore vero.
Nel primo capitolo abbiamo accennato ad un confronto tra risultati basato sulla distanza in “numero
di deviazioni standard”. Quanto abbiamo detto allora é sostanzialmente corretto. Ora vogliamo
soltanto rendere più quantitativa la discussione fatta.
Supponiamo che i 2 esperimenti che vogliamo confrontare (A e B) danno il loro risultato sotto
forma di intervallo standard gaussiano del tipo x ± σ. Posso considerare la variabile casuale Δ=xAxB. Faccio allora la seguente ipotesi: i 2 campioni A e B provengono da due popolazioni gaussiane
caratterizzate da uno stesso μ e da varianze pari a quelle date da ciascun esperimento σA e σB. In
tale ipotesi la variabile Δ è anch’essa gaussiana. Il suo valore atteso sarà 0 e la sua varianza si
otterrà dalla formula della propagazione. Assumendo assenza di correlazione tra i 2 esperimenti
(circostanza ragionevole) avremo
σ =σ +σ
2
2
2
Δ
A
B
e dunque la variabile
Z=
Δ
σ
Δ
deve essere una variabile gaussiana standardizzata. A questo punto testare l’ipotesi di partenza
corrisponde a testare quanto é verosimile che la variabile Z cosi’ definita sia gaussiana
standardizzata (l’uso del termine verosimile in questo contesto non ha esattamente lo stesso
significato della definizione di verosimiglianza data sopra, ma ha un significato analogo). Per fare
ciò calcolo Z e vado a vedere nelle tabelle della distribuzione di Gauss normalizzata quant’è
P(Z ) = P((m > Z ) ∪ (m < − Z ))
cioè quanto é probabile che io ottenga un valore oltre Z in entrambi le code della gaussiana.
Evidentemente, più piccolo é il valore di questa probabilità più inverosimile é il fatto che Z
provenga da una popolazione gaussiana standardizzata.
Quanto detto corrisponde ad un esempio particolarmente semplice di test di ipotesi. Il procedimento
logico fatto può essere cosi’ ricapitolato:
Æ si definisce una variabile casuale, detta statistica campionaria, funzione dei dati (la variabile Z
nell’esempio dato sopra) tale che se l’ipotesi é verificata la sua funzione di distribuzione é nota
(una gaussiana standardizzata nell’esempio dato sopra);
Æ si calcola il valore di questa variabile;
Æ si stima quant’è “verosimile” che il valore misurato provenga dalla distribuzione aspettata
(nell’esempio dato sopra calcolare P (Z ) sulla base delle tabelle).
101
In alcuni casi si può procedere nel modo seguente: viene fissato un certo valore di probabilità di
soglia. Se P(Z ) é inferiore a questo valore, l’ipotesi viene rigettata: in caso contrario viene
accettata. La scelta della probabilità di soglia é in qualche misura arbitraria. Scelta tipiche possono
essere il 10% o il 5% o anche l’1%. Si noti che la scelta di questa soglia dipende da quanto
vogliamo essere ‘severi’. Certamente assumere il 10% come soglia significa essere piuttosto severi,
ma comporta il rigettare il 10% dei casi buoni come se fossero cattivi. Viceversa, scegliere l’1%
significa ridurre questa eventualità all’1% ma significa anche aumentare la possibilità di prendere
come buoni casi cattivi. Si tratta dunque di trovare un compromesso che dipende dalla natura del
problema in questione.
(3.4.2) Consistenza tra esperimento e modello
Un caso simile al precedente che pure abbiamo incontrato nelle nostre esperienze di laboratorio é
quello in cui vi é un valore atteso per il risultato di una certa misura, valutato sulla base di un
modello o sulla base di una ipotesi che si fa sulla grandezza che stiamo misurando. Nel caso delle
misure di densità l’ipotesi é che i cilindretti siano tutti fatti di alluminio puro e dunque la densità
attesa é la densità dell’alluminio, assunta nota con incertezza trascurabile. Muovendoci secondo
quanto detto nel paragrafo precedente, e facendo di nuovo l’ipotesi che la nostra misura provenga
da una popolazione gaussiana, costruiamo la seguente statistica campionaria:
Z=
xˆ − μ
σ
in cui x é il risultato della misura, σ la stima della sua deviazione standard gaussiana ed infine μ è il
valore atteso. Da questo punto in poi si segue il ragionamento fatto sopra. Essenzialmente, dato il
valore di Z si tratterà di calcolare sulla base delle tabelle quanto vale P (Z ) e sulla base di tale
valore prendere una decisione.
Nel seguito vedremo un altro esempio di test di ipotesi quando discuteremo i fit. E’ opportuno
sottolineare che in ogni caso l’accettazione o il rigetto di una ipotesi non costituisce mai una
conclusione certa, ma sempre una conclusione di natura probabilistica. Giova ribadire qui quanto
già detto sopra, vale a dire che la scelta della probabilità di soglia determina la “severità” del test.
Maggiore é tale probabilità di soglia, maggiore é la nostra tendenza a rigettare i casi, nel senso che
l’accettazione dell’ipotesi si ha solo se l’accordo é molto buono. Ma proprio in questo caso diventa
più alta la probabilità di rigettare come falsa un ipotesi vera.
(3.4.3) Combinazione di diverse misure: la media pesata.
Supponiamo ora di avere verificato che i risultati di due esperimenti relativi alla grandezza x siano
consistenti, cioè che il test dell’ipotesi di consistenza abbia dato esito positivo. A questo punto ci
poniamo il problema di combinare i due risultati utilizzando tutte le informazioni a nostra
disposizione. Fare la media aritmetica tra i due risultati costituisce un approccio che ha un evidente
problema. Infatti il risultato della media sta appunto a metà tra i due. Supponiamo che uno dei due
risultati sia caratterizzato da una incertezza molto minore dell’altra. E’ naturale dare più credito a
quel risultato e fare le cose in modo tale che il risultato finale sia più vicino a quello tra i due che ha
incertezza minore. Si tratta cioè di fare una media pesata:
x =
p
xˆ p + xˆ p
p +p
1
1
1
2
2
2
in cui p1 e p2 sono appunto due pesi. In base a quanto detto i 2 pesi devono essere legati alla
incertezza di ciascuna misura o meglio al suo inverso. Si dimostra che con la scelta
p=
1
s ( xˆ )
2
102
la media pesata ottenuta é la “migliore stima” di x sulla base delle informazioni a disposizione.
Pertanto, generalizzando alla combinazione di N risultati diversi, diamo la definizione di media
pesata:
xˆ
s ( xˆ )
x =
1
∑
s ( xˆ )
N
∑
i =1
i
2
i
p
N
i =1
2
i
Si dimostra inoltre che la deviazione standard della media pesata é data da:
s2 (xp ) =
1
N
∑s
i =1
2
1
( xˆi )
Si noti che nel caso di incertezze tutte uguali si ritorna alla media aritmetica e alla deviazione
standard della media.
Giova ricordare che questo procedimento é applicabile solo al caso in cui si é preventivamente
verificato che le misure in questione sono campioni provenienti dalla stessa popolazione. Nel caso
questa ipotesi fosse rigettata questa combinazione non avrebbe significato, e allora occorre
procedere in modo diverso. Nel corso della discussione del fit (prossimo paragrafo) otterremo una
dimostrazione della formula della media pesata per il caso generale di N misure indipendenti.
(3.5) Analisi delle dipendenze funzionali: il fit
L’ultimo argomento che trattiamo in questo corso affronta uno degli aspetti più importanti
dell’indagine scientifica, in un certo senso il punto d’arrivo di ogni indagine sperimentale. Come
abbiamo detto nell’introduzione al metodo scientifico, il progresso conoscitivo si sviluppa
attraverso il confronto tra i risultati degli esperimenti e le predizioni dei modelli. In fisica i risultati
degli esperimenti sono espressi come misure, cioè come valori numerici di grandezze fisiche
opportunamente definite, mentre le predizioni dei modelli sono espresse o come valori numerici di
grandezze o come relazioni matematiche tra grandezze. Concentriamoci su questo secondo caso.
Formuliamo ora il problema in modo generale. Nel seguito risolveremo il problema solo in un caso
particolare, che tuttavia risulta essere di notevole rilevanza e generalità.
(3.5.1) Il fit: formulazione del problema
Supponiamo che il nostro esperimento consista nel misurare, al variare di una certa grandezza x,
una seconda grandezza, diciamo y. Effettuiamo N misure in corrispondenza di N diversi valori di x.
Avremo pertanto gli N valori di x x1,x2,...,xN e, in corrispondenza di questi gli N valori di y
y1,y2,...,yN. Naturalmente sia per quel che riguarda le x che le y, si tratta di misure e dunque ciascun
valore é affetto di una incertezza o, più in generale, costituisce un campione da una popolazione
caratterizzata da una certa funzione di distribuzione.
Supponiamo poi che le due grandezze x ed y siano legate, secondo un certo modello, da una
relazione funzionale del tipo
y = y ( x,θ )
cioè da una formula che esprime la dipendenza funzionale tra le due grandezze e che a sua volta
dipende da un certo numero, diciamo M, di parametri θ . Questo simbolo indica un insieme di
parametri. Per fissare le idee, il caso in cui l’andamento atteso dal modello sia di tipo rettilineo, la
funzione y sarà data da:
y = mx + c
103
in cui evidentemente il coefficiente angolare m e l’intercetta all’origine c sono i parametri. I
parametri possono assumere valori che hanno significato nell’ambito del modello in questione. Ad
esempio nel caso della dipendenza allungamento molla – massa del pesetto, sappiamo bene che la
dipendenza rettilinea prevista da una semplice applicazione delle leggi della statica, comporta che il
coefficiente angolare sia il rapporto g/k tra l’accelerazione di gravità g e la costante elastica della
molla k, e dunque si tratta di un numero rilevante nell’ambito del modello che stiamo applicando.
Lo sperimentatore che ha effettuato queste misure si pone allora i due seguenti problemi:
la dipendenza funzionale attesa dal modello descrive bene i dati ?
(a)
(b)
quali sono i valori degli M parametri θ per i quali si ha il miglior accordo possibile tra
modello ed esperimento ?
Si tratta di due diverse questioni. La questione (a) é del tipo di quelle di cui abbiamo parlato a
proposito dei test di ipotesi. La questione (b) é invece una questione “nuova” che in realtà abbiamo
affrontato in laboratorio in modo grafico: tracciando cioè la migliore curva (una retta nei casi da noi
visti) e poi valutando graficamente coefficiente angolare ed intercetta.
Nella pratica sperimentale normalmente le due questioni si pongono contestualmente. Cioè lo
sperimentatore si pone entrambi le questioni. Vuole capire se la descrizione del modello é
soddisfacente o se é necessario introdurre altri termini (correzioni) al modello per avere una
descrizione più adeguata. Allo stesso tempo lo sperimentatore vuole ricavare i migliori parametri
dato che spesso questi hanno significati fisici rilevanti.
Nel seguito descriviamo un metodo che permette di affrontare e risolvere entrambi i problemi.
Chiamiamo questo procedimento fit, parola inglese che traduciamo con “adattamento”, intendendo
il fatto che vogliamo adattare al meglio il modello ai nostri dati.
(3.5.2) Ipotesi di lavoro
Descriviamo questo metodo restringendoci al caso in cui sono verificate alcune ipotesi che ora
elenchiamo e che vedremo entrare in gioco nei vari passaggi della descrizione del metodo. Le
ipotesi che facciamo in realtà non sono molto restrittive, nel senso che si applicano ad una vasta
categoria di situazioni. Vediamole:
Æ le misure della variabili y provengono da popolazioni tutte gaussiane di varianze σ 2 ;
i
Æ le misure della variabile x provengono da popolazioni qualsiasi, ma le loro deviazioni standard
sono “trascurabili” rispetto alle corrispondenti per le y; qui occorre fare attenzione circa il senso di
questa affermazione. Infatti per trascurabile intendiamo che l’incertezza di x “propagata” su y sia
molto minore dell’incertezza di y. Se y(x) é la funzione questo vuol dire
dy
σ ( x) << σ ( y )
dx
graficamente il significato di questo confronto é illustrato nella Fig.3.2.
Æ le misure delle y sono tutte indipendenti, ovvero per ogni coppia i,j cov[ y
Æ la dipendenza attesa é del tipo
y = mx + c :
i
, y ] = 0;
j
m é il coefficiente angolare e c é l’intercetta
all’origine;
104
Fig.3.2 Lo stesso punto sperimentale con σy=0.5 e σx=0.1 in 2 situazioni diverse: in un caso la dipendenza tra
le 2 variabili nell’intorno del punto é espressa come y=x (dy/dx=1) nell’altro caso come y=7x (dy/dx=7). Le
frecce tratteggiate indicano il contributo dell’incertezza sulle x all’incertezza sulle y. Nel primo caso dunque
l’ipotesi descritta nel testo é verificata nel secondo chiaramente no.
Come si vede, le ipotesi sono abbastanza generali. Si noti che l’ultima ipotesi, quella
dell’andamento rettilineo, vale anche quando l’andamento non é direttamente rettilineo, ma può
essere “linearizzato”, cioè reso rettilineo con un semplice cambio di variabili. E’ il caso del grafico
T -√m nella molla, il grafico t2 – s nel caso del volano scarico ed infine tutti i casi in cui
l’andamento atteso é esponenziale si prende in considerazione la carta semilogaritmica.
(3.5.3) Il fit: derivazione delle formule per le stime dei parametri
Utilizziamo il principio di massima verosimiglianza che abbiamo formulato nel par.(3.1.3). A tale
scopo dobbiamo costruire la funzione di verosimiglianza, cioè la densità di probabilità congiunta
delle y, dato il modello e i parametri m e c della retta. Osserviamo a questo scopo che essendo le N
misure di y indipendenti, la densità di probabilità congiunta delle y può essere espressa come il
prodotto delle densità di probabilità di ciascuna misura. Utilizzando le ipotesi fatte di gaussianità
delle y si ha:
⎛ ( y − mx − c)
1
L( y / m, c) = ∏ f ( y /m, c) = ∏
exp⎜⎜ −
2π σ
2σ
⎝
N
N
i
i =1
i
i
2
i =1
i
i
2
⎞
⎟⎟
⎠
cioè la densità di probabilità congiunta (che abbiamo indicato con L da likelihood) é il prodotto di
densità di probabilità gaussiane, ciascuna con valore atteso dato dal modello (mxi+c) e varianze σ 2 .
i
Trattiamo le xi come fossero delle costanti, in base alle ipotesi fatte.
Il principio di massima verosimiglianza ci dice che le migliori stime di m e di c sono quelle per cui
L é massima. Per affrontare in modo più semplice la matematica del problema procediamo con un
semplice artificio. Prendendo il logaritmo naturale di L otteniamo una nuova funzione
l = ln(L )
che tuttavia, date le proprietà di monotonia della funzione logaritmo assumerà il massimo in
corrispondenza degli stessi valori di m e di c che massimizzano L. Calcoliamo dunque l
105
( y − mx − c)
1
l = − ∑ ln(2πσ ) − ∑
2
2σ
N
i
i
i =1
2
N
2
i
2
i =1
i
Dal momento che sono interessato a calcolare il massimo rispetto ad m e a c, osservo subito che il
primo termine é costante rispetto ad m e a c, e dunque posso non considerarlo. Rimane da
massimizzare
1 ( y − mx − c)
l=− ∑
σ
2
2
N
i
i
2
i =1
i
ovvero da minimizzare (cambio segno e tolgo l’1/2 che di nuovo non cambia il massimo della
funzione) la quantità
( y − mx − c)
χ =∑
N
2
i
i
σ
i =1
Ho chiamato
χ
2
2
2
i
la quantità da minimizzare non per caso. Infatti, nel caso in cui le ipotesi fatte
sono tutte verificate, essa risponde proprio alla definizione di variabile
χ
2
data a suo tempo, come
somma di variabili gaussiane standardizzate.
Per minimizzare, procediamo nel modo standard: poniamo uguale a 0 le derivate prime della
funzione χ 2 rispetto ad m e a c. Si noti come la funzione χ 2 è una funzione di m e di c a questo
punto mentre i valori sperimentali yi e xi sono diventati delle costanti fissate. Dovrò quindi cercare
quei valori di m e di c che risolvono il sistema lineare dato da:
∂χ
=0
∂m
∂χ
=0
∂c
2
2
Svolgiamo le derivate. Cominciamo dalla derivata parziale rispetto ad m. Ricordiamo che nel fare la
derivata parziale rispetto a m si deve pensare c come una costante.
∂ ⎛ ( y − mx − c)
∂χ
⎜∑
=
σ
∂m ∂m ⎜⎝
2
2
i
i
i
2
i =1
⎞
− x 2( y − mx − c)
⎟⎟ = ∑
=
σ
⎠
N
N
i =1
i
i
2
i
i
⎛ xy
x
x ⎞
1
− 2⎜⎜ ∑
− m∑ − c ∑ ⎟⎟ = −2(xy − m x − c x )∑
σ
σ ⎠
σ
⎝ σ
2
N
N
i
i =1
i
2
i
N
i
i =1
i
2
i
i =1
2
i
2
N
i =1
2
i
nell’ultimo passaggio ho definito le medie “pesate” sia del prodotto xy che di x ed ho messo in
evidenza la somma dei pesi (che come sappiamo dal precedente paragrafo ha il significato di
inverso della varianza della media pesata. Poiché il risultato della derivata va uguagliato a 0 posso
togliere il –2 e la sommatoria dei pesi che sono indipendenti da m e da c. Pertanto la prima
equazione cui siamo pervenuti é del tipo:
m x + c x = xy
2
Procediamo ora con la seconda derivata, rispetto a c con m costante:
106
∂χ
∂ ⎛ ( y − mx − c)
= ⎜⎜ ∑
σ
∂c ∂c ⎝
2
2
N
i
i
2
i =1
i =1
i
N
N
i
i
2
i =1
2
i =1
i
i
i =1
i
2
i
⎛ y
x
1
− 2⎜⎜ ∑ − m∑ − c ∑
σ
σ
⎝ σ
N
⎞
− 2( y − mx − c)
⎟⎟ = ∑
=
σ
⎠
N
i
2
i
⎞
1
⎟⎟ = −2( y − m x − c )∑
σ
⎠
N
i =1
2
i
da cui ricaviamo, sempre uguagliando a 0 la derivata ed eliminando anche in questo caso i fattori
comuni:
mx + c = y
Siamo dunque pervenuti ad un sistema lineare di 2 equazioni in 2 incognite, che riscriviamo:
m x + c x = xy
2
mx + c = y
Risolviamo questo sistema con il metodo di Cramer. A questo scopo calcoliamo prima il
determinante d della matrice dei coefficienti:
d =x −x
2
2
che ha l’ovvio significato di “varianza campionaria della variabile x”, e quindi rappresenta quanto
sono “sparse” le misure di x. Nel seguito lo chiameremo “braccio di leva” e capiremo il significato
molto intuitivo di questa espressione.
Quindi per ricavare m e c abbiamo bisogno degli altri 2 determinanti che chiamiamo dm e dc
rispettivamente:
dm = xy − x y
dc = x y − x xy
2
e procediamo a scrivere le formule risolutive (secondo il metodo di Cramer):
xy − x y
x − x
x y − x xy
cˆ =
x − x
mˆ =
2
2
2
2
2
Con queste formule abbiamo risolto il problema (b) posto all’inizio del capitolo: dato un insieme di
N “punti sperimentali”, ciascuno dato dalla misura di una grandezza y in corrispondenza di un
valore della grandezza x, nelle ipotesi fatte, le migliori stime dei parametri m e di c che descrivono
il supposto andamento rettilineo di y in funzione di x, sono date dalle formule sopra ricavate.
Operativamente si tratterà quindi di calcolare le medie (pesate con gli inversi delle varianze delle
singole misure) delle x delle y dei prodotti xy e dei quadrati delle x. Dalla combinazione di tale
medie otteniamo le stime di m e di c.
Prima di procedere al calcolo delle varianze di queste stime, facciamo alcune considerazioni sulle
formule ricavate.
Æ Ricordando la definizione di varianza e covarianza campionaria, osserviamo che la stima di m si
puo’ scrivere nella forma:
mˆ =
cov( x, y )
Var ( x)
dunque m é strettamente legato alla correlazione tra le 2 grandezze. Il caso di non correlazione
corrisponde all’essere m=0 (è il caso visualizzabile come la “palla” secondo la discussione della
correlazione che abbiamo fatto). Inoltre il segno di m é legato al segno della covarianza tra y e x
(essendo la varianza di x definita positiva). Come abbiamo visto negli esempi dati per la
107
correlazione, covarianze positive e negative identificano pendenze positive e negative. Si noti
tuttavia che cov( x, y ) e Var (x) in questo caso indicano rispettivamente covarianza tra le variabili e
varianza delle x (il “braccio di leva”) e non covarianza delle incertezze o incertezza sulla x.
Æ La formula di c é meno intuitiva di quella di m. Diventa intuitiva nel caso in cui x = 0 . Infatti
in tal caso c = y . Si tratta del caso in cui i punti sono distribuiti sull’asse x in modo che tanti sono
a destra quanti sono a sinistra (il baricentro dei punti é a 0). In tal caso evidentemente l’intercetta
all’origine c diventa la media pesata delle y.
Æ Notiamo che in tutte le formule compaiono medie pesate. Questo vuol dire che gli N punti non
sono tutti uguali. Il fit “pesa di più” quelli che hanno incertezza minore. Nel caso in cui tutte le
incertezze sulle y fossero uguali, allora le medie diventano automaticamente medie aritmetiche.
Æ Ultima osservazione. Non é necessario verificare il segno delle derivate seconde per stabilire se
il risultato trovato corrisponde ad un massimo o ad un minimo (infatti per ora abbiamo solo
richiesto derivate prime nulle). Infatti si dimostra (ma é ampiamente intuitivo) che il problema
posto non ammette massimi. Ciò in virtù del fatto che la possibilità di allontanarsi dai punti é
“illimitata”.
(3.5.4) Il fit: calcolo delle varianze dei parametri e della loro covarianza
Affrontiamo ora il secondo problema altrettanto importante del primo: trovare una stima delle
incertezze da attribuire alle stime trovate di m e di c.
Osservando le formule trovate, notiamo che le stime di m e c, possono essere pensate come variabili
casuali, funzioni a loro volta di variabili casuali. Infatti sono funzioni dei valori delle x e delle y che
altro non sono che realizzazioni di grandezze che dobbiamo trattare come variabili casuali appunto.
Dunque applichiamo alle 2 stime trovate il metodo della propagazione delle incertezza. Dal
momento che, per le ipotesi fatte, le x hanno incertezze trascurabili, allora dovremo propagare solo
le incertezze sulle y, che peraltro conosciamo. Per procedere con la formula di propagazione delle
incertezze, mi manca di calcolare le derivate parziali di m e di c rispetto a ciascuna yi.
x
∂mˆ
∂ ⎛ xy − x y ⎞
1 ⎛x
⎜⎜ −
=
⎜
⎟=
∂y ∂y ⎝ x − x ⎠ Var ( x) ⎝ σ σ
i
2
2
i
i
2
2
i
i
⎞ 1
⎟⎟
⎠ ∑ 1σ
N
i =1
2
i
x x⎞ 1
∂cˆ
∂ ⎛ x y − x xy ⎞
1 ⎛x
⎜⎜ −
⎟
=
⎜
⎟=
∂y ∂y ⎝ x − x ⎠ Var ( x) ⎝ σ
σ ⎟⎠ ∑ 1
σ
2
2
i
2
2
i
i
2
2
i
i
N
i =1
2
i
Applico ora la formula di propagazione usando l’ipotesi di non correlazione tra le varie y. Per la m
2
⎛ ∂mˆ ⎞
( x − x)
Var ( mˆ ) = ∑ ⎜⎜ ⎟⎟ Var ( y ) = ∑
σ =
1
σ (Var ( x)) ( ∑ σ )
⎝ ∂y ⎠
2
N
N
2
i
i
i =1
4
i =1
i
i
1
N
(Var ( x)) ( ∑ 1 )
σ
2
N
i =1
N
2
2
i
2
∑
i =1
( x − x)
i
σ
2
i
2
=
2
2
i =1
i
1
(Var ( x)) (∑ 1 )
σ
2
N
i =1
i
Var ( x)
2
i
in cui ho osservato che
N
∑
i =1
( x − x)
i
σ
1
∑
i =1
2
= Var ( x)
i
N
σ
2
2
i
108
Ottengo dunque per la varianza di m
Var (mˆ ) =
1
Var ( x) ∑ 1
N
σ
i =1
2
i
Si noti che nel caso in cui tutte le varianze degli N valori di y siano uguali, la formula si semplifica
ed assume una forma più “familiare”:
σ
Var (mˆ ) =
2
NVar ( x)
cioè la varianza di m va come 1/N e quindi l’incertezza su m va pure come l’inverso della radice di
N.
Passo ora alla varianza della stima di c.
2
⎛ ∂cˆ ⎞
( x − x x)
Var (cˆ) = ∑ ⎜⎜ ⎟⎟ Var ( y ) = ∑
σ =
1
y
∂
Var
x
σ
(
(
))
(
)
∑
⎝ ⎠
σ
2
2
N
N
2
i
i
i =1
4
i =1
i
2
2
i
2
2
N
i
i =1
2
2
i
N
∑
i =1
i =1
2
i
i =1
i =1
2
i
N
i =1
2
i =1
i
i
N
i =1
2
2
2
2
2
2
i
x⎞
⎟ =
⎟
⎠
i
⎛ x(x − x )⎞
⎜1 +
⎟ =
Var
x
(
)
⎠
σ ) ⎝
i
2
2
i
⎛
(x − x ) + x (x − x )
⎜1 + 2 x
Var ( x)
Var ( x)
) ⎜⎝
σ
2
1
∑
σ (∑ 1
N
2
2
2
i
2
1
σ (∑ 1
N
σ
i
⎛x −x +x −x
⎜
Var ( x)
) ⎜⎝
σ
2
N
2
i =1
( x − x + x − x x)
1
=∑
∑
σ (Var ( x)) (∑ 1 )
σ (∑ 1
N
N
2
i
i
2
2
2
⎞
⎟=
⎟
⎠
i
Arrivati a questo punto spezzo in tre termini l’espressione in parentesi e opero la sommatoria,
osservando che il secondo termine dà un contributo nullo:
2
1
x
1
+
=
Var (cˆ) =
( ∑ 1 ) Var ( x)(∑ 1 ) (∑ 1
σ
σ
σ
N
i =1
N
2
i =1
i
2
N
2
i
i =1
⎛
x ⎞
⎜⎜1 +
⎟
) ⎝ Var ( x) ⎟⎠
2
i
da cui
Var (cˆ) =
x
2
Var ( x )( ∑ 1
N
σ )
i =1
2
i
che costituisce la formula cercata. Si noti nel caso di varianze tutte uguali, l’espressione diventa:
⎛ x ⎞σ
Var (cˆ) = ⎜
⎟
Var
(
x
)
⎝
⎠N
2
2
in cui, come nel caso della varianza di m, compare il termine σ2/N che caratterizza la “scala”
dell’incertezza sui parametri.
Facciamo alcune osservazioni sulle formule trovate per Var(m) e Var(c).
109
Æ Abbiamo già visto come in ambedue le formule compare il termine σ2/N. Questo implica che
aumentare il numero di punti e diminuire l’incertezza sui punti, migliora la nostra conoscenza di m
e di c (sarebbe strano se fosse vero il contrario).
Æ In entrambi i casi la varianza va come l’inverso di Var(x). Quindi aumentare il “braccio di leva”
cioé lo sparpagliamento delle misure in x é un altro fattore di miglioramento del fit.
Æ Nel caso di Var(c) compare anche la media dei quadrati delle x, che é una misura di “dove” si
trovano i punti, rispetto all’origine dell’asse X (notiamo che x 2 è il momento secondo intorno
all’origine), mentre in Var(m) questo termine non compare. Ciò significa che mentre l’incertezza su
m non dipende dalla scelta dell’origine dell’asse X (è, potremmo dire, invariante per traslazioni),
l’incertezza su c vi dipende fortemente e diventa minima quando l’origine dell’asse X corrisponde
al baricentro dei punti. Ciò ha un significato intuitivo illustrato in Fig.3.3. Più lontano é l’asse Y dai
punti, più grande é l’estrapolazione che devo fare per determinare c.
Æ Da quanto detto si può dire che in un fit, mentre m ha un significato assoluto, c dipende dalla
scelta degli assi.
Fig.3.3 Esempio di fit rettilineo su punti molto “lontani” dall’origine dell’asse x. Si noti come
l’indeterminazione sul coefficiente angolare m si ripercuota direttamente sull’indeterminazione
dell’intercetta c.
Da ultimo osserviamo che m e c sono ricavati a partire dagli stessi dati, e sono pertanto delle
funzioni delle stesse grandezze misurate. Quindi anche se, come nelle ipotesi fatte, le y sono tutte
indipendenti, in generale m e c sono correlate. Per calcolare la covarianza tra m e c, occorre
utilizzare la formula della propagazione per più funzioni che non abbiamo trattato. Dunque diamo
direttamente la formula.
110
cov(mˆ , cˆ) = −
x
Var ( x)(∑ 1
N
σ )
i =1
2
i
che diventa, nel caso di varianze sulle y tutte uguali:
x σ
cov(mˆ , cˆ) = −
Var ( x) N
2
in cui di nuovo compare il termine σ2/N e si ha la dipendenza inversa dal “braccio di leva”. Si noti
come tale covarianza sia nulla solo nel caso in cui la media pesata delle x dei punti sia 0. Ovvero
quando l’origine dell’asse X é scelta in modo da farla coincidere con il baricentro dei punti. Nel
caso illustrato in Fig.3.3 tale covarianza é evidentemente diversa da 0, infatti un cambiamento di m
si riflette chiaramente in un cambiamento di c. Ma se in quell’esempio traslassimo l’asse y di circa
16 unità di X facendo combaciare l’origine con il baricentro, la covarianza sarebbe nulla.
(3.5.5) Valutazione della bontà del fit: test del χ2.
Finora abbiamo utilizzato il metodo della massima verosimiglianza per rispondere solo alla
domanda (b), cioè abbiamo calcolato le migliori stime dei parametri della retta, ed abbiamo stimato
le varianze di tali stime. Ora vogliamo porci il problema (a). Quanto bene l’andamento rettilineo
“descrive” i dati ?
In Fig.3.4 sono riportati alcuni esempi di confronto tra i dati e la migliore retta ottenuta con il
metodo appena descritto. Possiamo individuare 4 casi differenti tutti illustrati nella figura. I dati
sono rappresentati come punti nel piano y-x corredati da barra di incertezza esclusivamente sulla y
dato che abbiamo supposto trascurabili le incertezze sulle x.
Caso (1): i punti mostrano un andamento rettilineo ma le incertezze sono molto piccole per cui i
punti scartano dalla retta per “molte deviazioni standard”; il numero di deviazioni standard é
calcolato come il rapporto tra lo scarto tra punto e retta e la deviazione standard della misura;
Caso (2): i punti mostrano un andamento rettilineo ma le incertezze sono molto grandi, per cui i
punti scartano dalla retta solo per “frazioni di deviazione standard”;
Caso (3): i punti mostrano un andamento diverso da quello lineare. Gli scarti dei punti dalla retta
hanno a loro volta un andamento;
Caso (4): i punti mostrano un andamento rettilineo con le incertezze tali per cui i punti scartano per
“frazioni di deviazione standard” o al piu’ per “qualche deviazione standard”;.
Per rendere quantitativa questa discussione chiamiamo residuo lo scarto punto retta:
res = y − mˆ x − cˆ
i
i
i
In Fig.3.5 sono mostrati per gli stessi 4 esempi della precedente figura gli andamenti dei residui in
funzione di x corredati con la stessa incertezza della y. Si osserva in modo più chiaro quanto detto
sopra.
Concludiamo che: nei casi (1) e (2) l’andamento rettilineo é ragionevole, ma sono mal stimate le
incertezze dei punti. In verità nel caso (1) potrebbero anche esserci effetti tali da dare un andamento
molto irregolare ma ciò é molto inverosimile. Nel primo caso la media del modulo dei residui é
molto maggiore e nel secondo molto minore delle singole σ stimate dai dati. Nel caso (3) occorre
prendere in considerazione un andamento diverso da quello lineare. L’andamento dei residui può
essere sintomo di “nuova fisica” cioè di effetti nuovi che il modello non spiega, oppure di effetti
strumentali non capiti. Infine il caso (4) é quello “buono”, cioè l’andamento é rettilineo e le
incertezze sono ben stimate.
111
Fig.3.4. Sono i 4 casi di fit rettilineo descritti nel testo. Nei riquadri sono riportati per ogni fit il valore
del χ2 , di N-2 e dei 2 parametri della retta, rispettivamente c ed m ottenuti dal fit.
Per rendere quantitativo il giudizio per ora solo visivo (che peraltro é molto più potente di qualsiasi
test di ipotesi immaginabile), dobbiamo procedere come per i test di ipotesi che abbiamo visto:
dobbiamo costruire una statistica campionaria funzione dei dati, tale che se il modello é valido e se
le incertezze sono correttamente stimate, questa sia caratterizzata da una certa funzione di
distribuzione nota. Sulla base delle ipotesi fatte (popolazioni gaussiane per le y e y indipendenti),
la variabile
N
∑
i =1
( y − mˆ x − cˆ)
i
2
i
σ
2
i
112
Fig.3.5. Andamento dei residui per i 4 casi di fit rappresentati in Fig.3.4. Le barre di incertezza riportate
sono quelle della variabile in ordinata.
è una variabile χ2 . Si tratta della variabile che abbiamo minimizzato. Essa é la somma dei quadrati
dei residui normalizzati alla varianza, in altri termini la somma dei quadrati del “numero di
deviazioni standard” di ciascun punto. E’ qualcosa quindi che ci dice proprio quanto i punti
scartano dalla retta in termini delle loro deviazioni standard.
Il numero di gradi di libertà di questa variabile non é N ma é N-2. Infatti m e c sono stati stimati
dai dati e pertanto in questo abbiamo perso 2 gradi di libertà. E’ come se 2 dei dati siano utilizzati
due volte e dunque non contano nella somma.
Pertanto il test consiste nel calcolare il valore di questa variabile e poi confrontarlo con le tabelle
del χ2. Ricordiamo che il valore atteso della variabile χ2 é pari al numero di gradi di libertà, cioè N2 in questo caso. Dunque valori molto diversi da questo indicano già un problema.
Consideriamo i 4 casi enunciati, per ciascuno dei quali i valori del χ2 corrispondenti sono indicati
nei riquadri di Fig.3.4 e in ogni caso é N-2=10-2=8.
113
Fig.3.6 Fit parabolico a 3 parametri liberi per gli stessi dati del caso (3) rappresentato nelle Fig. 3.4 e 3.5. Il
riquadro mostra oltre a χ2 e N-3=7, i valori ottenuti dal fit per i 3 parametri della parabola a, b e c
(y=a+b*x+c*x**2). Nel grafico di sotto é mostrato l’andamento dei residui per questo nuovo fit.
Caso (1). Qui ci aspettiamo di trovare un valore molto grande del χ2. Infatti i residui valgono molte
deviazioni standard, e dunque la funzione sopra scritta assumerà valori molto maggiori di N-2,
essendo ciascun termine della somma >> 1. In effetti il valore ottenuto é quasi 90 (>> 8)
Caso (2). Qui l’opposto. χ2 << N-2 essendo ciascun termine << 1. Si ottiene 0.6 (<<8).
Caso (3). Qui il valore di χ2sarà di nuovo >> N-2. Si trova addirittura 100.
Caso (4). Il χ2 é come ci si poteva aspettare molto prossimo a N-2. In effetti ogni punto in media
contribuisce per poco meno di una unità.
Dal punto di vista del valore del χ2 il caso (3) é sostanzialmente equivalente al caso (1) ma in realtà
da un semplice sguardo ai 2 grafici, si evince che i casi sono completamente differenti. In un caso
infatti, l’ipotesi sbagliata non é l’andamento rettilineo, ma la stima delle incertezze; nell’altro le
incertezze probabilmente sono stimate bene, ma é l’andamento che non va. Dunque il test del χ2
non é capace di distinguere i 2 casi. Per discriminare occorre usare altri metodi (in realtà l’occhio
umano é sempre il più prezioso di questi metodi). Un procedimento corretto é comunque quello di
114
fare il test del χ2, e, in caso di disaccordo, tentare strade alternative. Ad esempio un polinomio di
grado superiore al primo. La Fig.3.6 mostra il caso (3) con un fit parabolico. Si nota che il fit va
molto meglio, il χ2 si é ridotto da 100 a 19 (contro N-3=10-3=7 perché ora il fit ha 3 parametri e
non più 2). Il grafico dei residui mostra un andamento migliore del precedente. Tuttavia ancora
forse si può vedere una dipendenza residua che potrebbe essere dovuta ad altri effetti ancora non
presi in considerazione con il fit parabolico.
Fig.3.7 Esempio di fit in cui un andamento chiaramente non rettilineo viene mascherato da un buon χ2 in
virtù del fatto che le incertezze sono sovrastimate. Questo esempio mostra chiaramente che il test del χ2 non
va mai fatto senza ispezionare visivamente il grafico.
Resta da chiarire con che criterio decidiamo che un χ2 é buono o cattivo. Il procedimento é quello
dei test di ipotesi. Detto χ2m il valore misurato, prendo le tabelle e calcolo
P( χ > χ )
2
2
m
In questo caso essendo la statistica campionaria definita positiva, occorre considerare una sola
coda. A questo punto possiamo mettere una soglia al valore di accettazione: per esempio, se questa
probabilità é maggiore del 5% accetto l’ipotesi, in caso contrario la rigetto. In questo modo rigetto
senz’altro il caso (1) ed il caso (3) nel caso di fit rettilineo. Invece accetto con altissima probabilità
(il 98-99% o oltre) il caso (2). Questo però é un problema. Infatti come abbiamo visto il caso (2)
115
significa che abbiamo sovrastimato le incertezze. Dunque quando la probabilità del χ2 é molto alta
é un campanello d’allarme per le incertezze. Quindi prima di concludere qualcosa riguardo
l’andamento occorrerà tentare di stimare meglio le incertezze.
Infine nel caso (4) il valore della probabilità del χ2 é intorno al 50% ed infatti l’andamento é
giusto.
Concludiamo questa discussione insistendo sul fatto che in ogni caso il valore del χ2 da solo non é
in generale sufficiente per capire effettivamente se l’andamento proposto é corretto o no, ma
occorre sempre ispezionare il grafico ed in particolare l’andamento dei residui. La fig.3.7 mostra
un caso in cui pur avendosi un χ2 buono un andamento rettilineo in realtà non descrive bene i dati.
E’ un caso in cui una sovrastima delle incertezze “maschera” un andamento diverso da quello
lineare “inventando” un buon χ2.
(3.5.6) Caso particolare: test della consistenza tra N misure indipendenti
Un caso particolare si ha quando l’ipotesi che deve essere testata é quella dell’assenza di un
qualsiasi andamento. Questo corrisponde, secondo quanto abbiamo detto, ad effettuare un fit con
una funzione del tipo
y=c
in cui c é evidentemente l’unico parametro da determinare. Si noti come nel caso in questione la
variabile indipendente x cessa di avere un qualunque ruolo. Infatti a questo punto il χ2 sarà dato
da:
χ =∑
N
2
( y − c)
i
i =1
σ
2
2
i
derivando rispetto a c e uguagliando a 0 si ottiene:
N
N
N
( yi − c)
yi
∂χ 2
1
= −2∑
= −2∑ 2 + 2c∑ 2 = 0
2
∂c
σi
i =1
i =1 σ i
i =1 σ i
da cui:
N
cˆ =
∑
i =1
y
i
σ
∑ 1
2
i
N
i =1
σ
2
i
che costituisce l’estensione della formula della media pesata al caso di N misure. Quanto visto
costituisce dunque una dimostrazione della formula della media pesata data nel paragrafo
precedente.
Il valore del χ2 in questo caso ci permette di valutare la consistenza tra N misure della stessa
grandezza fisica, per esempio effettuata da diversi esperimenti. Dopo aver calcolato la media
pesata tra le misure, sulla base del valore del χ2 ottenuto posso testare l’ipotesi di consistenza tra le
misure. Si tratta evidentemente di un χ2 con N-1 gradi di libertà (perché in questo caso ho stimato
solo c) per il quale valgono le considerazioni viste nel paragrafo precedente.
Infine se l’ipotesi é accettata, posso usare la media pesata come migliore stima della grandezza. La
varianza di tale stima sarà evidentemente:
Var (cˆ) =
1
∑ 1
σ
N
i =1
2
i
come si ottiene applicando la propagazione alla formula per c.
(3.5.7) Il fit: come farlo operativamente
Ricapitoliamo dunque brevemente quanto visto, per avere un quadro delle operazioni da fare.
116
Lo schema é quello visto. I dati sono costituiti da una tabella di N misure di y in corrispondenza di
N valori di x. Schematizziamo la procedura da seguire.
Effettuiamo il grafico y-x su carta millimetrata. Tracciando a matita una retta, valutiamo “a
(a)
occhio” se la dipendenza rettilinea é corretta e possiamo dare una prima stima di m.
Date le incertezze sulle x e sulle y (determinate “al meglio”) ed il valore di m stimato,
(b)
valutiamo se si é nella condizione di “trascurabilità” delle incertezze sulle x secondo quanto detto.
Calcoliamo m,c utilizzando le formule che qui riassumiamo:
(c)
xy − x y
x −x
x y − x xy
cˆ =
x −x
mˆ =
2
2
2
2
2
e tracciamo la retta corrispondente. Si deve osservare che la retta “fitta” bene i punti. Occorre
ricordare sempre che le formule non “inventano” nulla, si limitano a tradurre ciò che noi faremmo
a occhio. Può essere utile a questo punto fare il grafico dei residui in funzione di x.
Calcoliamo le incertezze su m e su c secondo le formule che riassumiamo:
(d)
s ( mˆ ) =
1
Var ( x)∑ ⎛⎜ 1 ⎞⎟
⎝ σ ⎠
σ
1
Var ( x) N
→
2
i
x
σ
s (cˆ) =
→
Var ( x) N
Var ( x)∑ ⎛⎜ 1 ⎞⎟
⎝ σ ⎠
x
2
2
2
i
in cui la freccia si riferisce al caso in cui le incertezze sulle y sono tutte uguali. Se necessario si
può calcolare la covarianza tra m e c secondo la formula:
cov(mˆ , cˆ) = −
Var ( x)(∑ 1
N
i =1
(e)
x σ
→−
Var ( x) N
)
2
x
σ
2
i
Calcoliamo il χ2 del fit e, da questo con l’ausilio delle tabelle il valore della probabilità del
χ2. Sulla base del valore trovato, e in considerazione dell’andamento visto, traiamo una
conclusione riguardo al problema di partenza e cioè se l’andamento rettilineo riproduce bene i dati.
Sono riportate di seguito le tabelle della distribuzione del χ2
(3.5.8) Caso in cui non conosco le incertezze sulle y: il metodo dei residui
Da ultimo esaminiamo il caso in cui non dispongo delle incertezze sulle y, cioè il caso in cui ho
solo una serie di N coppie x-y. Ad un caso del genere ci si riconduce quando la stima delle
incertezze sulle y si rivela poco credibile, per esempio i casi (1) e (2) sopra discussi, nei quali
avevamo forti indicazioni di una sottostima (caso(1)) e di una sovrastima (caso (2)). L’andamento
atteso offre comunque un metodo per stimare le incertezze sulle y. L’idea è di assumere lo scarto
medio tra i punti e la retta, come misura dell’incertezza sulle mie misure di y. Posso dunque
stimare la quantità:
N
s=
∑ res
i =1
2
i
N −2
117
Tabella della cumulativa della distribuzione del χ . Ogni riga corrisponde ad un diverso numero di gradi di
2
libertà (ngl) e le diverse colonne corrispondono a diversi valori α dell’integrale da χ 0 a infinito. I
2
numeri riportati sono i valori di χ 0.
2
e assumerla come stima della σ da usare nelle formule del fit (caso tutte le incertezze uguali).
Tuttavia questo metodo può essere usato solo quando sono verificate alcune circostanze:
Æé ragionevole assumere che tutte le incertezze siano uguali;
Æ non si devono osservare andamenti “sovrapposti” a quello rettilineo (quindi lo si può applicare
al caso (1) ma non al caso (3));
Æ non si può poi fare il test del χ2, infatti la definizione di s appena data, corrisponde a trovare
quel valore di σ per cui il fit ha un χ2=N-2.
Si tratta in definitiva di un metodo per trovare i parametri del fit, con incertezze ragionevoli,
quando sono certo che l’andamento rettilineo sia giusto. In sostanza uso l’andamento come
riferimento , come insiemi di valori veri.
118
119
Esercizi relativi al Capitolo (3)
3.1) Un brillante sperimentatore giapponese sostiene di aver scoperto che alla latitudine di Tokyo
l’accelerazione di gravità g dipende dalla temperatura dell’atmosfera. I suoi dati sono:
g (m/s2) T (oC)
9.8081
9.8116
9.8095
9.8130
9.8183
9.8117
9.8171
9.8241
9.8184
9.8205
9.8263
0
3
6
9
12
15
18
21
24
27
30
L’incertezza che lui fornisce per g é di 0.0025 m/s2 mentre la temperatura é per ogni misura fissata
con una precisione di 10-4 oC.
È corretta la conclusione dello sperimentatore giapponese ?
1)
Il metodo dello sperimentatore giapponese consiste nel misurare l’allungamento di una molla di
2)
costante di elasticità K nota, quando ad essa é stato appeso un peso noto e ripetendo la misura a
diverse temperature. Quale effetto strumentale potrebbe simulare il fenomeno osservato ?
3.2) Con un rivelatore di raggi cosmici di superficie sensibile 10 m x 10 m conto 121 eventi in 1
ora. Il flusso medio di raggi cosmici a quella latitudine atteso su quel rivelatore é φ(R.C.) = (2.01 ±
0.01) x 10-4 / m2s
Da informazioni indipendenti so che in quell’ora c’è stata l’esplosione di una supernova. Posso dire
che l’ho osservata anch’io ?
3.3) Considero uno strumento che fa misure di lunghezza. Per tararlo uso delle lunghezze campione
tra 0.5 e 3.0 mm date dal costruttore con una precisione di 1 μm. Ottengo la seguente tabella:
Valore costruttore
500
1000
1500
2000
2500
3000
Valore misurato
512.
1022.
1535.
2061.
2579.
3107.
Quali sono le caratteristiche dello strumento (precisione, accuratezza, errore sistematico) ?
Leggo 2284 sullo strumento. Qual è la migliore stima del valore vero ?
3.4) Nel 2000 i dati sulla variabile R erano:
Esperimento
KteV
NA48
NA31
Valore pubblicato
2.80±0.30
1.85± 0.45
2.30± 0.65
120
E731
0.74± 0.52
In cui ciascun esperimento ha fornito l’incertezza assumendo per R una distribuzione gaussiana.
Posso dire che gli esperimenti sono complessivamente in accordo ?
3.5) In una ripetizione dell'esperimento di Joule uso un motorino dalla potenza di 10.0 ±0.1 W che
aziona un mulinello inserito in un recipiente contenente un fluido di capacità termica C=3.41 ± 0.01
cal/K. Tenendo il motorino in funzione per un tempo Δ t registro la variazione di temperatura
all'interno del fluido. Ripeto la misura per diversi valori di Δ t e ogni volta riporto la temperatura al
valore ambiente T=21o. In tabella sono dati i risultati.
Δt
10
20
30
40
50
60
T-21o
7.1
13.9
21.3
28.3
34.9
41.6
Il sensore di temperatura fornisce un valore con una incertezza di 0.5o, l'incertezza sull'intervallo
dei tempi é trascurabile.
Determinare l'equivalente meccanico della caloria. Discutere il risultato
ottenuto.
3.6) Un ricercatore sostiene che nel suo laboratorio la radioattività ambientale dipende linearmente
dalla umidità relativa h. A sostegno di tale tesi porta i seguenti dati:
N(conteggi)
118
134
121
181
156
h(%)
42
48
51
58
63
Tutte le misure sono state fatte contando con lo stesso rivelatore in 1 ora di tempo (usando un
cronometro manuale aventi 1 s come ultimo digit), con l’eccezione della quarta misura che, per
distrazione, lo sperimentatore ha fatto andare avanti fino a 1h 18min e 24 s.
Dire se i dati suffragano la tesi del ricercatore (si assuma trascurabile l’incertezza su h).
3.7) Uno strumento per misure di lunghezza ha una precisione nota, gaussiana di deviazione
standard σ = 24.2 μm. Lo uso per misurare la posizione assoluta di una trave portante di un
grattacielo. Il giorno X ho preso un campione di 128 misure e ho trovato un valor medio di L =
438.2 μm. Dopo una settimana trovo L = 426.8 μm da un campione di sole 8 misure. Ho stabilito a
priori di far scattare l’allarme solo se le variazioni di tale posizione é significativa oltre il 90% di
livello di probabilità. Faccio scattare l’allarme ? (assumere le 2 incertezze delle 2 misure non
correlate).
3.8) Per la calibrazione assoluta di una sonda di temperatura ad alta precisione, uso una cella a
punto triplo (0 oC). Faccio 5 letture a tempi diversi ed ottengo i seguenti valori: 0.012, 0.015, 0.019,
0.013, 0.022. Stabilire (1) se la sonda é scalibrate e (2) quale é la migliore stima della correzione da
apportare.
121
3.9) Ho una sorgente luminosa isotropa. Ad una distanza r dalla sorgente l’intensità é I = α / r2.
Sapendo che ad una distanza r = (1.000 ± 0.001) m misuro I = 3.12 ± 0.13 W/m2s, stimare α con la
sua incertezza.
3.10) Un fit lineare di un grafico che riporta le velocità di allontanamento delle galassie in funzione
della loro distanza dalla terra, fornisce un χ2 di 56.2. Il grafico é fatto raggruppando le 1624 galassie
note in 30 gruppi di galassie ciascun gruppo caratterizzato da distanze circa uguali, e mettendo nel
grafico le velocità medie di ciascun gruppo. Discutere la bontà del fit.
3.11) Per misurare l’efficienza di un rivelatore di raggi gamma invio 10000 raggi gamma sul
rivelatore e vedo quante volte il rivelatore “li vede” . Ottengo 9438 ok. Stimare l’efficienza con la
sua incertezza.
Successivamente uso lo stesso rivelatore per misurare il flusso di raggi gamma di uguale energia ma
provenienti da un’altra sorgente. In 1 h di tempo conto 318 conteggi. Quant’è il flusso in conteggi al
secondo da quella sorgente ?
3.12) (preso da D’Agostini) Un politico, a cui piacciono molto i sondaggi di opinione, prima e dopo
un’apparizione televisiva fa effettuare delle rapide interviste telefoniche per stimare la frazione
della popolazione che é in accordo con la sua linea politica. Nel primo sondaggio erano state sentite
215 persone, delle quali 86 si erano dette dalla sua parte; nel secondo ottiene il consenso di 91
persone su 189.
La sua apparizione televisiva é servita ad aumentare la sua popolarità ?
3.13) Per misurare l'indice di rifrazione di un blocco di materiale trasparente, sono stati misurati
l'angolo di Brewster θB e l'angolo limite per riflessione totale θlim rispetto all'aria.
Sono stati ottenuti i valori:
θB =55.6 o
θlim =43.1 o
entrambi con una incertezza di σ(θ)=0.2o.
Sulle tavole trovo per l'indice di rifrazione del quarzo il valore nqu=1.458 mentre per quello del
plexiglass il valore npl = 1.49. Cosa si può concludere sulla natura del blocco ?
(1)
(2)
(3)
(4)
(5)
3.14) Due diversi gruppi effettuano un esperimento con l’obiettivo di misurare la concentrazione di
una certa sostanza nociva nella crosta terrestre. I due esperimenti (esp1 ed esp2) usano diverse
tecnologie. Il primo analizza N1=950 campioni di roccia e rileva una deviazione standard
campionaria tra le misure di s1=0.128 ppm. Il secondo analizza N2=100 campioni di roccia ma la
deviazione standard campionaria che osserva tra le N2 misure é s2=0.051 ppm. I due esperimenti
trovano come valori medi i valori:
x1=1.03567 ppm
x2=1.04598 ppm
Nessuno dei 2 esperimenti fornisce una stima dell’incertezza sistematica.
Si chiede:
Quale dei 2 apparati di misura é più preciso ?
Quali sono gli intervalli standard e di quasi-certezza per i 2 risultati ?
Il modello X prevede una concentrazione di 1 ppm (perfettamente nota nell’ambito del
modello). E’ ciascun risultato compatibile con questo modello ?
I due risultati sono tra loro compatibili ?
Se volessi raggiungere una incertezza standard relativa sotto l’1 permille quanto devo
aumentare il numero di campioni analizzati nei 2 esperimenti ?
3.15) Nel suo lavoro del 1909 sulla carica elettrica elementare, Millikan diede una prima misura
della carica elettrica elementare mediando i seguenti 4 valori (in unità di 10-19 C): 1.648 , 1.674 ,
122
1.618 ,1.638. Egli tuttavia si limitò a fornire la media dei 4 valori, e non diede alcuna indicazione
sulla incertezza.
(a) A distanza di 94 anni, esprimiamo allora il suo risultato come intervallo di probabilità del
68.3%.
(b) L’attuale valore della carica dell’elettrone é : (1.602176462 ± 0.000000063)x 10-19 C. Possiamo
dire che il valore originario di Millikan sia in accordo con tale valore attuale ?
3.16) In un esperimento di diffusione alla Rutherford, dopo 2 ore e 32 minuti di presa dati vengono
contate 52 particelle α deflesse ad un angolo maggiore di 25 gradi dalla lamina sottile di oro.
Sapendo che il “rate” di particelle α spedite sul bersaglio é di 12.4 s-1, stimare la probabilità di
avere una deflessione a più di 25 gradi per una particella α da nuclei di oro. La teoria dell’atomo di
Thomson prevede che tale probabilità sia < 10-4. Il risultato ottenuto é compatibile con il modello di
Thomson ?
3.17) Diversi satelliti in orbita a diverse quote misurano l’accelerazione di gravità con una
incertezza di 7 parti su 1000. Vengono raccolti i risultati nella tabella:
g (m s-2)
9.806
7.087
5.776
3.960
3.699
h (km)
0
1124
1902
3597
3851
in cui il valore misurato a 0, si intende misurato sulla superficie terrestre.
(0) Fare il grafico dell’andamento di g in funzione di h.
Sapendo che:
Æ il raggio della terra é pari a RT=6360 km
Æ l’accelerazione di gravità dipende dalla distanza R dal centro della terra secondo la relazione:
g ( R) =
Gm
R
T
2
Æ La costante di gravitazione universale é pari a G=(6.673 ± 0.010) x 10-11 m3 kg-1 s-2
(1) Linearizzare la relazione g=g(R) graficando g in funzione di 1 / R2.
(2) Dal fit lineare dell’andamento ottenuto, determinare la massa della terra con la sua incertezza.
(3) Valutare se la legge di gravitazione universale é in accordo con i dati.
(4) Stimare la densità media della terra con la sua incertezza.
123
Soluzione degli esercizi proposti.
Capitolo (1)
Gli esercizi della prima parte del corso richiedono essenzialmente la capacità di saper trattare i
risultati delle misure. Si richiede in modo particolare la scrittura corretta dei risultati per quel che
riguarda le unità di misura, le cifre significative, la notazione esponenziale. Si richiede inoltre di
saper costruire semplici grafici (di andamenti o istogrammi), di saper calcolare medie e deviazioni
standard da campioni e di saper fornire intervalli standard o di quasi-certezza per i risultati di
misure ripetute. In parecchi esercizi si richiede infine di giudicare la bontà di certe ipotesi
(consistenza tra misure o tra misure e previsioni teoriche). A questo livello del corso queste ultime
questioni sono affrontate ancora in modo semi-quantitativo. Gli stessi esercizi possono essere rivisti
a fine corso alla luce dei metodi di test di ipotesi che saranno trattati nel terzo capitolo.
(1.1)
(1.2)
(1.3)
(1.4)
(1.5)
(1.6)
(1.7)
(1.8)
(1.9)
Qui la soluzione dipende da chi fa l’esercizio. In genere si rimane sorpresi dal fatto che la
propria capacità di interpolazione é migliore di quanto ci si attenda (1/4 o 1/5 di divisione
sono risultati tipici).
C’è solo da applicare la definizione di deviazione standard campionaria e di riportarla alla
dimensione della divisione minima (che é pari a 0.025 come si evince dalla figura).
Occorre fare attenzione alle unità di misura, agli esponenziali ed alle cifre significative.
Mantenendo 2 cifre (tenerne 3 non sarebbe comunque sbagliato) si ha E=1.9x10-16 CV =
1.9x10-16 J
La densità del fluido é pari al rapporto tra la massa del fluido (M-M0) e il suo volume.
Quest’ultimo é espresso in ml cioè in cm3 e le masse sono in grammi. Quindi si tratta di fare
il rapporto. Si noti solo che M-M0 = 13.2 g (troncato al primo decimale) e dunque densità =
0.213 g/cm3 (a 3 cifre o anche a 2).
In questo esercizio l’ipotesi da fare é che ciascun gruppo di campioni sia costituito da reperti
contemporanei, e che la fluttuazioni dei valori misurati sia l’effetto della precisione (meglio
della imprecisione) dell’apparato di misura. I valori che si ottengono sono: media reperti A
= 5346 anni e media reperti B = 5952 anni. Il confronto tra questi 2 numeri da solo
evidentemente non permette di trarre alcuna conclusione. Le deviazioni standard sono 340
anni per i reperti A e 180 anni per i reperti B (abbiamo usato la formula con N non con N-1
ma il risultato finale non é significativamente alterato da ciò) L’anziano archeologo
dovrebbe prendere le 2 medie e vedere se entro le rispettive incertezze (sulle medie che
dunque sono le deviazioni standard divise per √N dove N vale 10 per i reperti A e 15 per i
reperti B) sono in accordo tra di loro. Se facesse cosi’ vedrebbe la cosa seguente: età reperti
A = (5.35 ±0.11)x103 anni e età reperti B = (5.95 ±0.05) x103 anni. Senza fare alcun test di
ipotesi (vedi Capitolo 3) si vede che sono incompatibili. Infatti la differenza tra i 2 risultati é
di 600 anni mentre le incertezze sono di 110 e 50 anni rispettivamente. L’anziano
archeologo ha torto.
L’incertezza su T é del 2.5%, la metà di quella su M in virtù del fatto che T “va come la
radice di M”.
Usando le definizioni date dei termini metrologici si ha: risoluzione 1 g, precisione < 1 g e
accuratezza caratterizzata da un errore sistematico di 22 g. Si tratta di uno strumento preciso
ma poco accurato. Sarà bene controllarne periodicamente la calibrazione.
L’intervallo di quasi-certezza é pari a 3x52μm /√100 = 16 μm (dato a 2 cifre).
Calcoliamo in primo luogo l’incertezza di misura. Si ottiene: 0.002x2.99814x108/√9150 =
6.3x103m/s. Quindi la media delle misure per il campione di γé: (2.98814 ± 0.00006)x108
m/s. Si tratta ora di vedere se tale valore é “significativamente diverso” dal valore noto della
velocità della luce nel vuoto. La differenza é pari a 22 x103 m/s, che é oltre 3 volte
l’incertezza sulla misura. Dunque la differenza é significativa (anche se al limite). La misura
é caratterizzata dunque da un errore sistematico di (22 ± 6) x 103 m/s.
124
(1.10) Si tratta di confrontare la frazione di persone affette da X con la sua incertezza (dovuta alla
limitatezza statistica del campione) con la stessa frazione per un campione di popolazione
normale anch’esso con la sua incertezza. E’ cruciale in questo genere di cose la scelta dei
campioni che devono essere “omogenei” perché siano assenti altri motivi di differenza.
(1.11) ΔV = 3.69x103 cm3 =3.69x10-3 m3; p = 1.2x106 Pa. Il lavoro é dunque L = 4.4 x 103 J.
(1.12) L’intervallo di quasi certezza su ambedue le misure ripetute a distanza di un anno é 3x52μm
/√1000 = 4.9 μm cioè é 10 volte più piccolo dello spostamento osservato. Dunque lo
spostamento é decisamente significativo.
(1.13) Dare al meglio il risultato della misura significa indicare la media come valore centrale e la
deviazione standard campionaria della media come incertezza (eventualmente moltiplicando
per 3 per dare un intervallo di quasi-certezza per la media). Per la misura in questione si
ottiene: (914.1 ± 0.3) mm (lo 0.3 proviene dall’aver fatto 0.32/√100=0.32). In questo caso si
ha una informazione in più sull’apparato di misura. Per utilizzarla occorre però fare delle
ipotesi. C’è una scalibrazione di 2.6 mm oppure di un fattore 1.0026 (scalibrazione del 2.6
permille). Dobbiamo quindi scegliere se applicare la correzione “additiva” (sottraendo 2.6
mm) o “moltiplicativa” (dividendo per 1.0026). In entrambi i casi stiamo ipotizzando che a
914 mm la scalibrazione sia la stessa che a 1000 ( a volte alcuni strumenti possono anche
avere curve di calibrazioni “bizzarre”). Facendo questa ragionevole ipotesi si ha: (911.5±
0.3) mm nel primo caso e (911.7± 0.3) mm nel secondo caso. I due risultati sono
praticamente indistringuibili poiché 914é vicino a 1000. Tuttavia la correzione (una delle
due) é significativa (maggiore dell’incertezza) e quindi va applicata.
(1.14) Sul mio atlante (del 1992) trovo: abitanti Londra = 6.378x106, abitanti Roma = 2.693x106.
Passo alle cartine dove stimo le superfici delle 2 città approssimandole a cerchi. Diametro
cerchio Londra = 60 km, diametro cerchio Roma (GRA) = 20 km. Densità Londra = 2.3x103
abitanti / km2, densità Roma = 8.6x103 abitanti / km2. La differenza é significativa dal
momento che l’approssimazione del calcolo (dominata dalla stima del diametro) anche fosse
del 10-20% darebbe una incertezza del 20-40% circa sulla densità che rende comunque
incompatibili i due risultati. Del resto per chiunque conosca le 2 città il risultato é tutt’altro
che sorprendente.
(1.15) Si tratta ancora di un problema di significatività che a questo punto del corso affrontiamo
ancora con strumenti non rigorosi. Assumiamo che i 3 l dei recipienti siano privi di
incertezza. In tal caso facendo media e deviazione standard campionaria della media delle 5
misure, otteniamo una concentrazione di (21.4 ± 0.5)%. Volendo dare un intervallo di quasi
certezza avremmo (21.4 ± 1.5)% che include, sebbene al bordo dell’intervallo, il valore di
20% previsto. Dunque il chimico é quanto meno incauto nell’annuncio. Un fisico avrebbe
ripetuto la misura un numero più consistente di volte (se ciò fosse stato possibile) altrimenti
avrebbe detto che non c’era ancora una evidenza chiara dell’anomalia. E’ istruttivo vedere
che la nostra analisi é come detto grossolana in un aspetto che sarà chiarito nella parte
conclusiva del corso. Infatti un intervallo di questi certezza per un campione di poche
misure (come le 5 in questo caso) é significativamente più largo di quello che si ottiene con
il metodo qui utilizzato.
(1.16) 67/√2000 = 1.5. Quindi il mio risultato é (0.1 ± 1.5)x10-4. Anche troppo compatibile con 0.
(1.17) Qui il problema é inverso. Discriminare tra i 2 modelli significa poter misurare X con una
incertezza molto minore della differenza tra i 2 valori prevista (10-5 nel nostro caso). D’altro
canto l’unico modo per diminuire la nostra incertezza é quello di mediare su un numero N
sempre maggiore di misure ripetute. Dovrà essere dunque : 67x10-4/√N << 10-5. Devo
trovare quel valore di N a partire dal quale vale la condizione data. N >> 6702 = 4.5x105.Con
il simbolo >> si intende molto maggiore. Per i nostri scopi può significare un fattore 10 (nel
qual caso l’incertezza é 10-6 e quindi non si hanno dubbi sul risultato).
(1.18) Assumiamo che il cronometro apprezzi 1/10 di secondo (assunzione ragionevole dato il
modo con cui é dato il valore) e che le indicazioni autostradali sono date con incertezza di
125
(1.19)
(1.20)
(1.21)
(1.22)
(1.23)
(1.24)
(1.25)
(1.26)
(1.27)
(1.28)
100 m (assunzione meno ragionevole probabilmente sono date al metro). In tal caso v = 4.4
km /1032.8 s = 15 km/h. Sono andato molto lento. Risultato a 2 cifre perché dominato
dall’incertezza sullo spazio percorso.
15.6x10x86400 = 13.5x106 km (ammesso che non si sia schiantato sulla luna che si trova a
distanze tra i 0.3 e i 0.4 x106 km (all’incirca).
ρ(iceberg) = 1.00 x 0.9 = 0.9 g/cm3. Non più di una cifra.
Attenzione alle unità di misura e alle cifre significative con cui dare i risultati. a = 4.28 m/s2
= 0.436 g.
Grande gara. L’ipotesi da fare é che i 2 atleti abbiano viaggiato a velocità costante: vel(Carl
Lewis) = 100/9.92 = 10.08 m/s. All’istante di tempo in cui Ben Johnson tagliava il traguardo
(t = 9.79) Lewis si trovava alla posizione 10.08 x 9.79 m = 98.7 m, cioè 1.3 m dietro a Ben
Johnson. Si noti che quando si hanno numeri a 3 cifre come 9.92 o 9.79 (molto prossimi a
far scattare la quarta cifra) é come se avessero quattro cifre. Inoltre 100 m ha molte più cifre
delle tre apparenti, essendo i 100 m della pista misurati con estrema precisione.
Media e deviazione standard campionaria sono: 6.36 s e 0.25 s rispettivamente. Per dare la
migliore stima dell’intervallo di quasi-certezza su h, si può ragionare nel modo seguente:
calcolo prima l’intervallo di quasi certezza per t (tempo di caduta) misurato direttamente e
poi “propago” questo risultato ad h. Si ottiene: t = (6.36 ± 0.17) s. Per passare ad h si deve
calcolare h e propagare l’incertezza osservando che l’incertezza su g é trascurabile e che
quella relativa su t (che é l’unica a determinare l’incertezza su h) va moltiplicata per 2 dal
momento che t compare al quadrato nella formula. h = (198 ± 11) m.
Per poter affermare di avere osservato un tale effetto (che avrebbe un impatto sconvolgente
sulla fisica), uno dovrebbe far vedere che la carica media delle presunte cariche ½ osservate
sia significativamente diversa dalla carica dell’elettrone. Poiché la carica dell’elettrone é
1.602 (in unità di 10-7 pC), l’incertezza con cui misuro questo campione deve essere molto
minore della differenza tra la carica dell’elettrone e metà di questa cioè 0.8x10-7 pC. Deve
essere allora: 0.7x10-7/√N << 0.8x10-7. In questo caso la richiesta é N>>1. Quindi per
esempio con N=10 cariche osservate si può trarre una conclusione convincente. Giova qui
ricordare che naturalmente una osservazione del genere dovrebbe essere accompagnata da
molte altre misure di controllo per esempio far vedere che la misura della carica é accurata,
che non ci sono errori sistematici, che non ci sono effetti che possono simulare il fenomeno.
Quando il risultato é particolarmente importante, la scienza é particolarmente esigente.
Graficando i valori della radioattività in funzione del tempo si osserva facilmente che a
cavallo dell’ottavo punto vi é un “gradino”. Calcolando la media e la deviazione standard
dei primi 7 punti e degli ultimi 8 punti si ottengono i valori: r(<8) = 16.33 ±0.02 e r(>8) =
17.24 ±0.02 decisamente incompatibili. Dunque si ha un effetto, si tratta di capire cosa é
successo in quell’ora.
Si tratta di calcolare media e deviazione standard della media dei 2 istogrammi, fare il
rapporto tra le medie, valutarne l’incertezza e poi confrontare il rapporto con il valore atteso
di 1.102.
Si ottiene M = ( 918 ± 6 ) g
La migliore stima della carica della particella misteriosa é ( 1.48 ± 0.02 )x10-19 C,
incompatibile con il valore noto della carica dell’elettrone.
Capitolo (2)
Sono esercizi di calcolo combinatorio e di calcolo delle probabilità. In generale si tratta di
ricondurre il problema in esame ad un caso noto. Per fare ciò é sempre importante indicare le ipotesi
che vengono fatte (se ce ne sono). Nelle soluzioni numeriche le probabilità sono date
126
indifferentemente come % o come numero tra 0 e 1, e i coefficienti binomiali sono indicati come (N
n) per non appesantire la notazione.
(2.1)
(2.2)
(2.3)
(2.4)
(2.5)
(2.6)
(2.7)
(2.8)
(2.9)
I 2 casi (con o senza reintroduzione della pallina nell’urna) sono evidentemente diversi. Nel
caso con reintroduzione si hanno 5 estrazioni indipendenti, ciascuna delle quali ha una
probabilità pari a 1/5. La probabilità di una data sequenza é dunque (1/5)5. Nel caso in cui
non si reintroduce invece si ha una probabilità pari a 1/5 alla prima estrazione, poi ¼ alla
seconda (si tratta della probabilità condizionata di estrarre il 2 quando alla prima estrazione
é stato estratto 1), 1/3 alla terza (di nuovo probabilità condizionata di estrarre 3 quando alle
prime due estrazioni sono state estratti 1 e 2) e cosi’ via. Complessivamente 1/5!.
Naturalmente l’argomento vale per qualunque sequenza immaginabile.
Applichiamo il metodo combinatorio di calcolo delle probabilità. Si hanno 36 casi possibili
tutti equiprobabili (se vogliamo si tratta delle disposizioni di 6 elementi in 2 caselle, 62=36).
Le possibili differenze hanno un intervallo di definizione tra –5 e 5. Contando per ciascuna
possibile differenza il numero di casi possibili e dividendo per 36 si ha la seguente
distribuzione: P(-5)=P(5)=1/36, P(-4)=P(4)=2/36, P(-3)=P(3)=3/36, P(-2)=P(2)=4/36, P(1)=P(1)=5/36, P(0)=6/36=1/6. La probabilità di avere una differenza pari a 0 in 3 estrazioni
consecutive é (1/6)3 (i 3 lanci sono indipendenti) cioè il 0.46%.
Si tratta di una tipica applicazione del teorema di Bayes. A priori sappiamo infatti che
p(D)=0.1. La prendiamo come “probabilità a priori”. Gli altri dati sono: p(+/D)=0.98 e
p(+/N)=0.16. Abbiamo indicato con + la positività al test e con D e N l’essere o no affetti
dalla malattia. Applichiamo il teorema di Bayes per calcolare p(D/+) dai dati che abbiamo.
Naturalmente p(N)=1-p(D)=0.9. Si ottiene P(D/+)=40.5%. Come si vede la bassa incidenza
della malattia sulla popolazione fa si’ che applicando a tutti il test solo il 40% dei positivi
sono realmente affetti dalla malattia.
Cominciamo con lo stabilire a partire dalla tabella della gaussiana standardizzata a quanto
corrispondono il 90-esimo de il 40-esimo percentile. Prendendo la tabella di pag.69 vedo
che lo 0.90 si trova in corrispondenza di 1.28 mentre il 60% di 0.26 (dunque il 40%
simmetrico rispetto al 60% corrisponderà a –0.26). Dunque avremo: (22.5-μ)/σ = 1.28 e
(18.2-μ)/σ = -0.26. Siamo di fronte ad un sistema lineare di 2 equazioni in 2 incognite (μ e
σ). Risolvendo si ottiene: μ = 18.9 kg e σ = 2.8 kg.
In un giorno mi aspetto 1.8x10-3 x 86400 = 155 conteggi. Trattandosi di conteggi é
ragionevole assumere una distribuzione poissoniana con λ = 155 per il numero di conteggi
in un giorno che, dato il valore elevato di λ, posso approssimare ad una gaussiana con m =
155 e s = √155 = 12. Il valore osservato é assolutamente incompatibile con la distribuzione
attesa essendo (N-μ)/σ = 20. Devo preoccuparmi.
Trattiamo separatamente e indipendentemente i figli avuti prima dei 30 e dopo i 30 anni. Per
i figli avuti prima dei 30, la probabilità di non essere affetto dalla sindrome X é (1-0.0012)3
= 0.996, per quelli dopo i 30 anni é (1-0.0028)7 = 0.980. Moltiplico le 2 probabilità ed ho
p(0 figli con sindrome X) = 0.977.
Occorre in primo luogo stimare la probabilità che una centrale abbia un incidente nei
prossimi 100 anni. Se gli incidenti avvengono casualmente (cioè poissonianamente), con
vita media 20000 anni, p(<100) = 100/20000 = 0.005 (abbiamo approssimato l’esponenziale
della curva dei tempi d’attesa con una retta). La probabilità che nessuna delle 98 centrali
abbia un incidente é (1-0.005)98 = 61.2%
Ancora un tipico esempio di applicazione del teorema di Bayes. In questo caso la probabilità
a priori é P(A)=P(B)=0.5, essendo specificato che non si ha alcuna informazione a priori.
Gli altri dati ci dicono che: P(α/A)=0.98 P(β/A)=0.02, P(α/B)=0.10 e P(β/B)=0.90 (si noti
come sono normalizzate le probabilità condizionate). Applicando Bayes si ottiene: P(A/α) =
0.91.
La risposta é decisamente si’. Infatti (x-μ)/σ = 27 (x é il valore trovato).
127
(2.10) Problema inverso del precedente in un certo senso. Dobbiamo fare una assunzione sulle
caratteristiche dell’intervallo. La cosa più naturale é assumere che sia simmetrico. Sarà
ovviamente m = (150+220)/2 = 185 mg/dl. Quanto a σ, dobbiamo ricorrere alle tabelle
(pag.69) dove però occorre fare attenzione al fatto che un intervallo simmetrico al 90%
corrisponde ad un estremo al 95% a destra e al 5% a sinistra. Il valore in corrispondenza a
95%é 1.65 e quello al 5% sarà –1.65. Pertanto s = (220-185)/1.65 = 21 mg/dl.
(2.11) Si tratta di calcolare la probabilità che su 1654 voti il numero di SI sia inferiore a 1654/2 =
827, sapendo che la probabilità di votare SI é del 52.67%. Nel trattare il problema in questo
modo stiamo assumendo che il nostro paese sia “elettoralmente omogeneo” alla popolazione
nazionale, che tutti i 1654 aventi diritto votino, che non ci siano schede bianche, e cosi’ via.
Il problema é binomiale, ampiamente in limite gaussiano. Pertanto μ = Np = 1654 x 0.5267
= 871.2 e σ = √Np(1-p) = 20.3. p(x < 827) = p( m < -2.17) = 1.5% (guardando la tabella di
pag.69).
(2.12) Il fenomeno é caratterizzato da un rate di 38.4/100 = 0.384 s-1 e da una costante di tempo τ =
1/rate = 2.60 s. Usando la distribuzione dei tempi d’attesa si ha che P(t > t*) = exp(-t*/τ)
cioè (t* = 10 s, τ = 2.60 s) P(t>10s) = 0.021. In un’ora il dispositivo si blocca un numero di
volte dato da: rate x 3600 s x P(t > 10s) = 29.
(2.13) I dati sono: P(P/C) = 90% e P(N/NC) = 90% in cui C e NC vuol dire affetto o non affetto da
epatite C. Da questi deduciamo che P(N/C)=10% e P(P/NC)=10% per motivi di
“normalizzazione”. Io sono interessato a sapere P(C/PNP) e P(C/PPP). Qui l’applicazione
del teorema di Bayes é più complessa. Mi servono infatti in primo luogo P(PNP/C) e
P(PPP/C), ma anche P(PNP/NC) e P(PPP/NC). Assumendo che i 3 test siano indipendenti,
avrò: P(PNP/C) = P(P/C)2 x P(N/C) = 0.081 e P(PPP/C) = P(P/C)3 = 0.729, P(PNP/NC) =
P(P/NC)2 x P(N/NC) = 0.009 e infine P(PPP/NC) = P(P/NC)3 = 0.001. Applichiamo Bayes
ai 2 casi e otteniamo: P(C/PNP) = 90% e P(C/PPP) = 99.86%.
(2.14) Problema di calcolo combinatorio. Per ciascun ruolo si tratta di calcolare il numero di
combinazioni, dal momento che non posso avere ripetizioni (far comparire più volte nella
squadra lo stesso giocatore), né mi interessa in che ordine i giocatori compaiono (avere
come attaccanti Totti e Vieri o Vieri e Totti é la stessa cosa). Quindi (3 1) = 3 combinazioni
di portieri, (6 4) = 15 di difensori, (7 4) = 35 di centrocampisti e, infine (6 2) = 15 di
attaccanti. Infine moltiplico i 4 numeri = 23625 squadre.
(2.15) Lasciamo il grafico al lettore. Si ha P(1) = 1/36, P(2) = 3/36, P(3) = 5/36, P(4) = 7/36, P(5) =
9/36 e P(6) = 11/36.
(2.16) Problema binomiale. P(2 / N=5, p=0.5) = (5 2) (1/2)5 = 31/2%. Le 3 sequenze sono
naturalmente equiprobabili p=(1/2)5 = 3.1%.
(2.17) Per definizione di intervallo p(fuori / sano) = 0.05. Se i 3 test sono indipendenti posso
calcolare P(fuori X) x P(fuori Y1 OR fuori Y2) = P(fuori X) x (P(fuori Y1)+P(fuori Y2) –
P(fuori Y1)xP(fuori Y2))= 0.49%.
(2.18) (90 15) = 4.6 x 1016 cartelle diverse.
(2.19) Trattiamo questa situazione assumendo che i parti nel paese avvengano nel tempo in modo
del tutto casuale, cosi’ da poter schematizzare come poissoniano il fenomeno. Il rate di
questo fenomeno é 1/7 g-1 (secondo l’esperienza pluriennale) e dunque il λ associata ad un
giorno é λ = 1/7 = 0.14. Si tratta di calcolare ora P(>1, λ = 0.14) = 1 – P(0) – P(1) = 1 –
exp(-λ) – λexp(-λ) = 0.0089. Dunque la probabilità é al di sotto dell’1%. L’eventualità si
verificherà 3-4 volte l’anno.
(2.20) Problema inverso. Essendo N = 1250 e σ(n) / n = √Nε(1-ε) / Nε = 0.02 (qui εé l’efficienza),
ricavo ε girando la formula: ε = 1 / (1 + (0.02)2 x 1250) = 0.67.
(2.21) (a) NO le stelle si ammassano in galassie, le galassie in ammassi di galassie e cosi’ via. (b)
NO come tutti i fenomeni periodici o quasi-periodici. (c) forse SI se si ammette che le
condizioni “demografiche” e “sociali” che determinano le attitudini dei giovini siano
128
(2.22)
(2.23)
(2.24)
(2.25)
(2.26)
(2.27)
(2.28)
(2.29)
(2.30)
(2.31)
(2.32)
(2.33)
(2.34)
(2.35)
costanti nel tempo. (d) forse SI a meno che non vi siano periodi di maggiore frequenza per
fatti specifici.
Applichiamo il teorema di Bayes in un caso con probabilità a priori molto “disuniforme”
(P(infetto) = 0.2% P(non infetto) = 99.8%) e nell’altro con probabilità a priori “uniforme”
(P(infetto) = P(non infetto) = 50%). Si ottiene: (1) P(infetto / +) = 22% e (2) P(infetto / +) =
99.3%.
In questo caso devo calcolare P(+++/infetto) = (P(+/infetto))3 = 97% assumendo i test
indipendenti e P(+++/non infetto) = (P(+/non infetto)3 = 3 x 10-7. Le probabilità a priori
sono evidentemente le stesse e dunque si ottiene: P(infetto/+++) = 99.98%. Come si vede le
cose cambiano.
Semplice problema di calcolo combinatorio. Si hanno 21 lettere (mancano I O e Q ma ci
sono X Y e W) e 10 cifre. Quindi 212 x 103 x 212 = 2 x 108 targhe (200 milioni). Di queste,
quelle in cui le ultime 2 lettere sono la copia delle prime 2 sono 212 x 103. La probabilità é 1
/ 212 = 0.22%.
Devo disporre 36 oggetti in 6 caselle ed ho la possibilità di ripetere le cifre e di mettere la
stessa cifre in più caselle. Si ha: 366 = 2.2 x 109 combinazioni. Al massimo impiego per
trovarla un tempo pari a 2.2 x 109 x 10-3 s / 3.15 x 107 s = 0.070 anni, poco meno di un
mese. Nel secondo caso invece il numero di combinazioni é 263 x 103 = 1.7 x 107 da cui il
tempo massimo é meno di 5 ore.
P(>8.2) = 18%; p(3 volte > 8.2) = 0.58%.
Mi riconduco alla gaussiana standardizzata. Per i dati: m1 = (129 – 138.2 ) / 4.58 = -2.01 e
m2 = (149 – 138.2 ) / 4.58 = 2.35 mentre per la simulazione m1 = -2.32 e m2 = 2.72. Dalle
tabelle si ottiene nei 2 casi P(m1 < m < m2) = 0.9684 per i dati e 0.9865 per la simulazione.
Si passa da una reiezione del 3.2% nei dati ad una del 1.4% nella simulazione.
Sono 24 prove e la probabilità del successo é 2.34% (se vogliamo chiamare successo il fatto
di arrivare in ritardo). Uso la binomiale: P(0 successi) = (1-0.0234)24 = 57%. Ho una
probabilità del 43% di arrivare almeno una volta in ritardo.
Rate di decessi poissoniano = 1 / 62 g-1 da cui il λ per un mese (assunto medio di 30 giorni)
é λ = 0.48. P(>0) = 1 – P(0) = 1 – exp(-λ) = 38%.
L’altezza H della distribuzione triangolare deve soddisfare il criterio di normalizzazione: 40
x H / 2 = 1. Da ciò H = 0.05 anni-1 . La funzione a 60é per ragioni geometriche (basta
disegnare la distribuzione per rendersene conto) H/2. Calcolo P(>60) = 10 x H/2 /2 = 12.5%.
La probabilità che i primi 3 siano > 60é (assumendo che ogni docente sia preso a caso dal
corpo docente) 0.1253 = 0.2% molto bassa.
Classico problema binomiale. N = 5, p = 1250/2000 = 0.625. P(>2) = P(3) + P(4) + P(5) =
72.4%.
Tre poissoniane indipendenti nel limite gaussiano. Per ciascuna P(<240) = P( m<-1) = (1 –
0.683 ) /2 = 0.1585. Affinché almeno 2 contino meno di 240 devo calcolare P(2)+P(3) di
una binomiale con N=3 e p=0.1585. Si ottiene P(almeno 2) = 6.7%.
Analogo al precedente. I 5290 eventi si distribuiscono in 10 bins. Il contenuto di ciascun bin
viene approssimato ad una poissoniana di valor medio 5290/10=529 quindi nel limite
gaussiano. In ciascun bin P(>575) = P( m > 2) = 0.025. Che su 10 bin 2 e solo 2 di questi dia
più di 575 costituisce di nuovo un problema binomiale con N = 10 e p = 0.025. P(2) = 2.3%.
Si noti che l’assunzione iniziale di poissonianità é in realtà una approssimazione. Infatti i
contenuti di ciascun bin sono distribuiti a rigore secondo una distribuzione multinomiale che
può essere descritta dal prodotto di poissoniane indipendenti quando il numero di bin é
abbastanza elevato.
N(N-1) = 90.
Esempio tipico in cui si applica il teorema di Bayes. Con ovvio significato dei simboli:
P(D/colore) = P(colore/D) P0(D) / [ P(colore/D) P0(D) + P(colore/R) P0(R) ] in cui
evidentemente P0(D) e P0(R) sono le probabilità a priori che incontrando una persona questa
sia democratica (il 23.6%) o repubblicana (il 76.4%), P(colore/D) e P(colore/R) sono i
129
risultati dei sondaggi (il 16.2% e il 2.5% rispettivamente). Mettendo i numeri si ottiene:
P(D/colore) = 66.7%
La probabilità che i miei sette dipendenti di colore siano tutti democratici é: [P(D/colore)]7 =
5.9%, dunque la probabilità che ce ne sia almeno uno repubblicano é 1-5.9% = 94.1%.
(2.36) Trattiamo il fenomeno come poissoniano con μ = 3.24.
(a) P(0) = exp(-3.24) = 3.9%
(b) Il numero medio di incidenti in un anno é 3.24 x 52 = 168.5. La distribuzione é
una poissoniana nel limite gaussiano con μ = 168 e σ = 13.
(c) Ricorro alle tabelle della gaussiana standardizzata P(<150) = P(Z<-1.38) = 1 –
P(Z<1.38) = 1 – 0.916 = 0.084 (l’8.4%).
(2.37) Una poissoniana con valore centrale 78é nel limite gaussiano. Quindi di nuovo utilizziamo
le tabelle della gaussiana standardizzata P(>90) = P(Z>1.36) = 1 – P(Z<1.36) = 1 – 0.913 =
8.7%.
(2.38) Questione molto interessante. Occorre fare delle ipotesi naturalmente. Chiamiamo Nm il
numero di molecole contenute in un bicchiere, Nb il numero di bicchieri di cui e’ fatto tutto
il mare del mondo e assumiamo che dopo cinque anni tutte le molecole che ho versato in
mare sono ancora tutte presenti nel mare (non sono evaporate o assorbite o altro) e sono
distribuite in modo uniforme. A questo punto si tratta di un processo binomiale in cui faccio
Nm prove (le Nm molecole che prendo con il secondo bicchiere) e la probabilita’ del
successo e’ p=1/Nb (la frazione di molecole del mare appartenute al primo bicchiere). Il
numero medio e’ Np = Nm/Nb. Provate a stimarlo. Troverete un risultato incredibile…
Capitolo (3)
Possono essere rivisti gli esercizi del capitolo (1) alla luce delle nuove conoscenze acquisite nel
terzo capitolo. Quelli qui proposti sono più completi e alcuni sono riassuntivi di tutti gli argomenti
del corso.
(3.1)
Problema molto interessante. In un caso di questo genere la prima cosa da fare é graficare
l’andamento di g in funzione di T, riportando anche le barre di incertezza su g, dal momento
che lo sperimentatore ne fornisce la stima. Già “a occhio” si può tentare di vedere se si
osserva un andamento significativo. Per rendere quantitativa l’osservazione si può procedere
in vari modi. Ne indichiamo 2. Si fa un fit lineare y = m x + c, si calcola m con la sua
incertezza s(m) e si vede se m é significativamente diversa da 0, cioè per esempio se s(m) /
m > 3. In questo caso il problema si riduce ad un test dell’ipotesi che m sia 0. Naturalmente
perché il test sia sensato occorre che la stima di s(m) sia ragionevole. Per vedere ciò si può
verificare che il χ2 del fit dia un valore “buono”. L’altro metodo consiste nel fare un fit con
una costante y = c e vedere se il χ2 del fit é buono o cattivo. Se é buono vuol dire che i dati
sono compatibili con assenza di dipendenza, se cattivo vuol dire che invece non sono
compatibili e dunque c’è una dipendenza.
Risultati numerici (vedi anche il grafico riportato di seguito).
Metodo 1: m = ( 0.53 ± 0.06 ) x 10-3 m s-2 K-1 χ2 = 12.6 / 9 gdl;
Metodo 2: χ2 = 56.8 / 10 gdl
Conclusione: la dipendenza c’è, é significativa. Bisogna ora capire a cosa é dovuta.
130
(3.2)
(3.3)
In quell’ora misuro un flusso di 3.36 x 10-4 conteggi / m2 s, con una incertezza percentuale
di 1 / √121 ~9%. Dunque φ(misurato) =(3.36 ± 0.30) x 10-4 cont / m2 s. Testo l’ipotesi di
consistenza con il valore atteso φ(R.C.) = (2.01 ± 0.01) x 10-4 cont / m2s costruendo una
variabile Z. Ottengo Z = 4.5: ho osservato la supernova.
Lo strumento é evidentemente caratterizzato da un errore sistematico che cresce con il
valore in misura. Per mettere in evidenza questa caratteristica dello strumento é utile
graficare l’andamento di x(misurato) – x(“vero”) in funzione di x(“vero”). Si osserverà una
crescita dell’errore sistematico. Se questo grafico mostra un andamento, si può fare un fit di
questo andamento, ottenendo cosi’ una “curva di calibrazione” che può essere usata per
correggere i valori letti. Quindi, letto 2284 devo sottrarre un numero che starà tra 61 e 79.
Nel grafico sono riportati sia x(misurato) - x(vero) che la stessa cosa divisa per x(vero). Il
secondo grafico ci mostra che l’errore sistematico é in prima approssimazione tra il 2% ed il
3% per tutti i valori. Quindi una correzione ragionevole potrebbe essere quella di
moltiplicare ogni misura per 0.975.
131
(3.4)
La media pesata dei quattro valori é 2.19; il χ2 rispetto all’ipotesi che siano in accordo
fornisce il valore 12.5 per 3 gradi di libertà. Dalle tabelle si vede che tale valore si trova
essenzialmente tra 0.005 e 0.01 quindi é arduo accettare l’ipotesi che i valori siano in
accordo. Anche in questo caso é utile fare un semplice grafico dei 4 valori. Si vede
chiaramente che il quarto valore é incompatibile con il primo e questo rende il χ2
inaccettabile.
(3.5)
L’equivalenza calore-lavoro ci suggerisce che il lavoro fatto (potenza x tempo) sia
proporzionale al calore dissipato (capacità termica x variazione di temperatura). I valori
misurati devono pertanto disporsi su di una retta il cui coefficiente angolare costituisce
l’equivalente meccanico della caloria. Pertanto dal fit lineare di temperatura-tempo si ricava
il coefficiente angolare che, moltiplicato per la capacità termica e diviso per la potenza
fornisce l’inverso dell’equivalente meccanico cercato. Per determinare l’incertezza sulla
quantità trovata occorrerà utilizzare la propagazione delle incertezze relative.
Risultati numerici.
Fit lineare: m = 0.69 ± 0.01 K/s; χ2 = 1.2 / 4 gdl.
132
(3.6)
(3.7)
(3.8)
(3.9)
(3.10)
(3.11)
(3.12)
(3.13)
Equivalente meccanico: (4.25 ± 0.07) J / cal
Questo risultato é da confrontare con il valore 4.1855 J / cal che si trova nei libri di testo. Il
nostro risultato é “fuori di una deviazione standard” dunque é sostanzialmente in accordo.
Qui lo sperimentatore ci dice di fare attenzione nell’usare il quarto punto sperimentale.
Basterà dividere per 1h 18 min e 24 s cioè per 4704 s anziché per un ora cioè per 3600 s.
Inoltre a ciascun punto attribuiamo un’incertezza data da √N / tempo assumendo che si tratti
di conteggi poissoniani. Quindi si tratta di testare l’ipotesi che non vi sia andamento.
Facendo un fit con una costante si ottiene: χ2 = 6.8 / 4 gdl corrispondente ad una probabilità
tra il 10 ed il 20% pertanto accettabile. Tuttavia rimane una certa indicazione di crescita
(come si vede dal grafico riportato qui di seguito) e quindi vale la pena ripetere
l’esperimento aumentando il tempo di osservazione per ridurre le incertezze statistiche
relative.
Costruisco per ciascuna delle 2 misure un intervallo di probabilità del 90%: prima misura:
L1 = 438.2 ± 3.5 μm; valore seconda misura: L2 = 427 ± 16 μm (in questo secondo caso ho
moltiplicato per 1.90 anziché per 1.65 per tenere conto che non sono ancora nel limite
gaussiano). L’intervallo al 90% per la differenza é: L1 - L2 = 11 ± 16 μm. Dunque la
variazione non é significativa oltre il 90% dunque l’allarme non dovrebbe scattare.
Tutte le 5 misure effettuate sono positive, quindi ciò fa pensare che effettivamente possiamo
essere scalibrati. Tuttavia dobbiamo mediare queste misure e ricavarne un intervallo di
probabilità (per esempio del 95%) per stabilirlo quantitativamente.
Risultato: T = 0.0162 ± 0.0052 oC (qui ho usato la tabella della t-Student essendo il numero
di misure molto piccolo). Quindi lo strumento é scalibrato. Il valore trovato é anche la
migliore stima della correzione. In tal caso é meglio usare una incertezza al 68% cioè: Tcorr =
0.0162 ± 0.0016 oC.
α = I r2 = 3.12 ± 0.13 W / s
Si tratta di vedere la probabilità associata ad un χ2 di 56.2 per 28 gradi di libertà. Dalle
tabelle tale probabilità é pari a circa 0.001 cioè l’1 per mille. Il fit non é molto buono.
L’efficienza é: ε = ( 94.4 ± 0.2 ) % (usando la formula per la binomiale). Per ottenere il
flusso effettivo devo “correggere” per l’efficienza. φ = N / ( ε Δt ) = ( 94 ± 5) x10-3 s-1.
La preferenza é passata da 86 / 215 = ( 40 ± 3 ) % a 91 / 189 = ( 48 ± 4 ) %. L’aumento di
preferenze é pertanto ( 8 ± 5 )%. Quindi prima di rallegrarmi il politico farebbe bene a
rendere statisticamente più consistente il suo campione.
Ricordiamo le 2 relazioni: n = tanθB e n = 1 /sen θlim . Dalle 2 misure ricaviamo 2 diversi
valori di n indipendenti ( che chiamiamo rispettivamente nB e nlim ). Utilizzando la
133
(3.14)
(3.15)
(3.16)
(3.17)
propagazione delle incertezze troviamo: nB = 1.460 ± 0.011 e nlim = 1.463 ± 0.005. Si noti
che nell’utilizzare la propagazione abbiamo riportato il valore dell’incertezza sugli angoli da
gradi a radianti ( × π / 180 ). I 2 valori sono chiaramente compatibili. La media pesata
fornisce: n = 1.462 ± 0.004 che é distante una deviazione standard da nqu e 7 deviazioni
standard da npl. Si tratta di quarzo dunque.
Rispondiamo con ordine alle singole domande. (1) Il secondo esperimento é più preciso. (2)
Gli intervalli standard e di quasi-certezza (cioè a 3 deviazioni standard) per i 2 esperimento
sono: x1 = 1.036 ± 0.004 (0.012) e x2 = 1.046 ± 0.005 (0.015). (3) Sono chiaramente
ambedue i risultati incompatibili con x = 1. (4) Sono compatibili tra di loro. (5) Poiché
l’incertezza statistica diminuisce “come 1 / √N” dove Né il numero di campioni, per passare
da una incertezza standard di 0.004 ( da 0.005) ad una di 0.001 dovrò aumentare il numero
di campioni di un fattore 42 = 16 per l’esperimento 1 e 52 = 25 per l’esperimento 2.
(a) q = ( 1.644 ± 0.014 ) × 10-19 C. (b) qMillikan – qoggi = ( 0.042 ± 0.014 ) × 10-19 C. Il
risultato di Millikan dista 3 deviazioni standard dal valore che abbiamo oggi. Ai limiti
dell’accettabilità.
Rate( θ > 25° ) = ( 5.7 ± 0.8 ) × 10-3 s-1, da cui P( θ > 25° ) = ( 4.6 ± 0.6 ) × 10-4 . Il
risultato é incompatibile con il modello di Thomson.
È un esempio di come a volte graficando non direttamente l’andamento delle grandezze
misurate, ma l’andamento di funzioni semplici di tali grandezze, si riesca ad avere una
migliore comprensione del problema. In questo caso, guidati dalla legge di gravitazione
universale, é conveniente graficare g in funzione di 1/R2, grafico che deve dare una retta.
Tuttavia occorre definire per bene R come distanza dal centro della terra, non dalla
superficie terrestre, R = h + RT. Dal fit lineare si ottiene il prodotto GmT e, da questo, dato
G, la massa della terra mT. Infine mT / RT3 fornisce la densità media della terra.
Risultati numerici: dal fit m = ( 404 ± 4 ) × 106 m s-2 km2 = ( 404 ± 4 ) × 1012 m3 s-2 con un
χ2 pari a 3.01 / 3 gradi di libertà dunque molto buono. Da qui: mT = ( 6.05 ± 0.06 ) × 1024
kg e dunque ρT = mT / ( 4 / 3 π RT3 ) = 5.56 g / cm3. Abbiamo riportato le unità della densità
a g / cm3 perché sono più facilmente comprensibili (in queste unità l’acqua ha densità 1, il
piombo 11 e cosi’ via).
134
Scarica