Perché il calcolo della probabilità e la statistica ? Abbiamo visto al I semestre che , se l’errore di sensibilità lo consente, misure ripetute della stessa grandezza fisica nelle stesse condizioni presentano una dispersione di valori. In queste condizioni non è possibile prevedere quale sarà il risultato di una singola misura: diremo che esso è una variabile casuale che ha una certa distribuzione di frequenza, visibile ad esempio con un istogramma. L’elaborazione dei dati sperimentali richiede la conoscenza di specifici strumenti forniti dalla statistica, la quale a sua volta fa uso del calcolo della probabilità. Per questo motivo cominciamo ad occuparci del calcolo della probabilità, senza dimenticare che questo è un corso di Laboratorio di Fisica e non di Statistica. Inizio della storia ( per quanto ne sappiamo… ) Nel 1654 il nobile Antoine Gombaud ( noto come Chevalier de Méré e accanito giocatore ) pone a Blaise Pascal e a Pierre de Fermat questa domanda : è più probabile ottenere almeno un 6 lanciando quattro volte un dado o ottenere almeno un 12 lanciando 24 volte due dadi ? I due rispondono al quesito e da quel momento possiamo dire che sia nato il calcolo delle probabilità, almeno nel mondo occidentale. Cerchiamo di precisare la nozione di probabilità, partendo dalla definizione classica, dovuta a Pierre Simon Laplace nel 1812. La probabilità di evento in un esperimento è data dal rapporto fra il numero dei casi favorevoli e il numero dei casi possibili. Se il numero di casi favorevoli è zero, la probabilità è zero; se il numero dei casi favorevoli è pari al numero dei casi possibili, la probabilità vale 1. Lanciando in aria una moneta non truccata avremo la probabilità ½ di avere testa e ½ di avere croce. Se viene lanciata 10 volte una moneta ottenendo sempre testa, all’11-mo lancio conviene puntare sul simbolo “in ritardo”, ossia croce ? No, la probabilità di ottenere ancora testa resta sempre ½. Nascono problemi con questa definizione di probabilità. Consideriamo il lancio di due monete : qual è la probabilità dell’uscita di 2 teste ? Ci sono due ragionamenti possibili. Il primo ci dice che la probabilità di due teste è ¼ poiché i casi possibili sono 4 ( TT, CC, TC, CT ). Il secondo ci dice che la probabilità di due teste è 1/3 , poiché i casi possibili sono due teste, due croci, una testa e una croce. I due risultati sono in disaccordo : quale dei due ragionamenti è corretto ? Il primo, anche se anche lo stesso Jean Baptiste Le Rond d’Alembert era fautore del secondo. Il punto è che il secondo ragionamento crea uno squilibrio fra i casi possibili, perché TC e CT “pesano” il doppio rispetto a TT e CC. Occorre rivedere la definizione di probabilità. La probabilità di evento in un esperimento è data dal rapporto fra il numero dei casi favorevoli e il numero dei casi possibili, purché essi siano equiprobabili. Si cade quindi in un circolo vizioso. Definizione frequentistica di probabilità ( John Venn, 1866) È simile alla definizione classica, ma sostituisce al rapporto numero dei casi favorevoli/numero dei casi possibili il rapporto numero di esperimenti effettuati con esito favorevole/ numero di esperimenti effettuati. Un ragionamento “ a priori” tutto teorico viene sostituito da una valutazione “ a posteriori” basata sull’esperienza. Viene assunta quindi come probabilità che un evento si verifichi la frequenza relativa con cui si presenta in condizioni analoghe. Un esempio in cui la definizione classica non è d’aiuto. Qual è la probabilità che il primo dell’anno 2014 sia una giornata piovosa a Napoli? Se consultando i bollettini meteorologici degli ultimi 30 anni si scopre ad esempio che abbia piovuto 18 volte, diremo che la probabilità di avere un giorno di pioggia il primo gennaio 2014 sarà pari a 18/30, ossia del 60%. Ma qual è il numero di prove che bisogna effettuare per avere una stima affidabile della probabilità ? L’intuizione ci suggerisce che più grande è il numero di prove più affidabile è la stima della probabilità, ma resta una margine di vaghezza. Per questo motivo, nei casi in cui possiamo usare la definizione classica ( come nel lancio di una moneta ) si ricorre al ragionamento “a priori”, senza ad esempio lanciare 800 volte una moneta e ottenere che la probabilità di ottenere testa sia di 413/800 solo perché è uscita testa 413 volte. In termini matematici possiamo dire che la probabilità che si verifichi un evento è pari al limite della frequenza relativa quando il numero delle prove tende ad ∞. Definizione soggettivistica ( Frank Plumpton Ramsey, Bruno de Finetti, anni 1926-1930) Ci sono casi in cui nessuna delle due precedenti definizioni di probabilità sono d’aiuto, specialmente quando ci occupiamo di eventi non ripetibili. In un librettino non facilmente reperibile di Giuliano Spirito dal titolo “Matematica dell’incertezza” c’è il seguente esempio che può aiutare a capire. Supponiamo che lo studente Alessio scommetta 3 contro 1 ( se perde pagherà 3, se vince incassa 1) che sia corretta la soluzione da lui data ad un certo problema. Per Alessio ci sono tre possibilità che la soluzione sia giusta contro una che la soluzione sia sbagliata, come succede nel caso di un sorteggio da un’urna, contenente 3 palline rosse ( soluzione giusta) e 1 nera (soluzione sbagliata). In conclusione Alessio sta dando una valutazione ( soggettiva ) di probabilità e attribuisce una probabilità ¾ ( 75%) al realizzarsi dell’evento soluzione giusta. Tutte e tre le definizioni non sono quindi in generale soddisfacenti. Tuttavia esiste una teoria assiomatica ( dovuta ad Andrej Nikolaevič Kolmogorov nel 1933) che cerca di fornire una base teorica comune. Sia S l’insieme di tutte le possibili modalità di un fenomeno e A e B due sottoinsiemi di S. Si definisce probabilità un numero reale tale che a) P(A) ≥ 0 b) P(A U B) = P(A) + P(B) se A∩ B = Ø c) P(S) = 1 dove con A U B si indica il sottoinsieme di modalità che appartengono o ad A oppure a B, con A ∩ B il sottoinsieme di modalità che appartengono sia ad A sia a B ed infine con Ø l’insieme vuoto. I diagrammi di Venn, illustrati in figura, aiutano a capire Ā, il complemento di A, l’unione A U B e l’intersezione A ∩ B. In particolare si può vedere che P(A U B) = P(A) + P(B) – P(A ∩ B) ( si evita di contare due volte gli eventi in comune ad A e B ). Tale regola è nota come regola di addizione per le probabilità. Se i sottoinsiemi A e B sono mutuamente esclusivi ( ossia se i cerchi in figura non hanno punti in comune ) A∩ B = Ø e P(A ∩ B) = 0. Se B = Ā, AUĀ= S e A∩Ā = Ø, per cui P(S) = P(AUĀ) = P(A) +P(Ā) = 1. Un altro concetto importante è quello di probabilità condizionale ( chiamata anche probabilità condizionata). Si scrive P(B│A) ed esprime la probabilità che si verifichi l’evento B sotto la condizione che si sia verificato l’evento A. Si intuisce che la probabilità condizionale ha qualcosa in comune con A ∩ B ed infatti per definizione P (A ∩ B ) = P(B│A) P(A)= P(A│B) P(B) Quindi: P(B│A)= P (A ∩ B ) /P(A) P(A│B)= P (A ∩ B ) /P(B) Che succede se il verificarsi dell’evento B non dipende dal precedente verificarsi dell’evento A ? Si dice che A e B sono indipendenti fra di loro e P (A ∩ B ) = P(B) P(A)= P(A) P(B) che è la regola di moltiplicazione degli eventi indipendenti. Possiamo adesso sapere qual è la probabilità di ottenere un 12 nel lancio di due dadi. Per avere un 12 è necessario che nel lancio del primo dado esca un 6 ( evento A con probabilità 1/6 ) e che nel lancio del secondo dado esca ancora un 6 ( evento B con probabilità 1/6). Ottenere un 12 è l’intersezione degli eventi A e B, che sono indipendenti fra di loro, sicché la probabilità di ottenere un 12 nel lancio di due dadi è 1/6x1/6, ossia 1/36. E la risposta ad Antoine Gombaud ? Eccola finalmente. Qual è la probabilità di ottenere almeno un 6 lanciando 4 volte un dado ? Conviene introdurre l’evento complementare, ossia quello di non ottenere nessun 6 in 4 lanci. Calcoliamo la probabilità di questo ultimo evento: occorre che non esca nessun 6 nel primo lancio ( probabilità 5/6), nessun 6 nel secondo lancio ( probabilità 5/6) e così via. La probabilità di non ottenere nessun 6 in quattro lanci è quindi uguale a 5/6x5/6x5/6x5/6 = 625/1296 = ~ 48% per cui la probabilità che non esca almeno un 6 e circa il 52%. Qual è la probabilità che lanciando 24 volte due dadi si ottenga almeno un 12 ? L’evento complementare a questo è che non esca nessun 12 in 24 lanci. Abbiamo visto che la probabilità che esca 12 in un lancio è 1/36. La probabilità che non esca nessun 12 in un lancio è allora 35/36 e la probabilità di non ottenere nessun 12 in 24 lanci è 35/36 elevato alla 24, che vale circa 49%. Quindi la probabilità che lanciando 24 volte due dadi si ottenga almeno un 12 è circa il 51% . Conclusione : è più facile ( sia pure di poco ) ottenere un 6 in 4 lanci di un dado che 12 in 24 lanci di due dadi. Il calcolo della probabilità e le “coincidenze” C’è un largo convincimento che le coincidenze di eventi siano altamente improbabili e che il loro verificarsi richiedano giustificazioni esterne al fatto in sé. Sentiamo dire spesso “non può trattarsi di una semplice coincidenza” ma è vero ? Facciamo un esempio. In una stanza ci sono 5 persone e si scopre che di 2 di loro sono nati nello stesso mese : è una coincidenza imprevedibile e significativa ? Vediamo. Cominciamo a calcolare la probabilità dell’evento complesso mesi tutti diversi, che consiste nel fatto che il mese della seconda persona sia diverso dal mese della prima e che il mese della terza persona sia diversa dai mesi delle prime due e che il mese della quarta sia diverso da quello delle prime tre e il mese della quinta sia diverso da quello delle prime quattro. Questa probabilità vale 11/12x10/12x9/12x8/12 ossia 7920/20736=55/144. Ma l’evento mesi tutti diversi è l’evento complementare dell’evento atteso ( almeno due mesi uguali) , che ha quindi una probabilità di verificarsi pari a 89/144, ossia circa il 62% , probabilità per nulla piccola. Distribuzioni di probabilità Una variabile casuale X è una grandezza di cui non si può prevedere con certezza il valore osservato. Si ha solo una legge di probabilità. Tale variabile può essere discreta, se può assumere solo un numero finito di valori xi( ad esempio gli esiti del lancio di un dado, l’altezza degli studenti presenti in aula, etc..). Avremo allora che P( X = xi ) = Pi . Possiamo definire una funzione di distribuzione cumulativa F(xi ) come la somma di tutte le Pj , con l’indice j che varia fra 1 e i. Possiamo definire un valore aspettato di x, il cui simbolo può essere E(x) dall’inglese expectation value oppure da <x>: E(x) = ∑j Pj xj con l’indice j che assume tutti i possibili valori. La variabile può essere continua. Avremo allora che P ( x ≤ X ≤ x + dx ) = f(x) dx dove f(x) è la p.d.f. di x, ossia la funzione densità di probabilità( p.d.f. in inglese sta per probability density function). L’integrale di f(x) dx, esteso a Ω, l’insieme di definizione delle x, deve valere 1, poiché la probabilità totale che la variabile x assuma un certo valore in Ω deve valere 1. Se Ω è l’intervallo [a,b], l’integrale di f(x’) dx’fra a e x viene chiamato funzione di distribuzione cumulativa: ( ) ∫ ( ) F(x) vale 0 se x=a e vale 1 se x=b. Possiamo definire ancora un valore aspettato di x, come ( ) ∫ ( ) Da notare che la mediana della funzione densità di probabilità viene definita come quel valore di x per cui F(x) =1/2. Il valore atteso è un caso particolare dei momenti di ordine k ( con k intero positivo) intorno a x0 . μk (x0 ) = E [(x- x0 )k ] che vale ∑j Pj (xj - x0 ) k nel caso discreto e vale ∫ ( ) ( ) nel caso continuo. Se x0 = 0, i momenti si intendono definiti intorno all’origine. Quindi μ1 (0 ) = E(x) = μ. Questa grandezza viene chiamata anche valore medio o media della distribuzione. Il secondo momento intorno a μ, ossia μ2 (μ ) = E [(x- μ )2 ] viene chiamato varianza della distribuzione, che solitamente viene indicata col simbolo σ². La quantità σ è detta deviazione standard. La varianza dà informazioni sulla larghezza della distribuzione intorno al suo valore medio, cosa che non può fare E (x- μ ) perché è uguale a zero. Si può vedere che σ² = E(x² ) - μ², per cui E(x² ) = σ² + μ². Si può vedere anche che E [(x- μ )2 ] = E(x² ) – [E(x)]² La quantità β, definita come il rapporto fra E [(x- μ )3 ] e σ², è il coefficiente di asimmetria ( skewness ) perché è caratteristica delle funzioni di distribuzione di probabilità non simmetriche rispetto al valore medio. Se β è positiva o negativa, la distribuzione è più estesa a destra o a sinistra di μ. Possono essere definiti altri coefficienti, legati ai momenti di ordine superiore ma noi non ne parleremo in questo corso di laboratorio. Diseguaglianza di BienayméČebičev Sia g(x) una funzione non negativa della variabile casuale x con p.d.f. f(x) e varianza σ² . Si può dimostrare che, se esiste E(g(x)), allora P(g(x) ≥ c) ≤ 1/c E(g(x)) dove c è una costante qualunque. Se in particolare g(x) è uguale a ( x-E(x))² si ricava che P[ (│x-E(x) │≥ λσ ] ≤ 1/λ² che è chiamata diseguaglianza di BienayméČebičev. Se λ=1, si ha un risultato banale ma al crescere di λ diventa sempre più piccola la probabilità di trovare grossi scarti dalla media μ. Densità di probabilità congiunta di N variabili. Finora abbiamo considerato il caso in cui la p.d.f. dipenda da una sola variabile casuale. L’estensione a diverse variabili x1, x2, … x n consiste nel considerare la funzione di densità di probabilità congiunta f(x1, x2, … x n), che supporremo positiva, che assuma un singolo valore in ogni punto (x1, x2, … x n ) di uno spazio Ω a n dimensioni e che sia normalizzata opportunamente. ∫ f(x1, x2, … x n) dx1 dx2 …. dxn = 1. Possiamo ancora sfruttare quanto abbiamo introdotto nel caso che n=1. In particolare μi =E( xi ) = ∫ xi f(x1, x2,.. x n) dx1 dx2 ..dxn . Possiamo anche introdurre la matrice delle covarianze Vij = E[ (xi - μi )(xj - μj ). Questa matrice è molto importante per i fisici. Essa è simmetrica : Vij = Vji . Gli elementi della diagonale principale sono le varianze. Un elemento fuori diagonale principale Vij con i ≠ j è chiamato covarianza di xi e xj ed è denotato col simbolo cov(xi , xj ). Viene introdotto anche il coefficiente di correlazione ρ(xi , xj ), definito da ρ(xi , xj )= cov(xi , xj ) / σi σj e che è compreso fra +1 e -1. Se ρ(xi , xj ) = +1 (-1), xi e xj sono completamente correlate positivamente ( negativamente). Se ρ(xi , xj ) = 0, xi e xj sono scorrelate. Propagazione delle varianze, conosciuta come propagazione degli errori. Siano x1, x2, … x n n variabili casuali e poniamo ( , ,… )=y( ) Supponiamo inoltre nota la matrice delle covarianze delle x e vogliamo determinare la varianza di y. Se facciamo uno sviluppo in serie di Taylor, bloccata al primo ordine, intorno al valore =( , ,… di (x1, x2, … x n ), abbiamo y ( ) = y( ) + ∑ ( ) - ) più termini di ordine superiore e dove la derivata è calcolata in = . Il valore atteso di questa espressione vale { ( )} ( ) più termini di ordine superiore, poiché ogni termine del primo ordine vale zero. Solo nel caso in cui le quantità ( xi – μi ) siano piccole, i termini di ordine superiore possono essere trascurati. A questo punto si può ottenere la varianza di y. V{ ( )}=E{ ( ) [ ( )]}2 { ( ) ( )} Per quanto detto prima, sempre trascurando i termini di ordine superiore, si ha che V{ ( ∑ )} ∑ ( ) dove le derivate sono calcolate in = . Per n variabili indipendenti tutti i termini di covarianza sono zero e la varianza di y vale V{ ( )} ∑ ( )² ( ) Un esempio. Consideriamo la media aritmetica di n variabili indipendenti x1, x2, … x n aventi tutti la stessa varianza σ²: ̅= ∑ Le derivate parziali di y rispetto ad ogni xi valgono 1/n e le derivate di ordine più alto sono nulle. Ne consegue, senza nessuna approssimazione che la varianza della media aritmetica vale ( ̅)=∑ ( )² σ² ² Campione e popolazione Una funzione di densità di probabilità f(x) per una variabile continua o, equivalentemente, un insieme di probabilità nel caso discreto descrivono le proprietà di una popolazione. In fisica si associa una variabile casuale all’esito di una osservazione e la p.d.f. f(x) descriverebbe l’esito di tutte le possibili misure su un sistema se le misure fossero ripetute infinite volte nelle stesse condizioni sperimentali. Poiché ciò è impossibile, il concetto di popolazione per un fisico rappresenta un'idealizzazione che non può essere ottenuta nella pratica. Un reale esperimento consiste di un numero finito di osservazioni e una successione x1, x2, … xn di una certa quantità costituisce un campione di dimensione n. Per questo campione possiamo definire la media aritmetica o media del campione ̅= ∑ e la varianza del campione ∑ ( = - ̅ )² la cui distribuzione dipenderà dalla distribuzione parente e dalla dimensione del campione Le due quantità sono funzioni di variabili casuali e sono anche esse variabili casuali. Infatti se prendiamo un nuovo campione di dimensione n otterremo in generale una nuova media aritmetica e una nuova varianza : ossia queste grandezze avranno una loro distribuzione, che dipenderà dalle proprietà della distribuzione “parente” e dalla dimensione n del campione. Il nostro obiettivo è adesso come ricavare, a partire dalle informazioni che ricaviamo da un campione, informazioni che riguardano l’intera popolazione. Naturalmente il campione deve essere rappresentativo della popolazione, altrimenti, come accade spesso nei sondaggi, si ottengono risultati sbagliati. Per la legge dei grandi numeri la media del campione tende alla media della popolazione al tendere di n all’infinito. Infatti questa legge ( nella forma debole ) prevede che, dato un intero positivo ε, la probabilità che la media del campione differisca da μ di una quantità maggiore di ε tende a zero nel limite di n infinito : ( ̅ Si può anche dimostrare che il valore atteso della media del campione coincide con la media della popolazione e che il valore atteso di s2 coincide con σ2 . Se il nostro campione è costituito da n coppie ( xi, yi) di valori di due grandezze casuali x e y, si può definire la covarianza del campione come ∑ ( Cov (x,y ) = ̅ )( ̅) In questa espressione ̅ e ̅ sono le medie aritmetiche del campione delle x e delle y rispettivamente. Si può allora dimostrare che il valore atteso della covarianza del campione coincide con la covarianza della popolazione delle x e y.