certo…anzi probabile Atto di nascita: 1733 0.14 fu introdotta nella teoria della probabilità da Abraham De Moivre come approssimazione della distribuzione binomiale curva di Gauss 0.12 0.1 0.08 0.06 y 0.04 0.02 -10 -9.25 -8.5 -7.75 -7 -6.25 -5.5 -4.75 -4 -3.25 -2.5 -1.75 -1 -0.25 0.5 1.25 2 2.75 3.5 4.25 5 5.75 6.5 7.25 8 8.75 9.5 0 media µ Distribuzione binomiale Sia dato un evento E di probabilità p(E)=0,47 si fanno 10 prove e si calcola la probabilità che l’evento E si verifiche 0 volte, 1 volta, 2 volte, ….10 volte n. successi probabilità 0.3 0 0,001748875 0.25 1 0,015508889 2 0,061889245 3 0,146354442 0.15 4 0,227125525 0.1 5 0,241695842 6 0,178611707 7 0,090509436 8 0,030098657 9 0,005931392 10 0,000525991 0.2 Series1 0.05 0 1 2 3 4 5 6 7 8 9 10 11 P(E) = 0,47 n= numero delle prove = 20 0.2 n. successi 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 probabilità 3,05856E-06 5,42462E-05 0,000456999 0,002431578 0,009164296 0,026005852 0,057654484 0,102255123 0,147353491 0,174229284 0,169955736 0,137014058 0,091127275 0,049729833 0,02205002 0,007821517 0,002167519 0,000452268 6,68447E-05 6,23972E-06 2,76667E-07 0.18 0.16 0.14 0.12 0.1 Series1 0.08 0.06 0.04 0.02 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 n. successi 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 probabilità 1,63604E-14 7,25413E-13 1,57606E-11 2,23623E-10 2,3301E-09 1,90101E-08 1,26435E-07 7,04766E-07 3,35927E-06 1,39019E-05 5,05452E-05 0,000162993 0,000469759 0,001217691 0,00285386 0,006073876 0,01178246 0,020897193 0,033974367 0,050742252 0,069746662 0,088358305 0,103286766 0,111505648 0,111242663 0,10259512 26 0,087481325 27 0,068958026 28 0,050231554 29 0,03379273 30 0,020976997 31 0,012001447 32 0,006319158 33 0,003056608 34 0,001355289 35 0,000549422 36 0,00020301 37 6,81184E-05 38 2,06655E-05 39 5,63878E-06 40 1,37512E-06 41 2,97425E-07 42 5,65188E-08 43 9,32474E-09 44 1,31554E-09 45 1,55548E-10 46 1,49934E-11 47 1,13157E-12 48 6,2717E-14 49 2,27008E-15 50 4,02618E-17 0.12 0.1 0.08 0.06 Series1 0.04 0.02 0 1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 La curva fu poi ripresa in un ambito matematico diverso da Carl Friedrich Gauss (17771855) tanto che oggi è ricordata come curva di Gauss o curva degli errori. Gauss la descrisse come distribuzione delle misure atte a determinare la posizione degli astri. 0.14 0.12 Riportiamo sull’asse orizzontale le misure di una certa grandezza fatte con uno strumento di precisione e sull’asse verticale la frequenza con cui si sono verificate queste misure. 0.1 0.08 Series1 0.06 0.04 0.02 0 1 4 7 10 13 16 19 22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 Media = valore della misura Quello che è eccezionale è che la curva gi Gauss caratterizza anche la distribuzione delle principali grandezze antropometriche di una popolazione di individui, come il peso, l’altezza ecc… In questo grafico ad esempio in ascissa sono riportati i pesi di 4.017.264 bambini nati da gravidanze singole nel 1991 negli Stati Uniti e in ordinate il numero dei neonati aventi un determinato peso. Le informazioni sono state raccolte utilizzando i certificati di nascita. Il valore del peso centrale che è la moda è anche la media dei pesi. Uno dei primi che nei suoi lavori fece grande uso della curva di Gauss fu Adolphe Quételet che è ritenuto uno dei padri della statistica sociale. La statistica nasce attorno alla seconda metà del Seicento con il nome di ARITMETICA SOCIALE o CALCOLO SOCIALE o SCIENZA NUMERICA DELLA SOCIETA’ e DEGLI STATI. Si studiavano mediante indagini statistiche eventi naturali come le nascite , le morti, ma anche gli atti volontari come i matrimoni, i crimini e i suicidi. Tutto ciò per la promozione di una politica statale più informata e quindi più efficace. Di qui probabilmente il nome di Statistica, i suoi praticanti furono chiamati “statisti” e verso la fine del XIX secolo “statistici”. La Statistica si sviluppa poi in modo particolare nel corso dell’Ottocento appunto con Quételet. Ma le basi della statistica matematica moderna furono poste tra il 1890 e il 1930. Fra i fondatori della moderna statistica matematica ricordiamo Pearson, Spearman, Yule, Gosset, Fisher. Adolphe Quételet (Gand 1796- Bruxelles 1874) Astronomo, matematico interlocutore di matematici illustri come Fourier, Poisson, Laplace, è indubbiamente la figura più importante nello sviluppo della statistica scientifica. Cerca di portare in Statistica il rigore dei metodi usati in astronomia e l’impiego sistematico della matematica. Nel 1834 fonda la Statistical Society di Londra. Per Quételet la matematica avrebbe dato un ordine all’apparente caos sociale, nel senso che – pensava - in campo sociale esistono delle leggi come nel mondo naturale che possono essere scoperte con la statistica. Per lui la statistica divenne una Physique sociale. Ad esempio Quételet si occupò di eventi come il crimine e il suicidio e scoprì che l’attività criminale variava di poco di anno in anno. E a proposito di tale regolarità Quételet osservava: “ essa ci insegna che l’azione dell’uomo è limitata in tale ambito e che le grandi leggi della natura sono per sempre al di fuori della sua influenza; essa dimostra inoltre che nel mondo morale possono esistere delle leggi di conservazione allo stesso modo in cui si trovano nel mondo fisico”. Sulla base delle leggi sociali scoperte la società era vista come un’entità a se stante, indipendente dai capricci e dalle idiosincrasie degli individui che la costituiscono. Ci sono delle leggi sociali ineluttabili per quanto possa sembrare diverso ed irrazionale il comportamento dei singoli uomini. C’è una regolarità collettiva. Questa visione della ineluttabilità delle leggi sociali diventa visione filosofica e in campo politico costituisce anche il fondamento della politica liberale del laissez faire: dato che la società era governata da leggi statistiche il suo governo si doveva limitare ad un ruolo ancillare, lo Stato doveva solo favorire e assecondare la naturale evoluzione sociale. “L’uomo può essere considerato un enigma solo come individuo, come massa è un problema matematico”. L’ homme moyen Nell’ultimo periodo del suo lavoro Quételet elabora il concetto di homme moyen. Questo essere astratto definito nei termini della media di tutte le sue qualità umane in un determinato paese costituiva il “tipo” nazionale rappresentativo della società nella scienza sociale analogo al baricentro in fisica. I calcoli relativi a l’homme moyen physique non poneva particolari problemi in quanto si trattava di misurare le altezze, i pesi, le dimensione delle membra e dei vari organi e di farne poi la media. Maggiori ostacoli presentava invece la definizione dell’ homme moyen moral perché non si poteva misurare il coraggio, la criminalità e i buoni sentimenti. Lo stesso risultato si poteva ottenere registrando gli atti coraggiosi o criminali dell’intera società e quindi si poteva attribuire all’uomo medio una tendenza al crimine equale al numero dei delitti commessi diviso il numero della popolazione. In questo modo un insieme di atti separati commessi dai singoli individui veniva trasformato in una grandezza costante, la propensione che era attribuita all’uomo medio. Per determinare le caratteristiche dell’uomo medio Quételet fece una serie di esperimenti in cui usò la curva a campana di Gauss. Infatti dimostrò che i caratteri antropometrici come il peso, l’altezza, la lunghezza degli arti ecc.. Hanno una distribuzione gaussiana Quételet misurò le circonferenza toraciche di 5738 soldati scozzesi e le raggruppò in intervalli di ampiezza un pollice,ottenendo sedici gruppi. Quételet osservò che la distribuzione delle frequenze approssimava la distribuzione gaussiana. Quételet concluse che se le misurazioni delle circonferenze toraciche si comportavano nel modo indicato dalla teoria degli errori di Gauss, allora le misure delle circonferenze toraciche dei soldati potevano essere interpretate come repliche sottoposte a errori di misurazioni della misura toracica dell’uomo medio. La stessa cosa vale per il peso, l’altezza ecc.. variabile di Gauss 0.14 0.12 In ordinata y: i valori della densità di probabilità della x 0.1 0.08 0.06 y 0.04 0.02 deviazione standard σ 0 -10 -9.25 -8.5 -7.75 -7 -6.25 -5.5 -4.75 -4 -3.25 -2.5 -1.75 -1 -0.25 0.5 1.25 2 2.75 3.5 4.25 5 5.75 6.5 7.25 8 8.75 9.5 y In ascissa x: valori di una variabile x 0.45 µ= media 0.4 0.35 0.3 I valori di µ e di σ individuano perfettamente la curva 0.25 0.2 0.15 dev.st.=1 dev.st.=2 dev.st=3 0.1 0.05 0 1 6 111621263136414651566166717681 h= densità di probabilità probabilità ∆x= 10 Statura (cm) frequenza Frequenza Relativa (probabilità p) (140-150] 5 0,05 (150-160] 9 0,09 (160-170] 20 0,20 (170-180] 32 0,32 (180-190] 20 0,20 (190-200] 9 0,09 (200-210] 5 0,05 100 1,00 totale Le probabilità p sono le aree dei rettangoli, le altezze h dei rettangoli sono le densità di probabilità: h ∆x= area=p Al tendere a 0 di ∆x l’istogramma diventa la curva a campana che ha quindi in ascissa x i valori delle altezze e in ordinate y i valori della densità di probabilità. Probabilità di trovare individui di altezza compresa fra x1 e x2 y x x1 x2 variabile di Gauss 0.14 0.12 In ordinata y: i valori della densità di probabilità della x 0.1 0.08 0.06 y 0.04 0.02 σ 0 -10 -9.25 -8.5 -7.75 -7 -6.25 -5.5 -4.75 -4 -3.25 -2.5 -1.75 -1 -0.25 0.5 1.25 2 2.75 3.5 4.25 5 5.75 6.5 7.25 8 8.75 9.5 y In ascissa x: valori di una variabile x 0.45 µ= media 0.4 0.35 0.3 0.25 0.2 0.15 dev.st.=1 dev.st.=2 dev.st=3 0.1 0.05 0 1 6 111621263136414651566166717681 Il problema della stima della media o di una proporzione di una popolazione - Indagine completa - Indagine campionaria: la inferenza statistica -Teorema del limite centrale: sia data una popolazione la cui media sia µ (e la cui proporzione sia P). Estraiamo da essa tutti i possibili campioni di dimensione n (grandi campioni con n≥30) e di ogni campione calcoliamo la media m (o la frequenza f). Otteniamo una distribuzione di medie campionarie (o di proporzioni campionarie). -Esempio se la popolazione ha dimensione N=10 e n= 2 allora i campioni sono 45 -Se N = 100 e n= 10 allora i campioni sono 1,73103 1013 Sia la popolazione costituita da 4 elementi a, b, c, d Tutti i possibili campioni di dimensione 2 sarebbe costituito da: a, b a, c a, c b, c b, d c, d Valgono i seguenti risultati: 1) tali distribuzioni sono gaussiane 2) la media delle medie campionarie coincide con la media µ della popolazione 3) la media delle frequenze campionarie coincide con la proporzione P della popolazione 4) La deviazione standard della distribuzione delle medie campionarie è dove σ è la deviazione standard della popolazione. 5) La deviazione standard della distribuzione delle frequenze campionarie è dove P è la Proporzione della popolazione. 95% Densità di frequenza delle medie campionarie Medie campionarie Media della popolazione Livello di fiducia Un ingegnere addetto al controllo di quantità vuole stimare il peso medio di una scatola di cereali riempita da una certa macchina in un certo giorno. Estrae un campione casuale di 100 scatole ne calcola la media campionaria m = 300,5 grammi e la deviazione standard s= 15 grammi. dove σ è la deviazione standard della popolazione e n la dimensione del campione . L’intervallo di confidenza al 95% è [300,5 –(1,96)(1,5);300,5+(1,96)(1,5)] cioè (297,56;303,44) La media campionaria m proviene dalle code del 5% della distribuzione delle medie campionarie, così l’intervallo di confidenza al 95% non contiene la media della popolazione. - Una stima è tanto più precisa quanto più piccolo è l’intervallo di confidenza - È tanto più affidabile quanto maggiore è il livello di fiducia - Da notare che mantenendo costante la dimensione del campione, aumentando il livello di fiducia aumenta anche l’intervallo di confidenza, cioè aumentando l’attendibilità della stima diminuisce la sua precisione. -Tuttavia si può conciliare l’aumento dell’attendibilità con l’aumento della precisone o a precisione invariata, aumentando la dimensione del campione. Infatti all’aumentare della dimensione del campione diminuisce la deviazione standard della distribuzione che si concentra maggiormente attorno alla media Dimensione del campione n= 250 dimensione del campione n=100 La verifica delle ipotesi, i test di significatività Il nostro ingegnere potrebbe procedere in modo diverso per vedere se la produzione procede sotto controllo. Supponiamo che l’azienda dichiari di produrre scatole di cereali del peso di 300 grammi, per cui la produzione sarà sotto controllo se la media è 300 grammi. Si tratta di verificare questa ipotesi al livello di fiducia del 95%. H0: µ = 300 si dice ipotesi nulla, l’ipotesi alternativa H1: µ ≠ 300. Ogni giorno per sapere se la produzione è sotto controllo l’ingegnere estrae a caso un campione di 100 scatole, ne calcola il peso medio m e la deviazione standard s Supponiamo che la media del campione sia 303 grammi. Si pone il problema seguente: La differenza 3 grammi rientra nella normale variabilità campionaria oppure è significativa del fatto che in realtà stiamo producendo scatole di peso medio superiore a 300 grammi? Zona accettazione Zona rifiuto σ è la deviazione standard della popolazione ed è stimata dalla deviazione standard del campione. L’intervallo verde indica la zona di accettazione dell’ipotesi nulla. Le semirette rosse indicano la zona del rifiuto dell’ipotesi nulla. P=95% α/2=2,5% α/2=2,5% P=0,95 si dice livello di fiducia α = 0,05 = 1-p = 1-0,95 = area delle due code si dice livello di significatività. Ogni decisione che si prende è soggetta ad un errore, si hanno due tipi di errori: 1. Si rifiuta H0 quando è vera. L’errore si commette quando la media campionaria m cade nella zona di rifiuto. La probabilità dell’errore è α. L’errore si dice di1° specie 2. Si accetta H0 quando è falsa. Si dice che si commette un errore β di 2° specie Si prendono invece decisioni giuste quando 1. Si accetta H0 quando è vera (La probabilità è il livello di fiducia p) 2. Si rifiuta Ho quando è falsa (La probabilità è 1- β che è detta potenza del test). E’ chiaro che la cosa migliore sarebbe costruire un test in modo da rendere minime le probabilità degli errori α e β, ma vediamo se ciò è possibile. E’ più agevole discutere la cosa nel caso in cui le ipotesi alternative siano 2. Supponiamo che due persone A e B stiano giocando ai dadi con la regola che A perde ogni volta che esce la faccia 1. supponiamo che in 100 lanci la faccia 1 si sia presentata 27 volte, per cui A ha perso con una frequenza pari a 0,27. Considerato che la probabilità che esca 1 è 0,167, A sospetta che B stia giocando con un dado truccato, magari con uno di quei dadi in cui 1 esce con probabilità 0,25. E’ possibile sottoporre a verifica tale sospetto? Le ipotesi in conflitto sono: 1. Ipotesi nulla H0: p=0,167 il dado non è truccato 2. Ipotesi alternativa H1: p= 0,25, il dado è truccato Si deve assumere una regola di decisone che potrebbe essere la seguente: Se dopo una serie di 100 lanci la frequenza con cui esce 1 è f< 0,20 allora si accetta H0, altrimenti si accetta H1. La situazione per quanto riguarda gli errori di 1° e di 2° specie è allora la seguente. Distribuzione delle frequenze campionarie di campioni di 100 lanci Zona rifiuto Zona accettazione Aumentando la dimensione dei campioni è possibile diminuire sia α sia β Esempio in campo giudiziario L’impossibilità di diminuire contemporaneamente α e β a parità di dimensione del campione è chiarita bene dal seguente esempio in campo giudiziario. Sia H0: l’imputato è innocente H1: l’imputato è colpevole α= errore di 1° specie, è la probabilità di condannare un innocente cioè la probabilità di rifiutare H0 e quindi accettare H1 quando H0 è vera β = errore di 2° specie, è la probabilità di assolvere un colpevole cioè la probabilità di accettare H0 (l’imputato è innocente) quando invece è vera H1 cioè l’imputato è colpevole. Le riforme a carattere garantista che vogliono diminuire il rischio di condannare un innocente (α) portano necessariamente al rischio di aumentare β cioè ad aumentare il rischio di assolvere un colpevole. Il T test Caso dell’efficacia di un medicinale (ad esempio per abbassare la pressione) Pressione sistolica Paziente Placebo medicinale Differenze d 1 211 181 30 2 210 172 38 3 210 196 14 4 205 191 14 5 197 167 30 6 190 161 29 7 191 180 11 8 177 160 17 9 173 149 24 10 170 119 51 11 163 156 7 Si calcola la media delle differenze e si ottiene m= 24,1 e la deviazione standard delle differenze = 13,15 L’ipotesi che vogliamo verificare è che tale differenza sia nulla, che corrisponde alla ipotesi della inefficacia del medicinale. Vogliamo verificare tale ipotesi al livello di significatività del 5%. H0: µ=0 H1: µ>0 In questo caso, dato che il campione è piccolo (<30), si adopera non la distribuzione gaussiana ma un’altra (la t di Student) che l’approssima. Agli inizi della probabilità Nel 1654 il cavalier Antonio de Méré si rivolse a Blaise Pascal per sapere perché mai puntando sull’uscita del 6 nel gioco del dado, in 4 lanci la pratica del gioco rendeva evidente che fosse più facile vincere che perdere mentre puntando sull’uscita del doppio 6 su 24 lanci di due dadi fosse viceversa più facile perdere che vincere. Secondo i calcoli che faceva Antonio de Méré avrebbe dovuto succedere il contrario. La risposta che diede Pascal fu molto semplice: fai bene i calcoli e vedrai che la teoria conferma la pratica. Infatti nel primo caso si perde se nei 4 lanci esce sempre un numero diverso da 6. La probabilità di perdere è quindi 5/6*5/6*5/6*5/6= (5/6)4 = 0,483 che è minore della probabilità di vincere che è 1-(5/6)4=0,517. Nel caso di 24 lanci di due dadi si perde se in ogni lancio non esce il doppio 6. La probabilità che nei 24 lanci non esca mai il doppio 6 è: (35/36)24=0,508 per cui la probabilità di vincere è 1-0,508=0,492 che è minore della probabilità di perdere. E’ con Pierre-Simon Laplace che la probabilità cessa di essere una curiosità matematica. I lavori che Laplace pubblicò a partire dal 1794, in particolare la Théorie analitique des probabilités del 1812 trasformarono una serie di problemi legati principalmente ai giochi d’azzardo e alle rendite vitalizie delle assicurazioni nella teoria classica della probabilità che divenne una disciplina scientifica d’avanguardia. E’ interessante illustrare le motivazioni che spingono Laplace a questa fatica. Laplace era un convinto sostenitore di una visione meccanicistica e deterministica del mondo, che secondo lui era regolato da ferree leggi esprimibili in termini matematici. Scrive nel celeberrimo Essai philosophique sur les probabilités pubblicato nel 1814 e a partire dalla seconda edizione, premesso come introduzione alla Théorie: “Dobbiamo dunque considerare lo stato presente dell’universo come l’effetto del suo stato anteriore e come la causa del suo stato futuro. Un’Intelligenza che, per un dato istante, conoscesse tutte le forze da cui è animata la natura e la situazione rispettiva degli esseri che la compongono, se per di più fosse abbastanza profonda da sottomettere questi dati all’analisi, abbraccerebbe nella stessa formula i movimenti dei più grandi corpi dell’universo e dell’atomo più leggero: nulla sarebbe incerto per essa, e l’avvenire come il passato sarebbe presente ai suoi occhi. Lo spirito umano offre, nella perfezione che ha saputo dare all’astronomia, un pallido esempio di quest’intelligenza. Le sue scoperte in meccanica e in geometria, unite a quelle della gravitazione universale, l’hanno messo in grado di abbracciare nelle stesse espressioni analitiche gli stati passati e quelli futuri del sistema del mondo.” Ma il punto è che l’uomo è ben lontano dalle capacità dell’Intelligenza da lui immaginata. Infatti poco oltre Laplace afferma: “La regolarità che l’astronomia ci presenta nel movimento delle comete, ha luogo senza dubbio in tutti i fenomeni. La curva descritta da una semplice molecola di aria o di vapore è regolata con la stessa certezza delle orbite planetarie: non v’è tra esse nessuna differenza, se non quella che vi pone la nostra ignoranza. La probabilità è relativa in parte a questa ignoranza, in parte alle nostre conoscenze”. Secondo Laplace l’uomo non è l’Intelligenza che lui si è figurato e pertanto molte volte non è in grado né di conoscere tutte le forze di cui la natura è animata, né le posizioni delle particelle che la compongono, né infine, conoscendo tanto le une quanto le altre, di sottoporre all’analisi matematica i dati in suo possesso. In questi casi si deve ricorrere alla probabilità. Quindi alla base della probabilità troviamo la nostra ignoranza. Definizione classica o laplaciana di Probabilità Sia E un evento, siano n i casi possibili e m quelli favorevoli ad esso, allora P(E) = m/n . La definizione è valida nell’ipotesi che tutti i casi possibili siano ritenuti egualmente possibili. Esempio: Probabilità che lanciando un dado non truccato esca il numero 6 è 1/6 in quanto i casi possibili sono 6 e quelli favorevoli all’evento sono 1. Per tutto l’Ottocento la definizione di probabilità fu quella classica di Laplace, tuttavia a partire dagli ultimi anni dell’Ottocento specie in fisica e in Biologia gli esempi di eventi per i quali si doveva ricorrere alle osservazioni per determinare le probabilità si andavano moltiplicandosi. Definizione frequentista o statistica di probabilità Frequenza assoluta: numero delle volte che un evento si verifica. Es: lancio il dado 10 volte, il numero 6 si verifica 3 volte. 3 è la frequenza assoluta di 6 Frequenza relativa: è il rapporto fra la frequenza assoluta e il numero delle prove fatte. Nell’esempio precedente: la frequenza relativa di uscita di 6 è 3/10 = 0,3 La probabilità di un evento in senso frequentista è il limite al quale tende la frequenza relativa quando il numero delle prove tende all’infinito oppure la probabilità di un attributo in una certa popolazione è il limite al quale tende la frequenza relativa dell’attributo quando la frequenza è calcolata su campioni estratti dalla popolazione di grandezza via via crescente e tendente all’infinito. Tuttavia perché la definizione sia valida occorre che l’evento sia ripetibile e le singole prove sia indipendenti o che i campioni via via usati siano casuali cioè tali che i componenti abbiano tutti la stessa probabilità di essere estratti. Esempio: supponiamo di lanciare un dado un gran numero di volte, diciamo mille, e di constatare che il 2 si è presentato 173 volte, per cui 173/1000=0,173 è la frequenza relativa dell’uscita del numero 2. Proseguendo nei lanci la frequenza relativa assumerà valori diversi ma tenderà a stabilizzarsi attorno ad un certo valore che viene assunto come valore della probabilità dell’evento. L’esperienza ci mostra che in tutti i fenomeni di massa la frequenza relativa di un certo attributo si stabilizza al crescere del numero delle osservazioni ed è proprio questo fatto che in qualche modo giustifica la definizione frequentista di probabilità. Un ponte fra le definizione di probabilità in senso classico e in senso frequentista fu gettato agli inizi del Novecento da Guido Castelnuovo che nel suo Calcolo delle probabilità del 1919 introdusse la famosa legge empirica del caso che dice: “In una serie di prove ripetute un gran numero di volte e nelle stesse condizioni, ciascuno degli eventi possibili si manifesta con una frequenza relativa che è presso a poco uguale alla sua probabilità. L’approssimazione cresce ordinariamente col crescere del numero delle prove”. n. Lanci Esempio di simulazione al computer del lancio di un dado. Frequenza con cui si presenta il numero 3 al crescere del numero dei lanci. Probabilità classica di uscita di 3 = 1/6 = 0,166667 Un contributo determinante alla formulazione di questa definizione fu data da Richard von Mises tedesco che pubblicò un trattato sulla probabilità dal titolo impronunciabile nel 1928. 100 200 300 400 500 600 700 800 900 1000 2000 3000 4000 5000 6000 7000 8000 9000 10000 Frequenza assoluta 14 35 52 69 86 95 108 128 141 156 318 478 636 810 974 1172 1329 1481 1657 Frequenza relativa 0,140000 0,175000 0,173333 0,172500 0,172000 0,158333 0,154286 0,160000 0,156667 0,156000 0,159000 0,159000 0,159000 0,162000 0,162333 0,167429 0,166125 0,164556 0,165700 MATEMATICA ATTUARIALE Le aziende per testare la vita media dei loro prodotti, per esempio lampadine e frigoriferi, eseguono dei test di durata; vale a dire che scelgono un campione casuale della loro produzione e li fanno funzionare finché non si guastano. In questo modo se 100 lampadine scelte a caso da una produzione sono accese in media 60 ore (si registra la vita di ogni lampadina e poi si fa la media) possiamo dire che la vita media di una lampadina di quel tipo è di 60 ore (in realtà si fa una stima per intervalli). In matematica attuariale e per le molte applicazioni nel campo delle assicurazioni ha molta importanza stabilire quale sia la vita media di un individuo di età x oppure sapere quale è la probabilità che un individuo che oggi ha 40 anni possa vivere ancora 20 anni. E’ chiaro che per calcolare la vita media delle persone non si può seguire il metodo delle lampadine cioè scegliere 100 individui e poi seguirli finché non muoiono tutti. Sarebbe troppo lungo. Queste valutazioni si fanno ricorrendo alle tavole demografiche o tavole di sopravvivenza. La prima rudimentale ma interessante tavola di sopravvivenza risale alla prima metà del XVII secolo e fu composta dall’inglese J. Graunt che reperì i dati dai registri parrocchiali. Un tretennio più tardi l’astronomo inglese Edmund Halley (1656-1742) compilò una tavola simile sempre basandosi sui registri parrocchiali. Da allora applicando i metodi della statistica e del calcolo delle probabilità si sono potute costruire tavole demografiche sempre più precise ed affidabili basandosi essenzialmente su due tipi di osservazioni, diverse ma complementari: i dati dei censimenti e quelli dei decessi. In Italia si occupa della compilazione delle tavole l’Istituto di Statistica (Istat). Dai censimenti che nel nostro paese vengono fatti ogni 10 anni, si possono estrarre i dati relativi ai viventi suddivisi per età e sesso. Rilevando invece per un certo numero di anni i dati sui decessi dai registri dello stato civile, si possono ricavare informazioni sul numero medio dei morti, suddivisi per fasce di età. Si costruiscono quindi delle tavole che anno per anno indicano quante persone sono sopravvissute rispetto ad un nucleo iniziale e quante quindi sono decedute. E’ importante avvalersi di tavole aggiornate perché al cambiare delle condizioni di vita cambiano le probabilità di vita e di morte. Descrizione delle tavole dx = lx-lx+1. Si può vedere che lx ( il numero dei sopravvissuti) è una funzione decrescente dell’età, (ovviamente man mano che passa il tempo il numero dei vivi diminuisce, qualcuno muore) ma prima fino a circa 60 anni decresce lentamente poi in maniera più rapida. Dal grafico di dx si vede che il numero dei morti diminuisce abbastanza rapidamente nei primi anni di vita poi a partire da 10 anni circa comincia ad aumentare fino a 80 anni poi diminuisce rapidamente fino all’età estrema. Alcune probabilità di vita e di morte calcolate in base alla definizione frequentista di probabilità. Tasso annuo di sopravvivenza, cioè la probabilità che un individuo di età x arrivi all’età x+1. Esempio: probabilità che un individuo maschio di 60 anni arrivi a 61 Probabilità che un individuo di 80 anni arrivi a 81 Tasso annuo di mortalità, cioè la probabilità che un individuo di età x muoia prima di compiere l’età x+1 Esempio: probabilità che una persona di 20 anni muoia prima di compiere 21 anni. Probabilità di essere in vita dopo h anni Esempio: probabilità che un individuo maschio di 39 anni arrivi all’età di 59 anni. Vita media È il tempo medio di vita residua che ha una persona di età x. Si calcola nel modo seguente: sia lx il numero delle persone di età x, dx è il numero delle persone di questo gruppo che moriranno entro l’anno, si può pensare che ognuna di queste persone vivranno in medio ½ di anno. Le persone che moriranno l’anno successivo cioè all’età x+1 sono dx+1 , si può pensare che ognuno di essi abbia vissuto un anno e mezzo cioè 3/2 di anno. Le persone che moriranno all’età x+2 sono dx+2 e si può pensare che ognuno di essi abbai vissuto 2 anni e mezzo cioè 5/2 di anno. E così via. In conclusione in questo modo abbiamo calcolato la vita media di ogni individuo del gruppo iniziale. La vita media di un individuo di età x sarà la media ponderata delle vite medie di tutto il gruppo dei viventi all’età x, cioè: vita media età x = Esempio La vita media di un maschio di 60 anni è Vita probabile La vita probabile di un individuo di età x è il numero di anni che devono trascorrere affinché la popolazione dei viventi all’età x diventi la metà. Essa viene indicata con il simbolo πx . Allora πx si trova risolvendo l’equazione lx+πx= ½ lx Ad esempio Dalle tavole risulta che il numero dei viventi maschi all’età di 50 è l50 = 93016 Essi diventano la metà (cioè 46508) quando il gruppo ha un’età compresa fra 78 e 79 per cui si può dire che la vita media è circa 78-50 = 28 Calcolo del premio di una assicurazione di capitale differito. Una persona di età x riscuote un certo capitale C se sarà vivo all’età x+n. Quale premio deve pagare? Ad esempio una persona di 30 anni vuole che la Compagnia di assicurazione gli versi la somma di € 100.000 se sarà in vita all’età di 60 anni. Il premio può essere: A) Unico o periodico B) Puro o caricato Calcolo del premio unico puro Si interpreta il contratto come un gioco di sorte, in cui l’assicurato vince la somma C se arriva vivo all’età x+n, e paga per giocare il premio U. Che cosa è la vincita attesa? È il prodotto della somma da vincere per la probabilità di vincerla Il premio è puro se il gioco di sorte è equo cioè la vincita attesa del banco e del giocatore sono uguali. . La vincita del banco (in questo caso la Compagnia di Assicurazione) è certa perché egli riscuote oggi con certezza il premio U. Quindi la vincita attesa del banco è U*1 = U La vincita attesa dell’assicurato e la somma che riscuoterà fra n anni valutata ad oggi ( C(1+i)-n dove i è il tasso tecnico dell’operazione) moltiplicata per la probabilità che egli sia in vita fra n anni. Quindi la vincita attesa dell’assicurato è: Quindi il premio puro da pagare sarà U= Nel nostro esempio C=100.000, i = 0,02, x =30, n = 30 Teorema di Bayes Thomas Bayes (1702-1761) matematico e ministro britannico. Il teorema fu pubblicato postumo nel 1763. Supponiamo che un evento E possa essere determinato da n cause H1, H2,……Hn di cui è certo che solo una si può verificare. Supponiamo di conoscere le probabilità con cui si verificano le n cause p(H1), p(H2),…p(Hn) e la probabilità con cui si verifica l’evento E dato la causa cioè p(E/H1)….p(E/Hn). Supponiamo che si sia verificato l’evento E, il teorema di Bayes ci permette di calcolare la probabilità che sia stata la causa Hi a determinare E. Esempio: Supponiamo che un medico sappia che un certo sintomo E (esempio una febbre altissima in un quadro clinico specifico) possa essere l’effetto di tre sole malattie H1, H2, H3 le cui probabilità sono: p(H1)=0,03 p(H2)=0,70 p(H3)=0,27 Supponiamo inoltre che la probabilità che ci sia febbre alta con la malattia H1, H2, H3 siano: p(E/H1)=0,90 p(E/H2)=0,10 p(E/H3)=0,30 . Come si vede a priori la malattia H2 è la più probabile. Il problema è: visto che il paziente ha febbre altissima quale è la causa più probabile? Il teorema di Bayes nell’esempio dice che: N.B. il denominatore della frazione è la p(E) Analogamente per le altre cause: Come si vede la presenza del sintomo febbre E ha modificato l’opinione del medico circa la graduatoria delle malattie; infatti a priori la malattia più probabile era H2, seguita da H3 e infine H1. Vista la febbre, la malattia più probabile a posteriori è H3. Visto che i denominatori delle frazioni sono uguali la malattia più probabile dipende dalle probabilità a priori della malattia e dalle probabilità condizionate del sintomo data la malattia. Applicazioni del teorema di Bayes nei test diagnostici. Esempio: la diagnosi della sindrome di Down La sindrome di Down è una condizione cromosomica patologica, che riguarda circa un feto su 1000. Il più accurato test per la sindrome di Down richiede l’amniocentesi, un intervento che purtroppo implica un piccolo rischio di aborto (circa un caso su 200). C’è un altro test accurato della sindrome di Down che è privo di rischi, noto come triplo test. Questo esame è diventato recentemente di uso comune e si basa sulla concentrazione di tre ormoni nel sangue materno a circa 16 settimane di gravidanza. Come ogni test anche il triplo test non è sempre perfetto, cioè è possibile che il test risulti negativo cioè non indica malattia ma il feto è malato (errore detto falso negativo) oppure che risulti positivo cioè indica malattia ma il feto è sano (errore detto falso positivo). I termini della questione sono i seguenti: Prevalenza della malattia o anche detta probabilità a priori: è la probabilità che un individuo sia malato, nel caso della sindrome di Down p(Em)= 0,001 cioè 1 su 1000, o anche su 1000000, 1000 sono malati e 999000 sono sani. la probabilità di un falso positivo = p(T+/Es) = 0,05 cioè 5%. Su 999000 sani il 5% cioè 49950 risulteranno falsi positivi al test specificità del test = probabilità che il test sia negativo dato che l’individuo è sano p(T-/Es) = 1-p(T+/Es)= 1-0,05=0,95. Sui 999000 sani il 95% cioè 949050 risulteranno negativi al test. sensibilità del test = probabilità che il test sia positivo dato che il feto è malato, p(T+/Em) = 0,60. Dei 1000 malati il 60% cioè 600 risulteranno positivi al test Quindi su 1000000 di test risulteranno positivi 49950+600=50550 di cui solo 600 veri positivi in quanto malati. probabilità di un falso negativo = p(T-/Em) = 1- p(T+/Em) =0,40 cioè il 40%. Dei 1000 malati il 40% cioè 400 risulteranno negativi al test Il problema è calcolare la probabilità che il feto sia malato dopo che il test è risultato positivo, tale valore è detto valore predittivo di un test positivo o probabilità a posteriori. Risulta: Esiste una bassa probabilità che un feto risultato positivo al triplo test sia effettivamente affetto da sindrome di Down. Tale valore si poteva ottenere anche considerando che su 50.550 test positivi solo 600 sono malati per cui Calcoliamo ora la probabilità che un feto risultato negativo sia effettivamente sano cioè il valore predittivo di un test negativo. Esiste quindi quasi la certezza che se il test è negativo il feto è sano. Le tabelle di contingenza Alla scoperta della dipendenza o indipendenza fra variabili o mutabili Esempio: il casco protettivo è efficace per prevenire i traumi cranici conseguenti a incidenti? Casco protettivo Trauma cranico si no Totale Frequenze osservate Si 17 218 235 235/793=29,6% No 130 428 558 558/793=70,4% totale 147 646 793 Campione di 793 soggetti coinvolti in incidenti con la motocicletta in un anno. La tabella delle frequenze attese se non ci fosse alcuna dipendenza fra il casco protettivo e il trauma cranico. Dalla tabella precedente si deduce che in tutto il campione ha avuto un trauma cranico il 29,6% delle persone e non lo ha avuto il 70,4%. Se l’uso del casco non avesse alcuna influenza nel proteggere dal trauma cranico ci aspetteremmo che il 29,6% dei 147 che avevano il casco, avranno trauma cranico cioè 0,296x147=43,6 e la differenza cioè 103,4 avente casco non avranno avuto trauma cranico. Analogamente se l’uso del casco non avesse alcuna influenza sul trauma cranico ci aspetteremmo che il 29,6% dei 646 che non avevano casco avranno trauma cranico, cioè 0,296x 646= 191,4 e la differenza pari a 454,6 non aventi il casco non avranno avuto trauma cranico. Casco protettivo Trauma cranico si no totale si 43,6 191,4 235 no 103,4 454,6 558 Totale 147 646 793 Tabella delle frequenze osservate (O) Casco protettivo Trauma cranico si no Totale Si 17 218 235 235/793=29,6% No 130 428 558 558/793=70,4% totale 147 646 793 Tabella delle frequenze attese (A) nel caso della indipendenza Casco protettivo Trauma cranico si no totale si 43,6 191,4 235 no 103,4 454,6 558 Totale 147 646 793 E’ naturale pensare che i caratteri saranno tanto più indipendenti quanto più le frequente osservate si avvicinano a quelle attese e quindi tanto più dipendenti quanto più le frequenze osservate si discostano da quelle attese. Un indice significativo di questa discordanza sarà quindi: Se i caratteri sono indipendenti e il numero delle osservazioni sufficientemente elevati ( in pratica non ci devono essere frequenze attese inferiori a 5) l’indice dato ha una distribuzione che si avvicina a Chi-quadrato con un grado di libertà uguale a (p-1)(q-1) dove p e q sono rispettivamente il numero delle colonne e delle righe della tabella. Allora se i caratteri sono indipendenti c’è una probabilità del 95% che il chiquadrato calcolato sia inferiore al chi-quadrato tabulato cioè presente nella tabella del chi-quadrato all’incrocio della colonna corrispondente a 0,95 e alla riga del grado di libertà (p-1)(q-1). Per cui se il chi-quadrato calcolato è superiore al chi-quadrato tabulato si conclude che i caratteri sono dipendenti al grado di fiducia del 95%. La distribuzione χ2 Sia data popolazione gaussiana con varianza σ2, estraiamo da essa tutti i possibili campioni di dimensione n e per ogni campioni consideriamo il rapporto: dove m è la media del Campione. Otteniamo una distribuzione di numeri, detta distribuzione chi-quadrato il cui grafico al variare della dimensione dei campioni è il seguente: All’incrocio della colonna χ2 di pedice 0,95 e la riga 9 c’è il numero 16,9. Il significato è il seguente. Estraendo dalla popolazione un campione di dimensione 10 si ha una probabilità del 95% che esso abbia un chi-quadrato inferiore a 16,9. La statistica prevede il futuro Andamento della mortalità infantile in Italia (yi = morti per 1000 nati vivi) Anni xi yi 1971 0 28,5 1972 1 27,0 1973 2 26,2 1974 3 22,9 35 1975 4 21,2 30 1976 5 19,5 25 1977 6 18,1 20 1978 7 17,1 15 1979 8 15,7 1980 9 14,6 1981 10 14,1 yi= indici di mortalità y = -1.5255x + 28.073 R² = 0.9767 y = 28.923e-0.075x R² = 0.9921 yi= indici di mortalità 10 Linear (yi= indici di mortalità) 5 0 0 5 10 15 Expon. (yi= indici di mortalità) 1981 Valori extrapolati Anni xi yi Ip. lineare Ip. esponenziale Valori reali 1971 0 28,5 28,1 28,9 28,5 1972 1 27,0 26,5 26,8 27,0 1973 2 26,2 25,0 24,9 26,2 1974 3 22,9 23,5 23,1 22,9 1975 4 21,2 22,0 21,4 21,2 1976 5 19,5 20,4 19,9 19,5 1977 6 18,1 18,9 18,4 18,1 1978 7 17,1 17,4 17,1 17,1 1979 8 15,7 15,9 15,9 15,7 1980 9 14,6 14,3 14,7 14,6 1981 10 14,1 12,8 13,7 14,1 1982 11 11,3 12,7 12,9 1983 12 9,8 11,8 12,3 1984 13 8,2 10,9 11,3 1985 14 6,7 10,1 10,5 1986 15 5,2 9,4 10,1 FINE Al CALCOLO SOCIALE era attribuita molta importanza in relazione al governo dei popoli. Significativa è questa frase di Jean-Jacques Rousseau (1712-1778) tratta dal Contratto sociale: “Il Governo sotto il quale (…) i cittadini realizzano il massimo incremento e si moltiplicano è infallibilmente il migliore. Allo stesso modo, il Governo sotto il quale un popolo diminuisce e si logora è il peggiore: esperti di calcolo! Lascio a voi il compito di contare, di misurare, di paragonare”. Comunque è nel corso del XIX secolo che il CALCOLO SOCIALE si sviluppa e prende forma come tecnica statistica usata su larga scala. Alcuni esempi di studi statistici: dopo le guerre napoleoniche i medici militari focalizzarono la loro attenzione sulla salubrità degli orfanotrofi, delle prigioni e degli ospizi per i poveri, di solito con lo scopo di stimolare le riforme necessarie. Ci sono poi le ricerche sull’istruzione pubblica. Ecco alcuni obiettivi di ricerca posti nel 1835 dalla Statistical Society di Londra per quanto riguarda l’istruzione: 1) Qual è stato l’effetto dell’estensione dell’istruzione nel comportamento del popolo? E’ diventato più disciplinato, sobrio, soddisfatto o è successo il contrario? 2) Qual è il rapporto fra crimini e istruzione? Gli scolarizzati sono più esenti dei non scolarizzati o accade il contrario? 3) Quale crimine prevale di più nelle province colte: i reati contro la proprietà o contro la persona? 4) Quanti criminali , specialmente nelle classi di crimini più volgari, sapevano leggere e scrivere in base ai rendiconti del 1833 o del 1834? 5) Qual è il numero dei libri pubblicati durante l’ultimo anno e come sono classificati? Influenza di Quételet sulla fisica Fu il lavoro di Quetelet a ispirare James Clerk Maxwell e Ludwig Boltzmann a dare alla teoria cinetica dei gas un’impostazione statistica. In una conferenza alla British Association nel 1873 Maxwell fece un chiaro riferimento alla fisica sociale di Quételet, dicendo che non si sarebbero mai trovate le leggi dei gas seguendo il moto e le collisioni di milioni di particelle indipendenti dato che non erano disponibili informazioni sulle singole molecole ed i calcoli sarebbero stati in ogni caso estremamente complessi. In effetti nella teoria cinetica dei gas il comportamento di un gas perfetto viene descritto attraverso delle grandezze macroscopiche come il Volume, la Temperatura e la Pressione, le ultime due fanno riferimento all’energia cinetica media delle molecole secondo le note formule: Energia cinetica media =Ecm= 3/2KT dove k è la costante di Boltzmann, PV=2/3nN Ecm dove n è il numero di grammomolecole e N è il numero di Avogadro. Le velocità delle molecole di un gas si distribuiscono secondo una gaussiana detta distribuzione maxwelliana. Come si vede dal grafico al crescere della temperatura del gas il picco della distribuzione (velocità media) si sposta verso destra (verso valori più alti).