Concetto di Probabilità Probabilità - 1 Elementi di STATISTICA 2 E’ probabile tutto ciò che non è certo Concetto di Probabilità Probabilità La PROBABILITA’ di un evento può essere definita Intervallo di confidenza come la proporzione delle volte in cui si verifica tale evento sul totale delle prove realizzate in una lunga serie casuale a cura di Paolo Pandolfi Concetto di Probabilità Probabilità - 2 Concetto di Probabilità Probabilità - 3 Tre punti debbono essere chiariti nella definizione di probabilità fornita: 1) Essendo la probabilità definita come una proporzione, può assumere solo valori compresi tra 0 e 1, ovvero tra 0% e 100%. Se una probabilità è 0 l’evento non accade mai, se è 1 l’evento accade sempre 2) Quando si indica “lunga serie” si deve intendere una serie sufficientemente lunga perché la proporzione si stabilizzi 3) Nella definizione, il concetto di casuale implica che nessun meccanismo esterno è in grado di influenzare il risultato della prova Concetto di Probabilità Probabilità - 4 Quindi la probabilità che consecutivamente è data da: escano dalla Se in una lista di 40 persone ci sono 20 maschi e 20 femmine, la probabilità di estrarre una femmina è di 0,5 ovvero del 50%. Se per tre volte consecutive estraiamo 3 donne (facendo ogni volta attenzione a rimettere nella lista il soggetto precedentemente estratto) non saremo sorpresi. Se per altre 7 volte consecutive uscisse sempre una femmina ci verrebbe il dubbio che la lista non sia come dichiarato in quanto ci attendiamo dopo una sufficiente serie di estrazioni di avere il 50% di donne ed il 50% di uomini. Possiamo calcolare quale sarebbe la probabilità di ottenere per 10 volte consecutive solo donne dall’estrazione; in effetti il principio del prodotto dice che la probabilità di eventi che si devono verificare (tutti insieme od in successione) si ottiene dal prodotto delle singole probabilità. Concetto di Probabilità Probabilità - 5 lista 10 donne 0,5 x 0,5 x 0,5 x 0,5 x 0,5 x 0,5 x 0,5 x 0,5 x 0,5 x 0,5 = 0,00098 (0,098%) Questo risultato dimostra che, senza alcun trucco, esiste la probabilità che per 10 volte consecutive vengano estratte solo donne, tuttavia tale probabilità è molto bassa (meno di 1/1020). Vista la rarità dell’evento, se ciò avvenisse, saremmo portati a ritenere che la lista sia truccata o che l’estrazione non sia stata regolare. In questo modo ragiona anche la ricerca medica. Se la probabilità dovuta al caso di avere il risultato ottenuto è estremamente bassa, anche se possibile, siamo portati a ipotizzare che sia vero il contrario. In modo più preciso, volendo testare l’ipotesi nulla (H0 ovvero non c’è alcuna differenza di outcome tra due terapie messe a confronto), se il risultato del test di significatività indica una p = 0,00098 (scritta anche p < 0,001) significa che quel risultato può essere ottenuto solo per effetto del caso con una probabilità così piccola da far ritenere molto probabile che quella differenza sia vera. Distribuzione di Probabilità Probabilità Distribuzione della probabilità probabilità La probabilità di una serie di risultati si distribuisce in modo differente in funzione della natura dell’evento studiato. La forma di una distribuzione di probabilità può essere simmetrica rispetto al valore centrale o ci può essere una coda più o meno lunga da un lato della distribuzione piuttosto che dall’altro. Una distribuzione di probabilità è la distribuzione della probabilità totale unitaria tra tutti i possibili risultati. Se la variabile fosse il paese di nascita degli individui in una popolazione specifica, la distribuzione di probabilità di questa variabile sarebbe la proporzione della popolazione nata in ciascun paese e la somma di tutte le probabilità sarebbe pari a 1 ( ovvero 100%). Distribuzione della probabilità probabilità Alcune distribuzioni teoriche di probabilità possono essere utilizzate per la descrizione di fenomeni biologici. Nella pratica si possono identificare tre grandi gruppi di distribuzioni in relazione alla natura delle informazioni analizzate: 1) Per i DATI SANITARI (P.A., altezza, BMI, decessi, malati, DDD, ecc.) DISTRIBUZIONE NORMALE DISTRIBUZIONE LOG-NORMALE DISTRIBUZIONE BINOMIALE Curva simmetrica Curva asimmetrica a destra Distribuzione della probabilità probabilità 2) Per ANALISI TEMPI DI SOPRAVVIVENZA DISTRIBUZIONE GEOMETRICA DISTRIBUZIONE ESPONENZIALE DISTRIBUZIONE IPERGEOMETRICA 3) Per TEST CONFIDENZA SIGNIFICATIVITA’ e LIMITI di DISTRIBUZIONE NORMALE DISTRIBUZIONE del t DISTRIBUZIONE del chi-quadrato DISTRIBUZIONE DI POISSON La distribuzione Normale - Gaussiana La distribuzione Normale - Gaussiana 1) E’ una distribuzione di una variabile continua 2) Ha forma a campana 3) E’ simmetrica attorno al valore medio 4) E’ determinata da due quantità, la sua media e la sua deviazione standard . Il cambiamento di sposta l’intera curva verso sinistra o destra; l’aumento di rende la curva più piatta e più larga La distribuzione Normale - Gaussiana 5) La probabilità tra i limiti è di circa: 0,68 (68%) se ± 0,95 (95%) se ± 2 La distribuzione Normale Standardizzata Tenendo conto della proprietà 5) è possibile individuare una delle curve più utilizzate in statistica: la distribuzione normale standardizzata. Questa si ottiene per valori di = 0 e di = 1 0,99 (99%) se ± 3 La distribuzione Normale Standardizzata La distribuzione Normale Standardizzata La distribuzione normale standardizzata si ottiene cambiando le unità di misura della variabile in unità di deviazioni standard dalla media (SDN – standard normal deviate o “z”) calcolando: In ogni distribuzione Normale con media e deviazione standard , la probabilità tra y1 e y2 è la stessa che tra z1 e z2 nella Distribuzione Normale Standardizzata dove z = (y - ) / dove z ha media zero e deviazione standard uguale a uno. Se per esempio, y fosse l’altezza, e una popolazione avesse una altezza media =172 cm e deviazione standard = 8 cm, un individuo con altezza 176 cm sarebbe 0,5 deviazioni standard più alto della media (176-172= 4 quindi 4/8= 0,5); un individuo di altezza 166 cm sarebbe –0,75 deviazioni standard più alto (si noti il segno negativo) della media, ecc.. z = (y1 - ) / e z = (y2 - ) / Si dovranno quindi leggere tabelle specifiche che sulla base del valore di z forniscono le aree della curva oltre il valore z. Per esempio Se z fosse uguale a 0 l’area di destra di z sarebbe 0,5 perché la distribuzione Normale standard è simmetrica attorno al suo valore medio zero; La distribuzione Normale Standardizzata Intervallo (limite) di confidenza Se z fosse 1,96 l’area alla destra di z sarebbe 0,024998 (circa il 2,5%); analogamente l’area di sinistra in modo che l’area centrale della distribuzione Normale Standard è pari al 95% . Il principale obiettivo degli intervalli di confidenza è di esprimere e quantificare l’imprecisione del valore ottenuto analizzando un campione che si ritiene rappresentativo della popolazione generale. Ugualmente per ogni distribuzione Normale Standard con media e deviazione standard , il 95% delle osservazioni centrate attorno al valore medio è compreso tra 1,96 e + 1,96. Indica un intervallo al cui interno è contenuto, con un certo grado di probabilità o di confidenza (95%, 99%, ecc.), il valore reale del parametro osservato. Più è grande l’intervallo e meno accurata sarà la stima del parametro che ho ottenuto attraverso il campione. Intervallo (limite) di confidenza Per misurare l’intervallo di confidenza è necessario un modello di PROBABILITA’. In generale il modello PROBABILISTICO più adeguato è basato o sulla distribuzione binomiale o su quella di Poisson. Quando il numero di osservazioni è ampio questi modelli sono approssimabili ad una DISTRIBUZIONE NORMALE GAUSSIANA e quindi ne assume tutte le proprietà. Intervallo (limite) di confidenza Per calcolare un intervallo di confidenza per , ci basiamo sulla distribuzione della media campionaria. Data una variabile casuale X con media e deviazione standard , ed applicando il “teorema del limite centrale” si può affermare che l’intervallo di confidenza è pari a X (stima puntuale) 1,96 /n Dove /n è pari all’errore standard e tiene conto della numerosità del campione utilizzato e 1,96 rappresenta il valore di confidenza assegnata (95%) Intervallo (limite) di confidenza Test statistici: valore di p In sintesi con l’intervallo di confidenza indichiamo che se selezioniamo 100 campioni casuali dalla popolazione ed utilizziamo questi campioni per calcolare 100 diversi intervalli di confidenza per , circa 95 intervalli conterranno la media reale della popolazione e 5 no. A fianco all’intervallo di confidenza, negli studi epidemiologici, è riportato il valore di p che sintetizza in genere il test statistico utilizzato. Con il test si intende misurare la probabilità che la differenza osservata nell’indagine tra diversi gruppi sia dovuta al caso. Alla base di tutto c’è l’assunto che l’ipotesi nulla (H0) sia vera. Per H0 si intende l’ipotesi che non esista alcuna differenza, ad esempio, fra due trattamenti testati. La p indica la probabilità che il risultato ottenuto sia dovuto al caso se l’ipotesi nulla è vera. Test statistici: valore di p E’ evidente che un valore di p alto significa che è altamente probabile che l’ipotesi nulla sia vera. Per convenzione un valore di p <0,05 (cioè molto piccolo) è un’evidenza contro l’ipotesi nulla o meglio indica che non c’è più del 5% di probabilità che la diversità osservata sia dovuta al caso.