Concetto di Probabilità - 1 E` probabile tutto ciò che non è certo La

Concetto di Probabilità
Probabilità - 1
Elementi di STATISTICA 2
E’ probabile tutto ciò che non è certo
Concetto di Probabilità
Probabilità
La PROBABILITA’ di un evento può essere definita
Intervallo di confidenza
come la proporzione delle volte in cui si verifica
tale evento sul totale delle prove realizzate in una
lunga serie casuale
a cura di Paolo Pandolfi
Concetto di Probabilità
Probabilità - 2
Concetto di Probabilità
Probabilità - 3
Tre punti debbono essere chiariti nella definizione di
probabilità fornita:
1) Essendo la probabilità definita come una proporzione,
può assumere solo valori compresi tra 0 e 1, ovvero
tra 0% e 100%. Se una probabilità è 0 l’evento non
accade mai, se è 1 l’evento accade sempre
2) Quando si indica “lunga serie” si deve intendere una
serie sufficientemente lunga perché la proporzione si
stabilizzi
3) Nella definizione, il concetto di casuale implica che
nessun meccanismo esterno è in grado di influenzare
il risultato della prova
Concetto di Probabilità
Probabilità - 4
Quindi la probabilità che
consecutivamente è data da:
escano
dalla
Se in una lista di 40 persone ci sono 20 maschi e 20 femmine,
la probabilità di estrarre una femmina è di 0,5 ovvero del
50%. Se per tre volte consecutive estraiamo 3 donne (facendo
ogni volta attenzione a rimettere nella lista il soggetto
precedentemente estratto) non saremo sorpresi. Se per altre
7 volte consecutive uscisse sempre una femmina ci verrebbe il
dubbio che la lista non sia come dichiarato in quanto ci
attendiamo dopo una sufficiente serie di estrazioni di avere il
50% di donne ed il 50% di uomini.
Possiamo calcolare quale sarebbe la probabilità di ottenere per
10 volte consecutive solo donne dall’estrazione; in effetti il
principio del prodotto dice che la probabilità di eventi che si
devono verificare (tutti insieme od in successione) si ottiene
dal prodotto delle singole probabilità.
Concetto di Probabilità
Probabilità - 5
lista
10
donne
0,5 x 0,5 x 0,5 x 0,5 x 0,5 x 0,5 x 0,5 x 0,5 x 0,5 x 0,5 =
0,00098 (0,098%)
Questo risultato dimostra che, senza alcun trucco, esiste la
probabilità che per 10 volte consecutive vengano estratte solo
donne, tuttavia tale probabilità è molto bassa (meno di
1/1020). Vista la rarità dell’evento, se ciò avvenisse, saremmo
portati a ritenere che la lista sia truccata o che l’estrazione
non sia stata regolare.
In questo modo ragiona anche la ricerca medica.
Se la probabilità dovuta al caso di avere il risultato
ottenuto è estremamente bassa, anche se possibile, siamo
portati a ipotizzare che sia vero il contrario.
In modo più preciso, volendo testare l’ipotesi nulla (H0
ovvero non c’è alcuna differenza di outcome tra due
terapie messe a confronto), se il risultato del test di
significatività indica una p = 0,00098 (scritta anche p <
0,001) significa che quel risultato può essere ottenuto solo
per effetto del caso con una probabilità così piccola da far
ritenere molto probabile che quella differenza sia vera.
Distribuzione di Probabilità
Probabilità
Distribuzione della probabilità
probabilità
La probabilità di una serie di risultati si distribuisce in
modo differente in funzione della natura dell’evento
studiato.
La forma di una distribuzione di probabilità può essere
simmetrica rispetto al valore centrale o ci può essere una
coda più o meno lunga da un lato della distribuzione
piuttosto che dall’altro.
Una distribuzione di probabilità è la distribuzione della
probabilità totale unitaria tra tutti i possibili risultati.
Se la variabile fosse il paese di nascita degli individui in
una popolazione specifica, la distribuzione di probabilità di
questa variabile sarebbe la proporzione della popolazione
nata in ciascun paese e la somma di tutte le probabilità
sarebbe pari a 1 ( ovvero 100%).
Distribuzione della probabilità
probabilità
Alcune distribuzioni teoriche di probabilità possono essere
utilizzate per la descrizione di fenomeni biologici.
Nella pratica si possono identificare tre grandi gruppi di
distribuzioni in relazione alla natura delle informazioni
analizzate:
1) Per i DATI SANITARI (P.A., altezza, BMI, decessi,
malati, DDD, ecc.)
DISTRIBUZIONE NORMALE
DISTRIBUZIONE LOG-NORMALE
DISTRIBUZIONE BINOMIALE
Curva simmetrica
Curva asimmetrica a destra
Distribuzione della probabilità
probabilità
2) Per ANALISI TEMPI DI SOPRAVVIVENZA
DISTRIBUZIONE GEOMETRICA
DISTRIBUZIONE ESPONENZIALE
DISTRIBUZIONE IPERGEOMETRICA
3) Per TEST
CONFIDENZA
SIGNIFICATIVITA’
e
LIMITI
di
DISTRIBUZIONE NORMALE
DISTRIBUZIONE del t
DISTRIBUZIONE del chi-quadrato
DISTRIBUZIONE DI POISSON
La distribuzione Normale - Gaussiana
La distribuzione Normale - Gaussiana
1) E’ una distribuzione di una variabile continua
2) Ha forma a campana
3) E’ simmetrica attorno al valore medio 

4) E’ determinata da due quantità, la sua media  e la
sua deviazione standard . Il cambiamento di  sposta
l’intera curva verso sinistra o destra; l’aumento di 
rende la curva più piatta e più larga
La distribuzione Normale - Gaussiana
5) La probabilità tra i limiti è di circa:
0,68 (68%) se  ± 
0,95 (95%) se  ± 2
La distribuzione Normale Standardizzata
Tenendo conto della proprietà 5) è possibile individuare una
delle curve più utilizzate in statistica: la distribuzione
normale standardizzata.
Questa si ottiene per valori di  = 0 e di  = 1
0,99 (99%) se  ± 3
La distribuzione Normale Standardizzata
La distribuzione Normale Standardizzata
La distribuzione normale standardizzata si ottiene
cambiando le unità di misura della variabile in unità di
deviazioni standard dalla media (SDN – standard normal
deviate o “z”) calcolando:
In ogni distribuzione Normale con media  e deviazione
standard , la probabilità tra y1 e y2 è la stessa che tra
z1 e z2 nella Distribuzione Normale Standardizzata dove
z = (y - ) / 
dove z ha media zero e deviazione standard uguale a uno.
Se per esempio, y fosse l’altezza, e una popolazione
avesse una altezza media  =172 cm e deviazione standard
 = 8 cm, un individuo con altezza 176 cm sarebbe 0,5
deviazioni standard più alto della media (176-172= 4
quindi 4/8= 0,5); un individuo di altezza 166 cm sarebbe
–0,75 deviazioni standard più alto (si noti il segno
negativo) della media, ecc..
z = (y1 - ) /  e z = (y2 - ) / 
Si dovranno quindi leggere tabelle specifiche che sulla base
del valore di z forniscono le aree della curva oltre il valore
z.
Per esempio
Se z fosse uguale a 0 l’area di destra di z sarebbe 0,5
perché la distribuzione Normale standard è simmetrica
attorno al suo valore medio zero;
La distribuzione Normale Standardizzata
Intervallo (limite) di confidenza
Se z fosse 1,96 l’area alla destra di z sarebbe 0,024998
(circa il 2,5%); analogamente l’area di sinistra in modo che
l’area centrale della distribuzione Normale Standard è pari
al 95% .
Il principale obiettivo degli intervalli di confidenza è di
esprimere e quantificare l’imprecisione del valore ottenuto
analizzando un campione che si ritiene rappresentativo
della popolazione generale.
Ugualmente per ogni distribuzione Normale Standard con
media  e deviazione standard , il 95% delle osservazioni
centrate attorno al valore medio  è compreso tra  1,96 e  + 1,96.
Indica un intervallo al cui interno è contenuto, con un
certo grado di probabilità o di confidenza (95%, 99%,
ecc.), il valore reale del parametro osservato.
Più è grande l’intervallo e meno accurata sarà la stima del
parametro che ho ottenuto attraverso il campione.
Intervallo (limite) di confidenza
Per misurare l’intervallo di confidenza è necessario un
modello di PROBABILITA’.
In generale il modello PROBABILISTICO più adeguato è
basato o sulla distribuzione binomiale o su quella di
Poisson.
Quando il numero di osservazioni è ampio questi modelli
sono approssimabili ad una DISTRIBUZIONE NORMALE
GAUSSIANA e quindi ne assume tutte le proprietà.
Intervallo (limite) di confidenza
Per calcolare un intervallo di confidenza per , ci basiamo
sulla distribuzione della media campionaria.
Data una variabile casuale X con media  e deviazione
standard , ed applicando il “teorema del limite centrale”
si può affermare che l’intervallo di confidenza è pari a
X (stima puntuale)  1,96 /n
Dove /n è pari all’errore standard e tiene conto della
numerosità del campione utilizzato e 1,96 rappresenta il
valore di confidenza assegnata (95%)
Intervallo (limite) di confidenza
Test statistici: valore di p
In sintesi con l’intervallo di confidenza indichiamo che se
selezioniamo 100 campioni casuali dalla popolazione ed
utilizziamo questi campioni per calcolare 100 diversi
intervalli di confidenza per , circa 95 intervalli
conterranno la media reale della popolazione e 5 no.
A fianco all’intervallo di confidenza, negli studi
epidemiologici, è riportato il valore di p che sintetizza in
genere il test statistico utilizzato.
Con il test si intende misurare la probabilità che la
differenza osservata nell’indagine tra diversi gruppi sia
dovuta al caso.
Alla base di tutto c’è l’assunto che l’ipotesi nulla (H0) sia
vera. Per H0 si intende l’ipotesi che non esista alcuna
differenza, ad esempio, fra due trattamenti testati.
La p indica la probabilità che il risultato ottenuto sia
dovuto al caso se l’ipotesi nulla è vera.
Test statistici: valore di p
E’ evidente che un valore di p alto significa che è
altamente probabile che l’ipotesi nulla sia vera.
Per convenzione un valore di p <0,05 (cioè molto piccolo) è
un’evidenza contro l’ipotesi nulla o meglio indica che non c’è
più del 5% di probabilità che la diversità osservata sia
dovuta al caso.