Università degli Studi di Padova
Corso di Laurea in Medicina e Chirurgia - A.A. 2015-16
Corso Integrato: Statistica e Metodologia Epidemiologica
Disciplina: Statistica e Metodologia Epidemiologica 2 (SME2)
Docenti: prof.ssa Anna Chiara Frigo coordinatore Corsi MED3 e MED4
prof.ssa Egle Perissinotto coordinatore Corsi MED1 e MED2
Il corso integrato di STATISTICA ED METODOLOGIA EPIDEMIOLOGICA
si articola in due parti.
La prima parte (Statistica e Metodologia Epidemiologica 1, 2,0 CFU) è
stata svolta al secondo semestre del primo anno, la seconda (Statistica e
Metodologia Epidemiologica 2, 4 CFU) al primo semestre del terzo anno.
Entrambe le parti sono articolate in un corso teorico ed uno teorico-pratico.
Statistica e metodologia epidemiologica 1 (SME1) – I anno II semestre
Metodi didattici
Le 20 ore disponibili per questa prima parte del Corso Integrato sono
suddivise in 12 ore di lezione frontale (parte teorica) e 8 di laboratorio
(parte teorico-pratica). I laboratori didattici sono svolti su cinque gruppi per
ciascun corso, in forma attiva attraverso lavori di piccolo gruppo e verifica
collettiva sugli elaborati prodotti.
Statistica e metodologia epidemiologica 2 (SME2) - III anno I semestre
Metodi didattici
Le 40 ore disponibili per questa seconda parte del Corso Integrato sono
suddivise in 32 ore di lezione frontale (parte teorica) e 10 di laboratorio
(parte teorico-pratica). I laboratori didattici sono svolti su cinque gruppi per
ciascun corso, in forma attiva attraverso lavori di piccolo gruppo e verifica
collettiva sugli elaborati prodotti.
Corso Disciplina
Med1
Med2
Med3
Med4
Corsi
Ore
Docenti
Statistica e
Metodologia
Epidemiologica 1
Teorico
12
Frigo Anna Chiara
Teorico-pratico
8
Perissinotto Egle
Statistica e
Metodologia
Epidemiologica 2
Teorico
32
Perissinotto Egle
Teorico-pratico
10
Frigo Anna Chiara
Statistica e
Metodologia
Epidemiologica 1
Teorico
12
Perissinotto Egle
Teorico-pratico
8
Frigo Anna Chiara
Statistica e
Metodologia
Epidemiologica 2
Teorico
32
Frigo Anna Chiara
Teorico-pratico
10
Perissinotto Egle
Modalità di conduzione delle verifiche di apprendimento – A.A. 2015/16
In itinere
Per entrambi i corsi di SME1 e SME2, le verifiche di apprendimento in
itinere consisteranno in interventi differenti:
• durante le lezioni teoriche, somministrazione agli studenti di test ed
esercizi con correzione generale;
• durante le lezioni teorico-pratiche, somministrazione agli studenti di
test ed esercizi con correzione per gruppi di lavoro e generale (con
valutazione);
• al termine delle lezioni teoriche e teorico-pratiche di ciascuna parte del
corso integrato, prima degli appelli d’esame, agli studenti viene
proposta una simulazione d’esame per l’autoverifica del grado di
apprendimento.
Modalità di conduzione delle verifiche di apprendimento – A.A. 2015/16
Finale (esame)
Le verifiche di apprendimento finali (esame) consisteranno in una prova in
itinere al termine della prima parte del corso (I anno) e nella prova finale
d’esame al termine della seconda parte del corso (III anno).
L’accesso alla seconda prova è condizionato al superamento con esito
positivo (IDONEITÀ) della prova in itinere. Il voto nella prova finale (in
trentesimi) al termine della seconda parte di corso (III anno) costituirà il voto
finale.
Per entrambe le parti, la prova d’esame è scritta. La prova in itinere (SME I I anno) è composta da quesiti a risposta multipla. La prova finale (SME II - III
anno) è composta da quesiti a risposta multipla e da un esercizio.
Durante la prova d’esame è consentita agli studenti la consultazione del
materiale didattico.
L’iscrizione all’esame è obbligatoria tramite Uniweb.
APPELLI D’ESAME - Corso di SME2
Sessione invernale
02/12/15 ore 13:00 – pre appello SME1 fuori corso
02/12/15 ore 15:00 – pre appello SME2 fuori corso
25/01/16 – I appello
22/02/16 – II appello
Sessione estiva
27/06/16 – I appello
18/07/16 – II appello
Sessione autunnale
31/08/16 – I appello
12/09/16 – II appello
Modalità di iscrizione all’esame
• attraverso Uniweb
• è obbligatorio che sia attivo l’account di posta elettronica
dell’Università
Modalità di verifica delle presenze – A.A. 2015/16
Le presenze saranno rilevate:
• Nel corso teorico mediante raccolta firme durante tutte le lezioni;
• Nel corso teorico-pratico mediante raccolta firme durante tutte le
lezioni.
Obiettivi formativi
Mettere in grado il futuro laureato di:
− conoscere potenzialità e limiti del campionamento in medicina;
− capire le basi dell'inferenza statistica;
− affrontare l’analisi di studi clinici mediante tecniche statistiche da
utilizzare per il confronto di due gruppi;
− analizzare l’associazione di caratteristiche sia qualitative che
quantitative.
Prerequisiti
L’accesso alla seconda parte del corso integrato è condizionato al
superamento della prima parte, svolta al primo anno. Si richiede
comunque una adeguata conoscenza degli argomenti trattati al primo
anno e, in particolare: momenti fondamentali di un processo di produzione
e descrizione dei dati statistici mediante tabelle e grafici; calcolo di misure
di tendenza centrale e di posizione, di indici di variabilità e forma delle
distribuzioni statistiche; indicatori e modelli di indagine epidemiologica;
concetti fondamentali del calcolo delle probabilità.
Università degli Studi di Padova
Corso di Laurea in Medicina e Chirurgia - A.A. 2015-16
Corso Integrato: Statistica e Metodologia Epidemiologica
Disciplina: Statistica e Metodologia Epidemiologica 2 (SME2)
Docenti: prof.ssa Anna Chiara FRIGO – prof.ssa Egle PERISSINOTTO
Programma
1. Distribuzioni di probabilità ed elementi di
statistica inferenziale
4. Verifica di ipotesi su due gruppi per variabili
quantitative
- Le più comuni variabili casuali: Binomiale, Poisson,
Normale
- Teorema centrale della Statistica
- Popolazione e campione
- La distribuzione delle medie campionarie
-
2. Stima
5. Associazione tra variabili categoriali
- Stima puntuale e intervallare
- Stima della media di una popolazione mediante
intervallo di fiducia
- Stima della proporzione di una popolazione mediante
intervallo di fiducia
- Calcolo della dimensione del campione per la stima di
una media
- Calcolo della dimensione del campione per la stima di
una proporzione
- Test chi quadrato per campioni indipendenti
- Calcolo della dimensione del campione nel caso di due
proporzioni
- Test di McNemar per osservazioni appaiate
- Intervallo di fiducia per l'Odds Ratio
- Intervallo di fiducia per il Rischio Relativo
- Intervallo di fiducia per la differenza di due proporzioni
Test t di Student per campioni dipendenti
Test t di Student per campioni indipendenti
La dimensione del campione
Test di Wilcoxon per campioni dipendenti e per campioni
indipendenti
3. La logica del test di ipotesi
6. Relazione tra variabili quantitative
- Ipotesi nulla e ipotesi alternativa
- Livello di significatività e potenza di un test
- L'inferenza con un singolo campione per dati
quantitativi e qualitativi
- La dimensione del campione
-
Il modello di regressione lineare semplice
I coefficienti di regressione e correlazione
Il coefficiente di correlazione per ranghi di Spearman
Il coefficiente di determinazione
Verifica di ipotesi sui coefficienti di regressione
correlazione
prof.ssa Frigo Anna Chiara
Dipartimento di Scienze Cardiologiche, Toraciche e Vascolari
via Loredan, 18
35131 Padova
tel. 049/8275412
e-mail: [email protected]
prof.ssa Perissinotto Egle
Dipartimento di Scienze Cardiologiche, Toraciche e Vascolari
via Loredan, 18
35131 Padova
tel. 049/8275405
e-mail: [email protected]
Testi consigliati:
M. Pagano, K. Gauvreau “Biostatistica II edizione”
II Edizione italiana a cura di I.F. Angelillo, M. Pavia, P.
Villari, G. Di Natale. Ed. Idelson-Gnocchi, 2003
Per consultazione:
M. Bland “Statistica Medica”. Milano: APOGEO, 2009.
P. Armitage e G. Berry “Statistica Medica - Metodi
statistici per la ricerca in Medicina”. Milano: McGraw-Hill
Libri Italia srl, 1996.
Calendario delle lezioni di
Statistica e Metodologia Epidemiologica 2 – A.A. 2015-16
MED1 e MED2
(prof.ssa Egle PERISSINOTTO)
SETTIMANA
Lunedì
Mercoledì
12:00-13:30 12:00-13:30
Aula D
Aula D
Vallisneri
Vallisneri
Giovedì
12:00-12:45
Aula D
Vallisneri
1ª
05/10/15
07/10/15
08/10/15
2ª
12/10/15
14/10/15
15/10/15
3ª
19/10/15
21/10/15
22/10/15
4ª
26/10/15
28/10/15
29/10/15
5ª
02/11/15
04/11/15
05/11/15
6ª
09/11/15
11/11/15
12/11/15
7ª
16/11/15
17/11/15*
20/11/15
SIMULAZIONE
ESAME
data in gennaio da definire
* invece del 18/11 per concomitanza con il PROGRESS-TEST
Calendario delle lezioni di
Statistica e Metodologia Epidemiologica 2 – A.A. 2015-16
MED3 e MED4
(prof.ssa Anna Chiara FRIGO)
Lunedì
12:00-13:30
Aula Magna
Fisiologia
Mercoledì
12:00-13:30
Aula Magna
Fisiologia
Giovedì
12:00-12:45
Aula Magna
Fisiologia
1ª
05/10/15
07/10/15
08/10/15
2ª
12/10/15
14/10/15
15/10/15
3ª
19/10/15
21/10/15
22/10/15
4ª
26/10/15
28/10/15
29/10/15
5ª
02/11/15
04/11/15
05/11/15
6ª
09/11/15
11/11/15
12/11/15
7ª
16/11/15
17/11/15*
20/11/15
SETTIMANA
SIMULAZIONE
ESAME
data in gennaio da definire
* invece del 18/11 per concomitanza con il PROGRESS-TEST
Calendario dei laboratori di
Statistica e Metodologia Epidemiologica 2 – A.A. 2015-16
Laboratori MED1 e MED2 (Frigo) aula C
Laboratori MED3 e MED4 (Perissinotto) aula C
M1_2_1
M1_2_2
M1_2_3
M1_2_4
M1_2_5
M3_4_1
M3_4_2
M3_4_3
M3_4_4
M3_4_5
1°
16/11/15
14:00-15:30
16/11/15
15:45-17:15
19/11/15
14:00-15:30
19/11/15
15:45-17:15
25/11/15
14:00-15:30
23/11/15
12:15-13:45
24/11/15
12:15-13:45
25/11/15
12:15-13:45
26/11/15
12:15-13:45
27/11/15
12:15-13:45
2°
23/11/15
14:00-15:30
23/11/15
15:45-17:15
24/11/15
14:00-15:30
24/11/15
15:45-17:15
01/12/15
8:30-10:00
01/12/15
12:15-13:45
01/12/15
14:00-15:30
02/12/15
12:15-13:45
03/12/15
12:15-13:45
03/12/15
14:00-15:30
3°
02/12/15
8:30-10:00
03/12/15
8:30-10:00
09/12/15
8:30-10:00
09/12/15
14:00-15:30
10/12/15
8:30-10:00
09/12/15
12:15-13:45
10/12/15
12:15-13:45
10/12/15
14:00-15:30
10/12/15
15:45-17:15
10/12/15
17:30-19:00
4°
14/12/15
12:15-13:45
14/12/15
14:00-15:30
15/12/15
12:15-13:45
15/12/15
14:00-15:30
17/12/15
8:30-10:00
14/12/15
10:30-12:00
15/12/15
10:30-12:00
16/12/15
10:30-12:00
17/12/15
10:30-12:00
17/12/15
12:15-13:45
5°
11/01/16
8:30-10:00
12/01/16
8:30-10:00
12/01/16
13:45-15:15
13/01/16
8:30-10:00
14/01/16
8:30-10:00
12/01/16
10:30-12:00
12/01/16
12:00-13:30
13/01/16
10:30-12:00
14/01/16
10:30-12:00
14/01/16
12:15-13:45
GRUPPO
COGNOMI
LABORATORIO
Sede: Dipartimento di Scienze Cardiologiche, Toraciche e Vascolari - Via Loredan, 18
Sito dove reperire copia dei
moduli presentati a lezione
http://147.162.76.190/didattica/SME2
http://www.dctv.unipd.it/ (in fase di attivazione)
Modulo 1: Distribuzioni di probabilità ed elementi di statistica
inferenziale
• Le più comuni variabili casuali: Binomiale, Poisson, Normale
• Teorema centrale della Statistica
• Popolazione e campione
• La distribuzione delle medie campionarie
LA DISTRIBUZIONE DELLE
FREQUENZE RELATIVE EMPIRICHE
INFORMA SU
LA DISTRIBUZIONE DELLA
PROBABILITÀ TEORICA
CHE INFORMA SU
LE PROBABILITÀ TEORICHE
DI VERIFICARSI DI DIFFERENTI VALORI
Esempio: Trattamento del diabete
Modalità
(eventi)
1
2
3
4
…
k
Frequenza
relativa
Nessuno
f1
Solo dieta
f2
Ipoglicemizzanti orali
f3
Insulina
f4
………
…
Altro (anche i trattamenti combinati)
fk
Totale
1
Nell’esempio della variabile
“Trattamento del diabete”:
Le modalità della variabile:
 sono incompatibili
 formano una classe completa di eventi
Essendo ni (i=1,...,k) le frequenze assolute ed n il loro totale, si può scrivere:
con:
ni
 fi  pi
n
k
p
i 1
i
 1
Definizione di variabile casuale
Una variabile casuale X è una funzione che associa ad
ogni evento elementare un unico numero reale, cioè è
una variabile il cui risultato numerico è determinato dal
risultato di una prova.
E5
E3
E1
E4
E2
x1
x2
x3
x4
x5
X
Le variabili casuali (1)
(v.c.)

Sono modelli teorici utili a descrivere i fenomeni. Sono
sempre specificate da due entità:
a) l’insieme dei valori assunti dalla variabile
b) le probabilità associate a ciascun valore (o la densità
di probabilità associata ad un intervallo di valori)

Gli eventi specificati dai valori assunti dalle variabili sono
sempre incompatibili, e formano una classe completa
(spazio degli eventi)

La somma delle probabilità (o l’integrale della funzione di
densità di probabilità esteso a tutto il campo di esistenza
della variabile) vale uno
Le variabili casuali (2)
(v.c.)
Variabili casuali discrete
 La v.c. assume un numero finito o numerabile di
risultati (numero di componenti di una famiglia,
numero di esami superati con successo la prima
volta, …)
Variabili casuali continue
 La v.c. può assumere un qualsiasi valore
nell’ambito di uno specifico intervallo (pressione
sistolica, sopravvivenza dopo la diagnosi di un
tumore, …)
Modello generale per v.c. discrete
xi
X =
x1
x2
………
xk
p1
p2
………
pk
=
pi
La funzione di probabilità è data da: p(x) = P(X=x)
Proprietà:
pi  0 per ogni i
k
p
i1
i
 1
La funzione di ripartizione per v.c. discrete
La funzione F(x) = P(X ≤ x) = y ≤ x p(y) è la funzione di
ripartizione che gode delle seguenti proprietà:
• P(a ≤ X ≤ b) = F(b) - F(a);
• per b < a F(b) ≤ F(a), cioè è non decrescente;
• è continua a destra;
• limx +  F(x) = 1 e limx -  F(x) = 0;
• per ogni p (0,1), il p-esimo quantile qp di una v.c. X
con funzione di ripartizione F(x) è il più piccolo
valore x tale che F(x) = p
Esempio: lancio di una moneta 3 volte
Tutte le possibili combinazioni di testa (T) e croce (C) sono 8:
(TTT, TTC, TCT, CTT, CCT, CTC, TCC, CCC)
La variabile X, numero totale delle teste, è una v.c. discreta che
assume i valori (0,1,2,3) con probabilità:
P(X=0) = 1/8 = 0,125
P(X=1) = 3/8 = 0,375
P(X=2) = 3/8 = 0,375
P(X=3) = 1/8 = 0,125
P(x)
0,40
0,35
0,30
0,25
0,20
0,15
0,10
0,05
0,00
= 0,125+0,375+0,3875+0,125 = 1
F(x)
1,0
= 0,125+0,375+0,3875 = 0,8875
0,9
0,8
0,7
0,6
= 0,125+0,375 = 0,500
0,5
0,4
0,3
0,2
= 0,125
0,1
0
1
2
3
Numero di successi
0,0
-5 -4 -3 -2 -1 0
1
2
3
Numero di successi
4
5
6
Parametri (valori caratterizzanti)
di una v.c. discreta
Media:
k
M(X)   xi p
i 1
i
Varianza:
k
σx  
2
i1
xi  M(x)
2
p
i
Esempio: v.c. Binomiale elementare
o v.c. di Bernoulli
(può esprimere fenomeni dicotomici quali: vivo/morto, guarito/non guarito, ecc.)
xi
X 
1
0
p
q
=
pi
dove q = 1-p
Si ha:
M(X)  1 p  0  1 - p   p
σ  1 - p 
2
x
2
 p   0 - p  1- p  p  1- p  p  q
2
Binomiale generalizzata
Se si fanno n prove indipendenti, si ha la Binomiale generalizzata
caratterizzata dai parametri n e p.
Il valore r (r = 0, 1, ..., n) assunto dalla variabile si chiama NUMERO DI
SUCCESSI e indica il numero di volte in cui si verifica un fissato evento
nell’insieme delle prove elementari.
Esempio: Lancio di una moneta 5 volte
n = 5, p = ½ = probabilità dell’evento elementare, ossia in un lancio di avere
testa (T).
r = numero di volte in cui si ottiene testa nei 5 lanci
Binomiale generalizzata (n=5, p=0,5): Prob(r=0)
Calcoliamo la probabilità di ottenere r = 0 successi (nessuna testa):
Prova:
Evento:
1ª
C
2ª

C

3ª
C

4ª
C

5ª
C
essendo P(C)=0,5, in forza del principio delle probabilità composte, si ha:
1 1 1 1 1  1
Pr  0         
2 2 2 2 2 2
5
Binomiale generalizzata (n=5, p=0,5): Prob(r=1)
Calcoliamo la probabilità di ottenere r = 1 successi (una testa nei 5 lanci):
Nella successione dei 5 lanci, questo evento si può verificare in uno dei
seguenti modi:
A1 = T  C  C  C 
C
A2 =
C

T

C

C

C
A3 =
C

C

T

C

C
A4 =
C

C

C

T

C
A5 =
C

C

C

C

T
Per il principio delle probabilità composte, la probabilità di ciascuno di
questi eventi vale:
1 1 1 1 1  1
PA1   PA 2   PA 3   PA 4   PA 5         
2 2 2 2 2 2
5
Binomiale generalizzata (n=5, p=0,5): Prob(r=1)
Poiché r = 1 è verificato da uno qualsiasi dei 5 modi indicati, ossia
dall’evento A derivante dall’unione:
A = A1  A2  A3  A4  A5
per il principio delle probabilità totali si ha:
P(A)  PA 1   PA 2   PA 3   PA 4   PA 5  
 1 1 1 1 1
 1
 5       5 
 2 2 2 2 2
 2
5
Binomiale generalizzata (n=5, p=0,5): Prob(r=2)
Per arrivare alla formula generale, è interessante calcolare la probabilità
di ottenere r = 2 (due teste nei 5 lanci).
L’evento A = (r = 2 ) si può presentare, ad esempio, con la seguente
successione di eventi (risultati) elementari:
A1 =
T

T

C

C

C
ma anche da queste altre serie di risultati:
A2
A3
A4
A5
=
=
=
=
T 
T 
C 
C 
C 
C 
T 
C 
T 
C 
C 
T 
C 
T 
T 
C 
C
C
C
T
………………………………………………………………..
………………………………………………………………..
Il numero dei modi possibili è dato dalle combinazioni di 5 oggetti presi
due a due
Numero delle combinazioni
In generale, il numero di combinazioni di n oggetti presi ad r ad r é
espresso da:
 n
n!
  
 r  r! n - r !
L’operatore “k!” si legge “fattoriale di k”, e indica il prodotto dei primi
k numeri naturali.
Esempio: 5! = 5  4  3  2  1 = 120
(si conviene che 0! = 1)
Ne deriva che i modi possibili di avere 2 successi in 5 prove sono in
numero di:
5
5!
5 432
  

 10
23 2
 2  2! 5 - 2!
Binomiale generalizzata (n=5, p=0,5):
Prob(r=2)=Prob(r=3)
Poiché il generico modo Ai ha probabilità di verificarsi:
 1
PA i    
 2
5
e i diversi modi sono a due a due incompatibili, richiamando il principio delle
probabilità totali, la probabilità dell’evento A (unione di tutti i possibili modi
con cui si possono ottenere r = 2 successi) è data da:
5
5
5!
10
 1
 1
P(r  2) 
    10    
2!  3!  2 
32
2
Analogamente si trova che:
5
5
5!
10
 1
 1
P(r  3) 
    10    
3!  2!  2 
32
2
Notare che:
n  n 
n!
   
 
 r   n - r  r!  n - r !
Binomiale n=5, p=0,5: distribuzione delle probabilità del numero di successi
0,35
0,30
P(r)
0,25
0,20
0,15
0,10
0,05
0,00
0
1
2
3
4
Numero di successi
5
X = Binomiale generalizzata (n prove)
Ponendo per una generica binomiale elementare Xi:
xi = 1
successo
xi = 0
insuccesso
Il valore r assunto dalla binomiale generalizzata risulta dalla
somma dei risultati delle binomiali elementari indipendenti:
n
r   xi
i1
La funzione di probabilità di r, caratterizzata dai parametri n e
p, è data da:
n r
P( X  r )     p  qnr
r 
LA DISTRIBUZIONE BINOMIALE
GENERALIZZATA (1)
La distribuzione Binomiale descrive il numero di volte in cui si
presenta un dato evento (definito come successo) in una sequenza di
osservazioni. Si è quindi interessati all’occorrenza del fenomeno e non
alla sua dimensione.
Es.: il numero di figli maschi in una famiglia, il numero di esami
superati con successo la prima volta tra quelli previsti.
La sua funzione di probabilità è data da:
n
n!
1 2  3  ...  n
  

 x  x!(n  x )! (1 2  3  ...  x )  (1 2  3  ...  (n  x ))
n x
P(x)     p  (1- p)n-x per x  0, 1, 2,..., n
x
dove:
n rappresenta il numero di prove;
p è la probabilità di successo in ciascuna prova (0  p  1);
x è il numero di successi.
La media e la varianza, sono rispettivamente pari a:
 = np e ² = np(1-p)
LA DISTRIBUZIONE BINOMIALE
GENERALIZZATA (2)
Le condizioni di applicabilità della distribuzione Binomiale sono che:
• le n prove siano identiche,
• le prove siano indipendenti,
• ciascuna prova possa avere solo un esito: successo o insuccesso,
• la probabilità di successo p sia costante tra le prove.
La distribuzione Binomiale per alcuni valori di n e p
P(X>8)0,01
P(X>13)0,007
P(X>43)=0,002
La distribuzione Binomiale per n=100 ed alcuni valori di p
p=0,25, n=100
Probabilità
Probabilità
p=0,1, n=100
p=0,75, n=100
Probabilità
Probabilità
p=0,5, n=100
Esempio applicazione distribuzione Binomiale
generalizzata
In un reparto di Ostetricia sono nati 6 bambini in una
giornata. Si determini la probabilità che vi sia un ugual
numero di maschi e femmine sapendo che la
probabilità che un neonato sia maschio è pari a 0,51.
Dai dati si ha:
n=6
p = 0,51
x=3
 6
6!
3
6- 3
P(X  3)     0,51  (1- 0,51) 
 0,513  0,49 3  0,31.
3!3!
 3
LA DISTRIBUZIONE DI POISSON (1)
La distribuzione di Poisson è utilizzata per descrivere il numero di
eventi (x) che si manifestano in un dato intervallo (di tempo o di
spazio). Spesso è utilizzata per descrivere gli eventi rari.
Es.: il numero di malformazioni nel nascituro, il numero di particelle
emesse da una sostanza radioattiva.
La sua funzione di probabilità è data da:
x
P(x ) 
 e   per x  0, 1, 2,...
x!
dove:
 > 0 è una costante e rappresenta il numero medio di eventi in un dato
intervallo;
e = 2,71828… (base dei logaritmi naturali).
La media e la varianza sono rispettivamente pari a:
 =  e ² = 
LA DISTRIBUZIONE DI POISSON (2)
Le condizioni di applicabilità della distribuzione di Poisson sono che gli
eventi siano:
• rari (la probabilità di occorrenza in un definito intervallo sia piccola),
• indipendenti,
• tali per cui il loro tasso medio (incidenza) sia costante nell’intervallo
di interesse.
Quando n è molto grande e p è piccolo (n>30 e np<10), la Binomiale
può essere approssimata dalla Poisson e quindi:
x

n  p
P( x) 
 enp per x  0, 1, 2,...
x!
La distribuzione di Poisson per alcuni valori di 
=5
Probabilità
Probabilità
 = 15
 = 35
Probabilità
Probabilità
 = 25
Esempio: applicazione distribuzione di Poisson (1)
Supponiamo che il numero medio di incidenti che
avvengono all’incrocio dell’Ospedale di Padova tra le 19
e le 20 del lunedì sia pari a 1. Qual è la probabilità che
lunedì prossimo tra le 19 e le 20 avvengano 2 incidenti?
Dai dati si ricava:
 = 1 incidente all’ora
x=2
e quindi:
12
P(2)   e 1  0,18394.
2!
Una probabilità corrispondente a circa 1/5.
Esempio: applicazione distribuzione di Poisson (2)
Supponiamo che i batteri coliformi siano presenti nel
fiume Piovego ad una concentrazione media di 1 per
20cc di acqua. Se prendessimo dal fiume una provetta
con 10cc di acqua, quale sarebbe la probabilità di
trovare esattamente 2 batteri coliformi nel campione?
Dai dati si ricava:
 = 0,5 per 10cc di acqua
x=2
e quindi:
0,5 2
P(2) 
 e -0,5  0,075816.
2!
Una probabilità corrispondente a circa 1/13.
Esempio: applicazione di approssimazione della
Binomiale alla Poisson
Si sa che in una certa regione 1 uomo su 100 è
daltonico. Qual è la probabilità di trovare 2 daltonici in un
campione casuale di 50 uomini?
Dai dati si ricava:
n=50, p=0,01 e  = 0,5
x=2
e quindi:
0,5 2
P(2) 
 e -0,5  0,075816.
2!
Con la binomiale avremmo ottenuto P(2)=0,075618.
0.14
Frequenza relativa
0.12
0.10
0.08
0.06
0.04
0.02
0.00
Pressione sistolica (mmHg)
LA VARIABILE CASUALE CONTINUA
È una variabile casuale che può assumere tutti i valori in un intervallo reale e
quindi piuttosto che assegnare una misura di probabilità a singoli valori, si
assegna una misura di probabilità a tutti i possibili intervalli dell’asse reale
114456
114487
114590
11552
115534
11556
115578
115690
11662
116634
11665
116678
116790
11772
117734
117756
11778
117890
11882
118834
118856
Frequenzasoluta
2
0
1
6
Frequenzarelativa(%)
I
s
t
o
g
r
a
m
m
a
d
e
l
l
a
d
i
s
t
r
i
b
u
z
i
o
n
e
d
e
l
l
a
s
t
a
t
u
r
a
d
e
l
l
e
r
a
g
a
z
z
e
d
i1
8
a
n
n
i(
N
=
5
4
8
)
(
V
e
n
e
t
o
G
r
o
w
t
h
S
t
u
d
y
)
4
8
4
4
4
0
3
6
3
2
2
8
2
4
1
2
8
4
0
S
T
A
T
U
R
A
(
c
m
)
La distribuzione di una v.c. continua si può immaginare come una
successione di istogrammi costituiti da barre di cui si riduce
progressivamente l’ampiezza dell’intervallo di valori fino a ridurli a
dimensione infinitesima
Tale rappresentazione grafica
prende il nome di FUNZIONE
DI DENSITÀ di probabilità. La
funzione di densità f(t) è tale
per cui:
x
F( x)   f (t ) dt

Proprietà:
• P(X = x) = 0;
• f(x)  0 per ogni x;
•
 f ( x) dx  1;
• P(a ≤ X ≤ b) = P(a < X < b) = F(b) - F(a);
• F(a) = P(X ≤ a) =

a
f ( t ) dt;
• la funzione di ripartizione è continua;
• f(x) = dF(x)/dx
La v.c. Normale (o Gaussiana)
 Tutte le Normali hanno la stessa forma e sono definite da -  a
+
 Sono simmetriche rispetto all’asse X = 
 Media, mediana e moda coincidono
 Presentano due flessi (cambio di concavità) nei punti ( - ) e
( + )
 Tutte le distribuzioni Normali sono individuate da due parametri:
 e  e sono genericamente indicate con N (; )
La funzione di densità di probabilità è data da:
 ( x   )2
2 2
e
f ( x) 
per -   x  
 2
Funzione di densità di probabilità
Funzione di ripartizione
0,25
1,0
0,9
0,20
0,7
0,15
F (x)
f (X)
0,8
0,10
0,05
0,6
0,5
0,4
 
0,3
0,2
0,1
0,0
0,00

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19
Moda
Mediana
Media Aritmetica
X
0 1 2 3 4 5 6 7 8 9 10 1112 13 14 15 1617 18 19
X
La distribuzione Normale al variare di  e 
Approssimazione della binomiale con la curva
di Gauss (o normale)
Si dimostra che, all’aumentare del numero delle prove n, la funzione di
probabilità della Binomiale X è bene approssimata dalla Normale
0,25
0,20
f(x)
0,15
σ  np q
0,10
0,05
0,00
 = np
x
Problema
P {glicemia  90mg/dl} = ?
0,09
0,08
 = 5,1 mg/dl
0,07
f (x)
0,06
0,05
0,04
0,03
0,02
0,01
0,00
63 68 73 78 83 88 93 98 103 108 113 118 123
 = 93 mg/dl
Glicemia (mg/dl)
Distribuzione NORMALE STANDARDIZZATA
 Quando = 0 e  = 1 la distribuzione Normale è
chiamata NORMALE STANDARDIZZATA, e viene
indicata N(0,1)
 Questa variabile casuale viene indicata con la Z
La funzione di ripartizione di Z è riportata nelle tavole della normale
1-F(z)
1-F(z)
 =1
= 0
Pr Z  1,41
=
?
1,41
= 0,0793  8%
Z
Per il calcolo delle aree sottese alla curva relativamente a qualsiasi
variabile casuale normale è possibile ricorrere alle tavole della Z,
calcolando lo scarto standardizzato :
1-F(X)

x-
z

-Z1
Z1
0,09
0,08
 = 5,1 mg/dl
0,07
f (x)
0,06
0,05
0,04
0,03
0,02
0,01
0,00
63 68 73 78 83 88 93 98 103 108 113 118 123
 = 93 mg/dl
Z
x - μ 90 - 93

  0,59
σ
5,1
P {glicemia  90mg/dl} = P{Z  -0,59} = 0,28
Glicemia (mg/dl)
POPOLAZIONE
(per la quale vorremmo conoscere l’effetto)
inferenza
CAMPIONE
(in cui osserviamo l’effetto)
IL CAMPIONE
Al fine di garantire la correttezza delle conclusioni raggiunte per mezzo
dell’inferenza statistica, che è fondata sul calcolo delle probabilità, si devono
applicare procedure casuali di campionamento (ossia di scelta degli
elementi).
•
Campione casuale (probabilistico)
Ogni unità della popolazione ha una probabilità nota e non nulla
di entrare a far parte del campione.
a) con reinserimento
Ogni elemento estratto viene reinserito in modo da non alterare
la composizione della popolazione ed avrà sempre la stessa
probabilità di essere estratto
►x1, x2, ..., xn indipendenti ed identicamente distribuite (i.i.d.)
b) senza reinserimento
Ogni elemento estratto non viene reinserito per cui la
composizione della popolazione è modificata e dopo ogni
estrazione la probabilità che gli elementi restanti entrino a far
parte del campione sarà modificata ed influenzata dalle
estrazioni precedenti
►x1, x2, ..., xn dipendenti
LA DISTRIBUZIONE CAMPIONARIA
Concetto molto difficile perché occorre fare un grande sforzo di
astrazione tra ciò che si osserva e ciò che sta realmente
accadendo, ma è cruciale per capire l’inferenza statistica.
La distribuzione campionaria di una statistica è l’insieme di tutti i
possibili valori della statistica quando tutti i possibili campioni di
dimensione n vengono estratti dalla popolazione.
Poiché un campione è solo una parte della popolazione, ciascuna
statistica varierà da campione a campione.
Esempio
Pensiamo ad una ipotetica
popolazione composta da 5
ragazzi le cui età in anni compiuti
sono:
x1=13, x2=14, x3=15, x4=16, x5=17.
P(X) 0,20
0,18
0,16
0,14
0,12
0,10
Questa distribuzione è
caratterizzata dai parametri:
 = 15 e ² = 2
e dalla distribuzione di probabilità
in figura.
0,08
0,06
0,04
0,02
X
0,00
13 14 15 16 17
Campioni con reinserimento ed n =2
(5² = 25 possibili campioni)
P(M) 0,20
0,18
Campioni
M
P(M)
{13, 13}
13,0
1/25
{13, 14} {14, 13}
13,5
2/25
0,14
{13, 15} {14, 14} {15, 13}
14,0
3/25
0,12
{13, 16} {14, 15} {15, 14} {16, 13}
14,5
4/25
0,10
{13, 17} {14, 16} {15, 15} {16, 14} {17, 13}
15,0
5/25
0,08
{14, 17} {15, 16} {16, 15} {17, 14}
15,5
4/25
0,06
{15, 17} {16, 16} {17, 15}
16,0
3/25
0,04
{16, 17} {17, 16}
{17, 17}
16,5
17,0
2/25
1/25
0,02
0,16
M
0,00
13
14
15
16
M = 15, ²M = 1
17
Campioni con reinserimento ed n =3
(53 = 125 possibili campioni)
M
P(M)
13,00
13,33
13,67
14,00
14,33
14,67
15,00
15,33
15,67
16,00
16,33
16,67
17,00
0,008
0,024
0,048
0,080
0,120
0,144
0,152
0,144
0,120
0,080
0,048
0,024
0,008
P(M) 0,20
0,18
0,16
0,14
0,12
0,10
0,08
0,06
0,04
0,02
0,00
M
13
14
15
16
M = 15, ²M = 0,67
17
Campioni senza reinserimento ed n =2
(C5,2 = 5!/(3!2!) =10 possibili campioni)
P(M)
Campioni
M
P(M)
{13, 14}
{13, 15}
{13, 16}{14, 15}
{13, 17} {14, 16}
{14, 17} {15, 16}
{15, 17}
{16, 17}
13,5
14,0
14,5
15,0
15,5
16,0
16,5
0,1
0,1
0,2
0,2
0,2
0,1
0,1
0,20
0,18
0,16
0,14
0,12
0,10
0,08
0,06
0,04
0,02
0,00
M
13,5
14,5
15,5
16,5
M = 15, ²M = 0,75
Campioni senza reinserimento ed n =3
(C5,3 = 5!/(2!3!) =10 possibili campioni)
M
P(M)
14,00
14,33
14,67
15,00
15,33
15,67
16,00
0,1
0,1
0,2
0,2
0,2
0,1
0,1
P(M) 0,20
0,18
0,16
0,14
0,12
0,10
0,08
0,06
0,04
0,02
0,00
M
14
14,67 15,33
16
M = 15, ²M = 0,33
TEOREMA CENTRALE DELLA STATISTICA
Il teorema centrale della Statistica, fornisce una base
teorica per il vasto impiego della distribuzione Normale.
Il teorema stabilisce che all’aumentare della numerosità
campionaria n la distribuzione della media campionaria:
1. diventa approssimativamente Normale qualsiasi
sia la distribuzione della variabile originaria;
2. ha come media la media () della variabile nella
popolazione e la deviazione standard della
distribuzione della media campionaria, tende a
 n (errore standard della media).
Nel caso di estrazione da popolazioni infinite o con reinserimento.
Nel caso di estrazione da popolazioni finite o senza reinserimento:   N  n
n  (N  1)
Variabile casuale
campionaria
associata alla media
aritmetica
Variabile
Casuale
Universo
σ
n
Errore
Standard


X

M
INFERENZA STATISTICA
Finalità:
acquisire
informazioni
(media,
frequenza,
distribuzione di una variabile, relazione tra variabili,
ecc.) su di una popolazione utilizzando le
osservazioni di un campione da essa estratto.
Strumento: informatore campionario (o statistica campionaria),
ottenuto mediante una o più operazioni, non
necessariamente algebriche, sui dati campionari.
Esso ha le seguenti caratteristiche:
– per ogni campione si ottiene un solo risultato;
– il risultato è un numero reale;
– variando il campione il risultato non è sempre
uguale, e genera una distribuzione campionaria,
cioè una variabile casuale campionaria (v.c.c.).