Distribuzioni e inferenza statistica
Distribuzioni di probabilità
L’analisi statistica spesso studia i fenomeni
collettivi confrontandoli con modelli teorici di
riferimento.
Tra di essi, vedremo: la distribuzione
binomiale, la distribuzione di Poisson, la
distribuzione normale o Gaussiana, e altre.
Scopo:
• Molti fenomeni sono approssimabili con esse
• Inferenza statistica: dai dati di un campione
verificare ipotesi sull’intera popolazione
Distribuzione binomiale (cap. 7.2)
E’ la distribuzione di probabilità usata quando:
• le prove ripetute sono indipendenti
• i risultati di ciascuna prova sono due
• la probabilità p di successo è costante
Esempi: un sondaggio in cui ogni persona può
esprimere SI o NO; un test di qualità sul
funzionamento di un elettrodomestico
(funziona, non funziona)
Per calcolare la densità di probabilità (ossia la probabilità che una
variabile assuma un certo valore) di una distribuzione binomiale,
in Excel si usa la funzione
DISTRIB.BINOM(num_successi;prove;probabilità_s;cumulativo)
oppure
DISTRIB.BINOM.N(num_successi;prove;probabilità_s;cumulativo)
Dove
–
–
–
–
Num_successi = numero di successi in prove (x nella formula)
Prove= numero di prove indipendenti (n nella formula)
Probabilità_s= probabilità di successo per ciascuna prova (p nella formula)
Cumulativo= valore logico che determina la forma assunta dalla funzione.
Se è VERO, DISTRIB.BINOM restituirà la funzione distribuzione cumulativa, ovvero la
probabilità che venga restituito un numero di successi ≤ di num_successi:
Se è FALSO, verrà restituita la funzione massa di probabilità, ovvero la probabilità che
venga restituito un numero massimo di successi = al valore di num_successi che è
corrispondente alla densità di probabilità
DISTRIBUZIONE BINOMIALE
– La distribuzione binomiale permette di calcolare,
per numeri n piccoli, le probabilità di avere un
certo numero k di successi nelle n prove.
– Se abbiamo molte prove, n diventa molto grande.
– Trovare le probabilità dei successi k diventa
difficile.
– Per valori alti di n il problema non è di trovare la
probabilità connessa ad uno specifico numero k di
successi, ma di trovare ad esempio la probabilità
di trovare più o meno di k successi.
DISTRIBUZIONE DI POISSON (cap. 7.4) NEW!
Si usa quando la probabilità di successo p è piccola, il numero
n delle prove è molto elevato e il prodotto =np è finito.
La funzione di probabilità della distribuzione di Poisson è:
P(X  x) 
x
x!
 e 
In Excel POISSON(x; media; cumulativo) dove
Media = 
cumulativo = valore logico. Se è VERO, restituisce la funzione
di distribuzione cumulativa P(X≤x); se è FALSO P(X=x)
Provate con i dati dell’Esempio 7.5 e 7.6, p. 165
DISTRIBUZIONE NORMALE
– Si ricorre allora alle distribuzioni NORMALE
(GAUSSIANA), o di Poisson, che valgono per n
molto grande.
– In questo caso lo scaloide della distribuzione di
probabilità binomiale, ossia l’insieme dei
rettangoli che rappresentano le probabilità dei
singoli k, tende a diventare un’area sottostante ad
una linea continua.
Per il calcolo della funzione di probabilità normale, in Excel si
usa
DISTRIB.NORM.N(x;media;dev_standard;cumulativo)
Dove:
x0 = valore per il quale si desidera la distribuzione
media=media aritmetica della distribuzione (μ nella formula)
dev_standard=deviazione standard della distribuzione ( nella
formula)
Cumulativo=valore logico. Se è VERO, restituisce la funzione di
distribuzione cumulativa
P( x  x0 ) 
x0


f(x) 
x0


1
1/2(x μ) 2 /σ 2
e
dx
σ 2π
se è FALSO, restituisce la funzione massa di probabilità P(X= x0)
Altre distribuzioni continue
(par. 7.6)
• Distribuzione 2
• Distribuzione t di Student
• Distribuzione F di Fisher (per la
regressione)
Distribuzione 2 (a n gradi di libertà)
• E’ una distribuzione di probabilità continua, ottenuta come
somma dei quadrati di n variabili casuali indipendenti, con
media 0 e varianza 1
• Caratteristiche:
– L’asimmetria
– La dipendenza dal parametro n
– La non negatività della funzione
– Al variare di n esistono infinite distribuzioni
• In Excel si usa la funzione
DISTRIB.CHI(x;gradi_libertà)
gdl=n
Distribuzione t di Student
• E’ una distribuzione di probabilità continua.
• Consideriamo due variabili indipendenti Z, Q, dove
– Z è distribuita normalmente con media 0 e varianza 1
– Q è distribuita secondo un 2 con n gradi di libertà
• Si può dimostrare che la variabile casuale continua
segue una distribuzione t di Student con n gradi di libertà
Distribuzione t di Student
• Caratteristiche:
– Simmetrica rispetto al valor
medio
– Dipende da n
– All’aumentare di n tende alla
distribuzione normale
– Per ogni valore di n si ha una
diversa distribuzione
In Excel si usa la funzione
DISTRIB.T(x;gradi_libertà;coda)
Se coda=1 (risp. 2), viene restituita una
distribuzione a 1 coda (risp. 2 code).
Distribuzione F di Fisher
• E’ una distribuzione usata per confrontare il grado di
variabilità di due insiemi di dati ed è usata nello studio
dell’analisi della varianza (ANOVA)
• Consideriamo due variabili casuali X1 e X2
– distribuite secondo un 2 con n1 e n2 gradi di libertà, risp.
• Si può dimostrare che la variabile
F= (X1/n1) / (X2/n2)
segue una distribuzione F con n1 e n2 gradi di libertà
Distribuzione F di Fisher
In Excel si usa la funzione
DISTRIB.F(x;gradi_libertà1; gradi_libertà2)
A cosa può servire tutto ciò?
Inferenza statistica
Indagine campionaria: indagine svolta su una parte
dell’intero collettivo da indagare (popolazione)
Estendere i risultati a tutta la popolazione: i risultati
ottenuti per il campione sono approssimativamente
validi per tutta la popolazione
Inferenza statistica: insieme di metodi che consentono di
precisare
“a posteriori” i margini di tale approssimazione
oppure
“a priori” l’articolazione e il dimensionamento ottimale
del campione
Problemi inferenziali
• Stima dei parametri
• Verifica di ipotesi sui parametri
Problemi
inferenziali
parametrici
sulla base dei risultati del campione, si valutano i parametri che
caratterizzano la distribuzione del carattere nella popolazione (a
posteriori) o se ne verificano le congetture (a priori)
• Verifica di altre ipotesi
riguardano aspetti della distribuzione del carattere nella
popolazione non suscettibili di essere espressi dai parametri
che compaiono, che valgano per qualsiasi forma funzionale di tale
distribuzione
Problemi
inferenziali
nonparametrici
Stima dei parametri (cap. 8.2 cenni)
• Si distingue:
– Stima puntuale dei parametri (consiste nella migliore
valutazione di un parametro, ottenibile sulla base delle
osservazioni campionarie). Parametri: media, frequenza,
differenze tra medie.
– Intervalli di confidenza (stima di un intervallo di confidenza in
cui si trova, con una prefissata probabilità, il vero e ignoto
parametro da stimare).
– Dimensione del campione
Verifica di ipotesi (cap. 8.4 cenni)
Nell’inferenza statistica parametrica si formulano ASSUNZIONI sui
valori di un parametro incognito di una distribuzione di probabilità
di funzione NOTA.
La verifica statistica delle ipotesi vaglia il grado di attendibilità che
può essere attribuito loro.
Inferenza statistica non parametrica
(cap. 9)
Si tratta di usare metodi (detti non parametrici) che non
usano alcuna informazione sulla distribuzione di
probabilità.
Dunque sono utili quando non si conosce la distribuzione
di probabilità della popolazione e non è possibile usare
test che coinvolgono ipotesi sui parametri della
distribuzione.
Vedremo un test per la “bontà dell’adattamento”: il test
del 2, che state utilizzando in Fisica.
Test del 2 (di buon adattamento)
• I test di buon adattamento, in generale, hanno lo scopo di verificare
se una variabile in esame abbia o meno un certa distribuzione
ipotizzata sulla base, come al solito, di dati sperimentali.
• Si usa per confrontare un insieme di frequenze osservate in un
campione, con le analoghe quantità teoriche ipotizzate per la
popolazione
Test del 2 (di buon adattamento)
• I test di buon adattamento, in generale, hanno lo scopo di verificare
se una variabile in esame abbia o meno un certa distribuzione
ipotizzata sulla base, come al solito, di dati sperimentali.
• Si usa per confrontare un insieme di frequenze osservate in un
campione, con le analoghe quantità teoriche ipotizzate per la
popolazione
Confronto tra frequenze
empiriche e teoriche
Mediante il test è possibile misurare quantitativamente il grado
di deviazione tra i due insiemi di valori