Distribuzioni e inferenza statistica Distribuzioni di probabilità L’analisi statistica spesso studia i fenomeni collettivi confrontandoli con modelli teorici di riferimento. Tra di essi, vedremo: la distribuzione binomiale, la distribuzione di Poisson, la distribuzione normale o Gaussiana, e altre. Scopo: • Molti fenomeni sono approssimabili con esse • Inferenza statistica: dai dati di un campione verificare ipotesi sull’intera popolazione Distribuzione binomiale (cap. 7.2) E’ la distribuzione di probabilità usata quando: • le prove ripetute sono indipendenti • i risultati di ciascuna prova sono due • la probabilità p di successo è costante Esempi: un sondaggio in cui ogni persona può esprimere SI o NO; un test di qualità sul funzionamento di un elettrodomestico (funziona, non funziona) Per calcolare la densità di probabilità (ossia la probabilità che una variabile assuma un certo valore) di una distribuzione binomiale, in Excel si usa la funzione DISTRIB.BINOM(num_successi;prove;probabilità_s;cumulativo) oppure DISTRIB.BINOM.N(num_successi;prove;probabilità_s;cumulativo) Dove – – – – Num_successi = numero di successi in prove (x nella formula) Prove= numero di prove indipendenti (n nella formula) Probabilità_s= probabilità di successo per ciascuna prova (p nella formula) Cumulativo= valore logico che determina la forma assunta dalla funzione. Se è VERO, DISTRIB.BINOM restituirà la funzione distribuzione cumulativa, ovvero la probabilità che venga restituito un numero di successi ≤ di num_successi: Se è FALSO, verrà restituita la funzione massa di probabilità, ovvero la probabilità che venga restituito un numero massimo di successi = al valore di num_successi che è corrispondente alla densità di probabilità DISTRIBUZIONE BINOMIALE – La distribuzione binomiale permette di calcolare, per numeri n piccoli, le probabilità di avere un certo numero k di successi nelle n prove. – Se abbiamo molte prove, n diventa molto grande. – Trovare le probabilità dei successi k diventa difficile. – Per valori alti di n il problema non è di trovare la probabilità connessa ad uno specifico numero k di successi, ma di trovare ad esempio la probabilità di trovare più o meno di k successi. DISTRIBUZIONE DI POISSON (cap. 7.4) NEW! Si usa quando la probabilità di successo p è piccola, il numero n delle prove è molto elevato e il prodotto =np è finito. La funzione di probabilità della distribuzione di Poisson è: P(X x) x x! e In Excel POISSON(x; media; cumulativo) dove Media = cumulativo = valore logico. Se è VERO, restituisce la funzione di distribuzione cumulativa P(X≤x); se è FALSO P(X=x) Provate con i dati dell’Esempio 7.5 e 7.6, p. 165 DISTRIBUZIONE NORMALE – Si ricorre allora alle distribuzioni NORMALE (GAUSSIANA), o di Poisson, che valgono per n molto grande. – In questo caso lo scaloide della distribuzione di probabilità binomiale, ossia l’insieme dei rettangoli che rappresentano le probabilità dei singoli k, tende a diventare un’area sottostante ad una linea continua. Per il calcolo della funzione di probabilità normale, in Excel si usa DISTRIB.NORM.N(x;media;dev_standard;cumulativo) Dove: x0 = valore per il quale si desidera la distribuzione media=media aritmetica della distribuzione (μ nella formula) dev_standard=deviazione standard della distribuzione ( nella formula) Cumulativo=valore logico. Se è VERO, restituisce la funzione di distribuzione cumulativa P( x x0 ) x0 f(x) x0 1 1/2(x μ) 2 /σ 2 e dx σ 2π se è FALSO, restituisce la funzione massa di probabilità P(X= x0) Altre distribuzioni continue (par. 7.6) • Distribuzione 2 • Distribuzione t di Student • Distribuzione F di Fisher (per la regressione) Distribuzione 2 (a n gradi di libertà) • E’ una distribuzione di probabilità continua, ottenuta come somma dei quadrati di n variabili casuali indipendenti, con media 0 e varianza 1 • Caratteristiche: – L’asimmetria – La dipendenza dal parametro n – La non negatività della funzione – Al variare di n esistono infinite distribuzioni • In Excel si usa la funzione DISTRIB.CHI(x;gradi_libertà) gdl=n Distribuzione t di Student • E’ una distribuzione di probabilità continua. • Consideriamo due variabili indipendenti Z, Q, dove – Z è distribuita normalmente con media 0 e varianza 1 – Q è distribuita secondo un 2 con n gradi di libertà • Si può dimostrare che la variabile casuale continua segue una distribuzione t di Student con n gradi di libertà Distribuzione t di Student • Caratteristiche: – Simmetrica rispetto al valor medio – Dipende da n – All’aumentare di n tende alla distribuzione normale – Per ogni valore di n si ha una diversa distribuzione In Excel si usa la funzione DISTRIB.T(x;gradi_libertà;coda) Se coda=1 (risp. 2), viene restituita una distribuzione a 1 coda (risp. 2 code). Distribuzione F di Fisher • E’ una distribuzione usata per confrontare il grado di variabilità di due insiemi di dati ed è usata nello studio dell’analisi della varianza (ANOVA) • Consideriamo due variabili casuali X1 e X2 – distribuite secondo un 2 con n1 e n2 gradi di libertà, risp. • Si può dimostrare che la variabile F= (X1/n1) / (X2/n2) segue una distribuzione F con n1 e n2 gradi di libertà Distribuzione F di Fisher In Excel si usa la funzione DISTRIB.F(x;gradi_libertà1; gradi_libertà2) A cosa può servire tutto ciò? Inferenza statistica Indagine campionaria: indagine svolta su una parte dell’intero collettivo da indagare (popolazione) Estendere i risultati a tutta la popolazione: i risultati ottenuti per il campione sono approssimativamente validi per tutta la popolazione Inferenza statistica: insieme di metodi che consentono di precisare “a posteriori” i margini di tale approssimazione oppure “a priori” l’articolazione e il dimensionamento ottimale del campione Problemi inferenziali • Stima dei parametri • Verifica di ipotesi sui parametri Problemi inferenziali parametrici sulla base dei risultati del campione, si valutano i parametri che caratterizzano la distribuzione del carattere nella popolazione (a posteriori) o se ne verificano le congetture (a priori) • Verifica di altre ipotesi riguardano aspetti della distribuzione del carattere nella popolazione non suscettibili di essere espressi dai parametri che compaiono, che valgano per qualsiasi forma funzionale di tale distribuzione Problemi inferenziali nonparametrici Stima dei parametri (cap. 8.2 cenni) • Si distingue: – Stima puntuale dei parametri (consiste nella migliore valutazione di un parametro, ottenibile sulla base delle osservazioni campionarie). Parametri: media, frequenza, differenze tra medie. – Intervalli di confidenza (stima di un intervallo di confidenza in cui si trova, con una prefissata probabilità, il vero e ignoto parametro da stimare). – Dimensione del campione Verifica di ipotesi (cap. 8.4 cenni) Nell’inferenza statistica parametrica si formulano ASSUNZIONI sui valori di un parametro incognito di una distribuzione di probabilità di funzione NOTA. La verifica statistica delle ipotesi vaglia il grado di attendibilità che può essere attribuito loro. Inferenza statistica non parametrica (cap. 9) Si tratta di usare metodi (detti non parametrici) che non usano alcuna informazione sulla distribuzione di probabilità. Dunque sono utili quando non si conosce la distribuzione di probabilità della popolazione e non è possibile usare test che coinvolgono ipotesi sui parametri della distribuzione. Vedremo un test per la “bontà dell’adattamento”: il test del 2, che state utilizzando in Fisica. Test del 2 (di buon adattamento) • I test di buon adattamento, in generale, hanno lo scopo di verificare se una variabile in esame abbia o meno un certa distribuzione ipotizzata sulla base, come al solito, di dati sperimentali. • Si usa per confrontare un insieme di frequenze osservate in un campione, con le analoghe quantità teoriche ipotizzate per la popolazione Test del 2 (di buon adattamento) • I test di buon adattamento, in generale, hanno lo scopo di verificare se una variabile in esame abbia o meno un certa distribuzione ipotizzata sulla base, come al solito, di dati sperimentali. • Si usa per confrontare un insieme di frequenze osservate in un campione, con le analoghe quantità teoriche ipotizzate per la popolazione Confronto tra frequenze empiriche e teoriche Mediante il test è possibile misurare quantitativamente il grado di deviazione tra i due insiemi di valori