Distribuzioni di probabilità Distribuzioni di probabilità L’analisi statistica spesso studia i fenomeni collettivi confrontandoli con modelli teorici di riferimento. Tra di essi, vedremo: la distribuzione binomiale, la distribuzione normale o Gaussiana, e altre. Scopo: Molti fenomeni sono approssimabili con esse Inferenza statistica: dai dati di un campione verificare ipotesi sull’intera popolazione Distribuzione binomiale (cap. 7.2) E’ la distribuzione di probabilità usata quando: le prove ripetute sono indipendenti i risultati di ciascuna prova sono due la probabilità p di successo è costante Esempi: un sondaggio in cui ogni persona può esprimere SI o NO; un test di qualità sul funzionamento di un elettrodomestico (funziona, non funziona) Densità di probabilità Se X è la variabile che indica il numero di successi in n prove p la probabilità di successo in ciascuna prova (costante) q=1-p la probabilità di insuccesso in ciascuna prova La densità di probabilità di X è: Per calcolare la densità di probabilità (ossia la probabilità che una variabile assuma un certo valore) di una distribuzione binomiale, in Excel si usa la funzione DISTRIB.BINOM.N(num_successi;prove;probabilità_s;cumulativo) Dove ◦ Num_successi = numero di successi in prove (x nella formula) ◦ Prove= numero di prove indipendenti (n nella formula) ◦ Probabilità_s= probabilità di successo per ciascuna prova (p nella formula) ◦ Cumulativo= valore logico che determina la forma assunta dalla funzione. Se è VERO, DISTRIB.BINOM restituirà la funzione distribuzione cumulativa, ovvero la probabilità che venga restituito un numero massimo di successi pari al valore di num_successi: Se è FALSO, verrà restituita la funzione massa di probabilità, ovvero la probabilità che venga restituito un numero massimo di successi pari al valore di num_successi che è corrispondente alla densità di probabilità Inoltre DISTRIB.BINOM.N(num_successi;prove;probabilità_s;cumulativo) num_successi e prove sono arrotondati a interi Se num_successi, prove o probabilità_s non sono valori numerici, la funzione restituisce errore #VALORE! Se num_successi è < 0 oppure > prove, la funzione restituisce errore #NUM! Se probabilità_s è < 0 oppure > 1, la funzione restituisce errore #NUM! Esempio 7.1 In una officina sono installate 5 macchine uguali. Ciascuna ha la probabilità del 20% di guastarsi. Studiare la variabile X = n° di macchine guaste contemporaneamente Risulta che: Num_successi = da 0 a 5 Prove = 5 Probabilità_s = 0,2 Cumulativo = falso Esempio 7.1 PROVIAMO In una officina sono installate 5 macchine uguali. Ciascuna ha la probabilità del 20% di guastarsi. Studiare la variabile X = n° di macchine guaste contemporaneamente Inserire 5, e 0,2 nella tabella Poi inserire 0,1,2,3,4,5 Usare il trascinamento Inserire anche un istogramma della densità di probabilità (selezionando come ascissa la colonna X) Esempio 7.2 In una ditta lavorano 12 operai che usano apparecchiature collegate alla stessa rete elettrica. Ogni operaio dispone di un’apparecchiatura che assorbe 1 kilowatt e la usa, in modo indipendente dagli altri, per 10 minuti ogni ora. Se la potenza della rete è di 5 kilowatt, qual è la probabilità che non ci sia sovraccarico? Esempio 7.2 PROVIAMO In una ditta lavorano 12 operai che usano apparecchiature collegate alla stessa rete elettrica. Ogni operaio dispone di un’apparecchiatura che assorbe 1 kilowatt e la usa, in modo indipendente dagli altri, per 10 minuti ogni ora. Se la potenza della rete è di 5 kilowatt, qual è la probabilità che non ci sia sovraccarico? La rete non è in sovraccarico se 5 o meno operai usano le loro apparecchiature Num_successi = 5 prove =12 probabilità_s = 10/60 =1/6 (probabilità che un operaio usi un’apparecchiatura in un istante dato) cumulativo = vero Esempio 7.3 Determinare la distribuzione di probabilità del numero X di pezzi difettosi, se si sono provati 20 pezzi di un lotto, dove normalmente quelli difettosi sono il 10%. Rappresentare graficamente la distribuzione ottenuta. Determinare ◦ Il numero medio di pezzi difettosi (=20*0,1) ◦ La probabilità che al più 6 pezzi siano difettosi Esempio 7.3 PROVIAMO Determinare la distribuzione di probabilità del numero X di pezzi difettosi, se si sono provati 20 pezzi di un lotto, dove normalmente quelli difettosi sono il 10%. Rappresentare graficamente la distribuzione ottenuta. Determinare ◦ Il numero medio di pezzi difettosi (=20*0,1) ◦ La probabilità che al più 6 pezzi siano difettosi Dal problema risulta che n=20 p=10/100=0,1 Occorre calcolare P(X) con 0<=X<=20 (cumulativo=falso) Formattare le celle relative a P(X) come numero DISTRIBUZIONE BINOMIALE ◦ La distribuzione binomiale permette di calcolare, per numeri n piccoli, le probabilità di avere un certo numero k di successi nelle n prove. ◦ Se abbiamo molte prove, n diventa molto grande. ◦ Trovare le probabilità dei successi k diventa difficile. ◦ Per alti n il problema non è di trovare la probabilità connessa ad uno specifico numero k di successi, ma di trovare ad esempio la probabilità di trovare più o meno di k successi. DISTRIBUZIONE NORMALE ◦ Si ricorre allora alle distribuzioni NORMALE (GAUSSIANA) o di Poisson, che valgono per n molto grande. ◦ In questo caso lo scaloide della distribuzione di probabilità binomiale, ossia l’insieme dei rettangoli che rappresentano le probabilità dei singoli k, tende a diventare un’area sottostante ad una linea continua. Distribuzione normale (o Gaussiana o degli errori accidentali; cap. 7.5) Rappresenta la distribuzione più usata ed è quella alla quale tendono quasi tutte le altre. La funzione di probabilità della distribuzione normale risulta: f(x) 1 2 e 1/2( x- )2 Per il calcolo della funzione di probabilità normale, in Excel si usa DISTRIB.NORM.N(x;media;dev_standard;cumulativo) Dove: x0 = valore per il quale si desidera la distribuzione media=media aritmetica della distribuzione (μ nella formula) dev_standard=deviazione standard della distribuzione ( nella formula) Cumulativo=valore logico. Se è VERO, restituisce la funzione di distribuzione cumulativa P( x x0 ) x0 f(x) x0 1 1/2(xμ)2 /σ 2 e dx σ 2π se è FALSO, restituisce la funzione massa di probabilità P(X= x0) Esempio 7.7 Una macchina produce tondini metallici il cui diametro è una variabile normalmente distribuita con media 6 cm e deviazione standard 0,2 cm. Si vuole determinare la probabilità che il diametro di un tondino differisca dal valore medio, in più o in meno, di almeno 0,5 cm. Esempio 7.7 Una macchina produce tondini metallici il cui diametro è una variabile normalmente distribuita con media 6 cm e deviazione standard 0,2 cm. Si vuole determinare la probabilità che il diametro di un tondino differisca dal valore medio, in più o in meno, di almeno 0,5 cm. …quello che quindi si vuole calcolare è P(X≤5,5; X>6,5)= P(X≤5,5)+P(X>6,5)= = P(X≤5,5)+[1-P(X ≤ 6,5)] Esempio 7.7 In Excel occorre usare 2 volte la funzione, prima su 5,5 e poi su 6,5 DISTRIB.NORM.N(5,5; 6;0,2;vero) DISTRIB.NORM.N(6,5; 6;0,2;vero) E poi alla prima aggiungere il risultato di 1- la seconda PROVIAMO Esempio 7.8 Una macchina produce un tipo di catene per bicicletta con lunghezza normalmente distribuita, con media pari a 150 cm e deviazione standard pari a 3 cm. Per alcuni tipi di biciclette si richiede che le catene abbiano lunghezza compresa tra 154 ±2cm. In caso contrario la catena deve essere modificata. Qual è la percentuale di catene prodotte dalla macchina che vengono utilizzate senza essere modificate? Se la macchina viene regolata in modo che la lunghezza delle catene abbia media pari a 154 cm, qual è la percentuale di catene che possono essere usate senza modifiche? E’ conveniente la modifica? Esempio 7.8 …quello che quindi si vuole calcolare è P(152≤X≤156) = P(X≤156) - P(X ≤152) Si ripete poi lo stesso conto, usando l’altra media… PROVIAMO Altre distribuzioni continue (par. 7.6) Distribuzione 2 Distribuzione t di Student Distribuzione F di Fisher (per la regressione) Distribuzione 2 (a n gradi di libertà) E’ una distribuzione di probabilità continua, ottenuta come somma dei quadrati di n variabili casuali indipendenti, con media 0 e varianza 1 Caratteristiche: ◦ L’asimmetria ◦ La dipendenza dal parametro n ◦ La non negatività della funzione ◦ Al variare di n esistono infinite distribuzioni In Excel si usa la funzione DISTRIB.CHI(x;gradi_libertà) gdl=n Distribuzione t di Student E’ una distribuzione di probabilità continua. Consideriamo due variabili indipendenti Z, Q, dove ◦ Z è distribuita normalmente con media 0 e varianza 1 ◦ Q è distribuita secondo un 2 con n gradi di libertà Si può dimostrare che la variabile casuale continua segue una distribuzione t di Student con n gradi di libertà Distribuzione t di Student Caratteristiche: ◦ Simmetrica rispetto al valor medio ◦ Dipende da n ◦ All’aumentare di n tende alla distribuzione normale ◦ Per ogni valore di n si ha una diversa distribuzione In Excel si usa la funzione DISTRIB.T(x;gradi_libertà;coda) Se coda=1 (risp. 2), viene restituita una distribuzione a 1 coda (risp. 2 code). Distribuzione F di Fisher E’ una distribuzione usata per confrontare il grado di variabilità di due insiemi di dati ed è usata nello studio dell’analisi della varianza (ANOVA) Consideriamo due variabili casuali X1 e X2 ◦ distribuite secondo un 2 con n1 e n2 gradi di libertà, risp. Si può dimostrare che la variabile F= (X1/n1) / (X2/n2) segue una distribuzione F con n1 e n2 gradi di libertà Distribuzione F di Fisher In Excel si usa la funzione DISTRIB.F(x;gradi_libertà1; gradi_libertà2)