CAPITOLO 3: MODELLI TEORICI DI DISTRIBUZIONI. Si è già visto come da una distribuzione di frequenze si possa ottenere il. corrispondente diagramma che si presenta con caratteristiche diverse secondo che il carattere sia discreto o continuo. Quando il carattere è discreto si ha una successione di segmenti le cui altezze variano con una certa legge, mentre se è continuo si ha una curva continua. Studiando molte distribuzioni di tipo discreto o continuo, otteniamo andamenti diversi secondo il fenomeno considerato, ma se si tenta una classificazione secondo il tipo di curva, si vede che è possibile individuare alcuni andamenti che si verificano più di frequente. Quando inoltre si considera il diagramma relativo ad un comportamento reale, si nota che spesso si avvicina al diagramma di una curva matematica nota; è perciò molto utile assimilare il comportamento reale a quello della curva nota in modo da sfruttare le proprietà della curva stessa. curva teorica ---------- andamento osservato _______ Dunque col nome di "modello teorico di una distribuzione di frequente" intendiamo una curva matematica la quale goda della 'proprietà di adattarsi in modo soddisfacente alla distribuzione osservata. Presentiamo allora le principali distribuzioni di variabili casuali, indicando per ciascuna la funzione di densità, la media, la varianza; distinguiamo i modelli relativi a caratteri discreti da quelli relativi a caratteri continui, poiché presentano aspetti matematici di tipo diverso. DISTRIBUZIONI DISCRETE. Distribuzione uniforme. Il caso più semplice di distribuzione discreta è quello della .distribuzione uniforme che si ottiene quando la variabile xi assume gli n valori xi = 1,2, ..... ,n con frequenze relative date da: f i = 1/n con i=1,2, ..... ,n. ' Ovviamente è: f i 0 per ogni i e ∑i fi = 1 La media e la varianza sono: n 1 n2 1 e 2 2 12 E il diagramma corrispondente a questa distribuzione è: Si osservi che la distribuzione risulta banalmente simmetrica. Vediamo un esempio di distribuzioni di frequenze osservate che possono essere studiate con questo modello teorico. In una scuola, in un anno, si sono verificate 300 assenze così suddivise secondo il giorno della settimana: giorni ni L 56 Ma 47 Me 46 V 52 G 44 S 55 300 II modello teorico in questo caso può essere quello uniforme: giorni ni L 50 Ma 50 Me 50 V 50 G 50 S 50 300 Scegliendo questo modello si fa l'ipotesi che le assenze si ripartiscano in modo uniforme nell'arco della settimana, supponendo cioè che le variazioni siano dovute al caso. Distribuzione binomiale o di Bernoulli. Consideriamo una variabile discreta xi che assuma i valori 0,1,2, ..... ,k,...,n con distribuzione di n frequenza data da: f k p k q n k con 0 p 1 e q 1 p . k Si può verificare che f k 0 per ogni k e f k 1 . (1) i 2 La media e la varianza sono: n p e n p q . 1 La distribuzione è simmetrica solo se p q . 2 Il diagramma è: Il fatto che risulti n p si può dimostrare per induzione. Se la prova da eseguirsi è una sola, la v.c. X può assumere il valore 1 oppure il valore 0 a seconda che si verifichi l'evento A oppure il suo contrario B; il .valore medio è allora: 1 p 0 q p . Se le prove da eseguirsi sono n, la variabile casuale X può essere riguardata come la somma di n variabili casuali uguali e indipendenti e quindi si può concludere che: M p p ... p n p . II valore medio n p rappresenta il valore della variabile casuale X che corrisponde (se è intero) o si approssima (se non è intero) all'esito che ha la massima probabilità di verificarsi. La più tipica applicazione della binomiale si ha nell'ambito dello schema delle prove ripetute; dato un evento E con probabilità p ed eseguite n prove indipendenti, la probabilità che E si verifichi k volte è data dalla (1). Esempio. Un fenomeno che può essere studiato utilizzando una distribuzione di Bern oulli è quello dell'analisi della produzione corretta o difettosa di un pezzo di serie, Facciamo l'ipotesi che la probabilità dei pezzi difettosi (attribuibili a circostanze casuali connesse al funzionamento dei macchinari) rimanga costante; ad esempio sia p = 0.01 e di conseguenza q = 0.99. Allora la probabilità che su cento pezzi prodotti se ne abbiano k difettosi è data da: 100 0,01k 0,99100k p k k La probabilità calcolata è determinata dall'ipotesi che p sia costante per tutti i pezzi di una stessa partita e dall'ipotesi dell'indipendenza dei singoli pezzi prodotti. Il valore di p, generalmente sconosciuto, è a sua volta determinato con lo studio di diversi campioni. Distribuzione di Poisson. In molte applicazioni, relative a prove bernoulliane, il numero n degli esperimenti eseguiti è grande e la probabilità dei successi molto piccola. In questo caso la distribuzione binomiale può essere approssimata con la distribuzione di Poisson detta "legge degli eventi rari". La distribuzione di Poisson è data da: fk k e k! k 0,1,2,... e 0 Per la quale è e 2 Ed il relativo diagramma è: Nelle applicazioni pratiche l'approssimazione della binomiale con una poissoniana è accettabile per n p 5 ed n 50 . Esempio. Il numero di incidenti stradali che avvengono giornalmente su una certa autostrada segue una legge di Poisson con parametro 1 . Trovare la probabilità che in un giorno accadano almeno due incidenti. P(almeno 2) = P2 + P3 + P4 + … = 1 – P0 - P1 = = 1 1 e 1 1 e 1 1 2 0,3679 0,2642 0! 1! Esempio. Una partita di componenti elettronici contiene una percentuale dell'1 % di pezzi difettosi. Trovare la probabilità che, estraendone a caso 100, se ne trovino 2 difettosi. Si ha: n=100 e p=0,01; la probabilità esatta, calcolata con lo schema di Bernoulli. è: 2 100 100 99 1 1 98 99 0,012 0,9998 P2 0,99 0,99 0,1848 2 2 100 2 Poiché siamo nelle ipotesi richieste, possiamo anche utilizzare il modello di Poisson: infatti n p 1 5 ed n 50 ; posto n p 1 si ha: P2 12 e 1 1 1 e 0,1839 2! 2 In questo modo abbiamo ottenuto con calcoli più semplici una buona approssimazione probabilità richiesta. DISTRIBUZIONI CONTINUE. Distribuzione normale o di Gauss. Questa distribuzione fu proposta da Gauss nel 1809 e da Laplace nel 1812 per la teoria degli errori. Per un certo periodo di tempo si è ritenuto che essa potesse applicarsi a quasi tutti i fenomeni naturali, fisici e biologici. Più recentemente si è riscontrato che questo non è possibile e la stessa distribuzione normale è stata sottoposta ad un più attento esame; ad esempio è stata ottenuta per la teoria degli errori una distribuzione più precisa, la "distribuzione logaritmica-normale", della quale comunque noi non ci occuperemo. La distribuzione normale gode dell'importante proprietà di essere l'analoga della binomiale nel caso continuo. La funzione di densità della gaussiana è: f x 1 2 e x 2 2 2 Si può dimostrare che f x 0 per ogni x e che f x dx 1 Questo integrale non è calcolabile direttamente, ma richiede il ricorso ad alcuni artifici. Studiando la (1), si conclude che: a) la curva è simmetrica rispetto alla retta di equazione x ; b) ha un massimo per x e tale massimo vale f 1 2 ed è perciò inversamente proporzionale a ; e) mano a mano che x si allontana da u la funzione decresce ed è: lim f x 0 x d) studiando le derivate prime e seconde si ottiene che la normale presenta due flessi nei punti di ascissa x e x ; e) la media e la varianza della distribuzione sono date dai valori e 2 ( questo giustifica l'uso dei simboli e per indicare le costanti presenti nella f x ); f) il parametro oltre che la media è anche la mediana e la moda della distribuzione; Supponendo fissati e , il diagramma della gaussiana è perciò: Osserviamo ancora che l'equazione (1) al variare di e rappresenta una famiglia di curve che, se varia solo il valore , hanno la stessa forma e varia la posizione dell'asse di simmetria; se varia solo , le curve hanno lo stesso asse, ma sono più o meno appuntite. La curva diventa tanto più appuntita quanto più il valore di diminuisce. Se variano sia . che , la curva sposta il suo asse di simmetria e inoltre si fa più o meno appuntita. La distribuzione normale è scomoda da usare in quanto contiene due parametri e che la rendono difficile da tabulare. Questo inconveniente si elimina ricorrendo all'artificio della standardizzazione ponendo z x o ridotta" la cui funzione di densità è: . Si ottiene così la "distribuzione normale standardizzata f z 1 2 e z2 2 La distribuzione normale standardizzata ha naturalmente la stessa forma della normale completa, ma non contenendo nessun parametro è data da una sola curva. Questa curva è caratterizzata dal fatto di avere il massimo in corrispondenza all'origine degli assi (z=0 con valore 0.3989) e i due punti di flesso nei punti di ascissa -1 e +1. Nelle applicazioni bisogna conoscere l'area sottesa alla curva e compresa fra le ordinate innalzate in corrispondenza a due qualunque valori z1 e z 2 . Come già detto, il calcolo dell'integrale è alquanto laborioso e per questo motivo è stata approntata una tavola che dà direttamente l'area; questa tavola si riferisce alla normale standardizzata che, non contenendo parametri, è molto facile da tabulare.