Elaborazione statistica di dati 1 CONCETTI DI BASE DI STATISTICA ELEMENTARE 2 Taratura strumenti di misura IPOTESI: grandezza da misurare identica da misura a misura Per la presenza di errori casuali, ripetendo più volte la misura di una stessa grandezza, si può ottenere una serie di valori diversi. 3 Collaudo sistemi di produzione IPOTESI: accuratezza strumento di misura migliore della variabilità dei manufatti Una serie di valori di misure casualmente diverse può essere ottenuta anche misurando diversi elementi, nominalmente uguali, di una produzione industriale. 4 Esempio di serie di dati: Lo spessore di 110 dadi estratti dalla produzione di una macchina 5 Ogni serie di valori estratta dalla totalità dei valori possibili può essere considerato un campione. Esistono vari metodi per estrarre un campione che sia rappresentativo dell'universo. Qui si considerano 11 campioni estratti casualmente. Ciascun campione contiene 10 misure di spessore 6 7 8 Al sottoinsieme di “n” valori estratti dall’insieme dei valori possibili viene dato il nome di campione; l’intero insieme di dati “N” viene definito popolazione (o universo). 9 CAMPIONE 1 n media m= x x i n i1 varianza s2 n 1 2 (xi -x) n-1 i 1 10 La media gode della proprietà di rendere minima la somma dei quadrati degli scarti. Inoltre la somma algebrica degli scarti rispetto al valore medio è nulla. 11 La radice quadrata della varianza s, costituisce una stima della dispersione delle misure intorno al valore medio, al pari di s2, ma ha il pregio di avere le stesse dimensioni delle misure x. 12 I due parametri precedenti nel caso della popolazione, o universo composto di N elementi, si indicano con i simboli: N 1 xi N i 1 N 1 2 2 i 1 ( x i ) N 13 I dati possono essere raggruppati in diversi modi. Una prima forma di raggruppamento si può osservare nella tabella. 14 15 Una forma di raggruppamento molto più usata e significativa è quella delle classi di intervalli di appartenenza, che non è necessario abbiano tutti la stessa ampiezza. 16 Raggruppando per intervalli: Limiti delle classi > di mm < di mm 6,160 6,170 6,180 6,190 6,200 6,210 6,220 6,230 6,240 6,170 6,180 6,190 6,200 6,210 6,220 6,230 6,240 6,250 Valore centrale della classe Frequenza Frequenza Densità di assoluta percentuale frequenza xj (mm) fj fj fp = 100 n (%) 6,165 6,175 6,185 6,195 6,205 6,215 6,225 6,235 6,245 3 6 12 23 26 21 11 6 2 2,73 5,45 10,91 20,91 23,64 19,09 10,00 5,45 1,82 fp x 0,273 0,545 1,091 2,091 2,364 1,909 1,000 0,545 0,182 Frequenza cumulata percentuale j fk n 100 (%) k=1 2,73 8,18 19,09 40,00 63,64 82,73 92,73 98,18 100,00 17 Il numero dei dati che appartengono a una determinata classe j si chiama frequenza della classe e viene indicato con fj. 18 Il raggruppamento in k classi o sottogruppi, G1...Gj...Gk, avviene secondo il valore, ad esempio se a è il minimo degli xi e b il massimo: b- a x = k se xi G j a + ( j - 1) x xi < a + jx 19 Ad ogni classe Gi è associato il numero di elementi che vi appartengono, fi . Si definisce frequenza relativa percentuale della classe il parametro: f p ,i fi 100 n fp,i è compreso nell'intervallo [0-100]% 20 Raggruppando per intervalli: Limiti delle classi > di mm < di mm 6,160 6,170 6,180 6,190 6,200 6,210 6,220 6,230 6,240 6,170 6,180 6,190 6,200 6,210 6,220 6,230 6,240 6,250 Valore centrale della classe Frequenza Frequenza Densità di assoluta percentuale frequenza xj (mm) fj fj fp = 100 n (%) 6,165 6,175 6,185 6,195 6,205 6,215 6,225 6,235 6,245 3 6 12 23 26 21 11 6 2 2,73 5,45 10,91 20,91 23,64 19,09 10,00 5,45 1,82 fp x 0,273 0,545 1,091 2,091 2,364 1,909 1,000 0,545 0,182 Frequenza cumulata percentuale j fk n 100 (%) k=1 2,73 8,18 19,09 40,00 63,64 82,73 92,73 98,18 100,00 21 Rappresentazione della DENSITA’ DI PROBABILITA’ 22 Nell’esempio precedente per ognuna delle classi Gi è possibile definire la probabilità pi che una misura qualsiasi ricada nell’intervallo della classe i-esima vale: fi p i lim n n NOTA: il limite può andare ad infinito oppure N nel caso di popolazioni con numero limitato di possibili elementi 23 La densità di probabilità viene espressa con l’andamento delle probabilità pi in funzione delle k classi. La rappresentazione della densità di probabilità può essere fatta o con l’istogramma delle frequenze o con il poligono delle frequenze, cioè mediante k punti discreti. 24 Per variabili discrete valgono le seguenti relazioni: K t p i 1; p s,t i1 k pi xi i1 pi i s k pi (xi ) 2 2 i1 ps,t rappresenta la probabilità cumulata delle classi da s a t ovvero del verificarsi che : xs x xt 25 Frequenza_relativa [%] 10% = Percentuale di dati con valore compreso in questa classe 24 22 20 18 16 14 12 10 8 6 4 2 0 6.165 6.245 valore centrale della classe 26 Poligono delle frequenze Frequenza relativa [%] G1 24 22 20 18 16 14 12 10 8 6 4 2 0 6.16 6.17 6.18 6.19 6.20 6.21 6.22 6.23 6.24 6.25 x [mm] 27 Un diagramma di tipo diverso si ottiene rappresentando le frequenze cumulate. In corrispondenza al limite superiore di ogni classe si riporta la frequenza relativa percentuale dei dati che hanno una misura inferiore a quel limite. 28 Frequenze cumulate percentuali 100 90 80 N å (f ) = 100 i =1 p i 70 60 50 k=4 40 k dati che assumono valori å (f ) = %minori di x 30 20 i =1 p i k 10 0 6.17 6.18 6.19 6.20 6.21 6.22 6.23 6.24 6.25 limite superiore della classe mm 29 distribuzione di Gauss Frequenza relativa 24 frequenza relativa 22 20 18 16 14 12 10 8 6 4 2 0 6.16 6.17 6.18 6.19 6.20 6.21 6.22 6.23 6.24 6.25 x (mm) 30 LE DISTRIBUZIONI DI PROBABILITA’ 31 Variabili continue 32 Nell’esempio precedente se si considera lo spessore del dado che quindi è una variabile continua. Ogni valore dell’altezza è possibile e la distribuzione di probabilità è rappresentata da una funzione continua. 33 LA DISTRIBUZIOINE GAUSSIANA NORMALE E TEOREMA DEL LIMITE CENTRALE 34 PDF (Probability Density Function) gaussiana (o normale) 1 f(x) e 2 2 x 2 2 f (x) 1 s 2p Quanto più è ampio sigma tanto più è distribuita e bassa la PDF 35 Perché il modello gaussiano di probabilità è sovente impiegato nell’ingegneria? 36 Il teorema del limite centrale afferma che la distribuzione delle medie tende ad essere normale anche se la distribuzione di origine non lo è. 37 Inoltre, come è evidente dall’animazione la distribuzione della media gode delle seguenti due proprietà: 1. Ha la stessa media (la distribuzione non si ‘sposta’) 2. Ha una deviazione standard minore (la distribuzione si ‘stringe’) pari a: / √n 38 Esempio: distribuzione della variabile somma probabilità di aB = aA = bB = bA = 50% probabilità di aB + bB = 25% probabilità di aB + bA = 25% probabilità valore basso = 25% probabilità valore medio = 50% probabilità di aA + bB = 25% probabilità di aA + bA = 25% probabilità valore alto = 25% Distribuzione di ‘a’ Distribuzione di ‘a+b’ aB aA Distribuzione di ‘b’ bB bA 39 Il teorema limite centrale afferma che la distribuzione gaussiana permette di descrivere in maniera soddisfacente tutti quei fenomeni fisici caratterizzati dalla sovrapposizione di un elevato numero di effetti deboli indipendenti aventi loro natura statistica a media nulla. 40 Conseguenza di tale teorema è che nel caso in cui si abbia un fenomeno dato dalla sovrapposizione di numerosi effetti, nonostante singolarmente siano dotati di distribuzione non gaussiana, il fenomeno complessivo sarà normalmente distribuito, purché essi siano indipendenti e nessuno degli effetti sia prevalente Dal momento che i fenomeni del mondo reale sono spesso il risultato del contributo di molti eventi casuali non osservabili, questo teorema fornisce una spiegazione per la prevalenza ‘in natura’ della distribuzione di probabilità normale. 41 Data una distribuzione qualsiasi di risultati di un processo di misurazione che abbia media e scarto quadratico Anche ipotizzando PDF non gaussiana, se si estraggono non singole misure ma campioni sufficientemente numerosi, n > 5 - 6 , la distribuzione delle medie delle misure segue quasi fedelmente la legge di distribuzione normale (di Gauss) … QUINDI SI CONOSCE LA VARIABILITA’ ED E’ POSSIBILE QUANTIFICARE GLI INTERVALLI DI CONFIDENZA !!! 42 Inoltre la media di tali medie è ancora m e lo scarto quadratico si riduce a: s( x ) = s( x ) n E QUINDI MIGLIORA L’ACCURATEZZA !!! … per questo motivo è sempre opportuno ripetere più volte una misura e prendere come migliore stima il valore medio !!! 43 DISTRIBUZIONE CUMULATA E DISTRIBUZIONE NORMALE STANDARD 44 Distribuzione normale standard Il valor medio è nullo e la varianza è pari ad 1 2 f (z) x - 1 z= e f(z) 2 z 2 0 5 45 Frequenze cumulate F(z) = p(zi z) 1 0.9 0.8 0.7 Grafico delle Frequenze cumulate 0.6 0.5 0.4 0.3 0.2 0.1 0 -3 -2 -1 0 1 2 z 3 Il valor medio è in corrispondenza del 50% di probabilità cumulata 46 Utilità della funzione cumulata: 1 F(z2) 0.9 0.8 F(z) = p(zi z) 0.7 0.6 0.5 0.4 0.3 F(z1) 0.2 0.1 0 -3 -2 -1 0 z1 1 2 z2 z 3 p(zi [z1,z2]) = p(zi < z2) - p(zi < z1) p(zi [z1,z2]) = F(z2) - F(z1) 47 Nota sulla relazione di prima: Si può dire in due modi diversi lo stesso concetto: - la probabilità che il valore appartenga all’intervallo è pari alla probabilità che sia inferiore all’estremo superiore e superiore all’estremo inferiore - la probabilità che il valore appartenga all’intervallo è pari alla probabilità che sia inferiore all’estremo superiore ma non inferiore all’estremo inferiore p(zi [z1,z2]) = p(zi < z2) - p(zi < z1) 48 1 p(zi >z) 0.9 p(zi [z1,z2]) = F(z2) - F(z1) Usando la variabile non normalizzata 0.8 0.7 0.6 0.5 0.4 p(zi<z) = F(z) 0.3 p(xi [, ]) = F() F() = F(z=1) - F(z=-1) 0.2 0.1 0 -3 z -2 -1 0 1 2 3 p( x ) 0.680 p( x 2 ) 0.950 p( x 3 ) 0.997 z 49 5 1 Oppure, ad esempio: p( z i < z ) + p( z i > z ) = 1 Þ p( z i < z ) = 1- p( z i > z ) p( z i > z ) = 1- p( z i < z ) p(zi >z) 0.9 0.8 0.7 0.6 0.5 0.4 p(zi<z) = F(z) 0.3 0.2 F ( z ) = p( z i < z ) Þ 0.1 F ( z ) = 1- p( z i > z ) Þ 0 -3 z -2 -1 0 1 2 3 p( z i > z ) = 1- F ( z ) La distribuzione normale è simmetrica: p( z i > z) = 2 * p( z i > z) = 2 * (1- F ( z)) z 50 5 Esempio: - supponiamo di voler misurare la temperatura - al fine di associare l’intervallo di confidenza alla misura ottenuta si opera come segue: -1: si effettuano un numero N, limitato, di ripetizioni (circa 20 ad esempio) -2: si calcola da tale campione statistico media Tm e deviazione standard Sm -3: il risultato sarà pari a Tm ± 2Sm/√N (95% lc) NOTA: tale risultato vale anche se il fenomeno aleatorio associato alla misura non è gaussiano 51