Università di Padova Dipartimento di Tecnica e Gestione dei sistemi industriali Corso di Laurea Specialistica in Ingegneria Civile Elaborato di analisi statistica a.a. 2005-2006 Prof. L. Salmaso Dott. L. Corain INDICE 1) STATISTICA A 1 CAMPIONE....................................................................................................... 1.1)Statistica descrittiva ad un campione: tabella ed istogramma di frequenza, indici di sintesi ...... 1.2)Statistica inferenziale ad un campione sulla media: intervallo di confidenza, verifica di ipotesi ............................................................................................................................................................ 1.3) Statistica inferenziale ad un campione sulla proporzione: intervallo di confidenza, verifica di ipotesi ................................................................................................................................................. 2) STATISTICA A 2 CAMPIONI ........................................................................................................ 2.1) Statistica descrittiva a due campioni: tabella e poligoni di frequenza, confronto principali indici di sintesi ................................................................................................................................... 2.2) Statistica inferenziale a due campioni sulle medie: verifica di ipotesi sulle varianze, verifica di ipotesi sulla differenza delle medie................................................................................................ 2.3) Statistica inferenziale a due campioni sulle proporzioni: test Z, test Chi-quadro ...................... 3) STATISTICA A C CAMPIONI ....................................................................................................... 3.1) Anova 1 via ................................................................................................................................. 3.2) Regressione lineare multipla....................................................................................................... 1) STATISTICA A 1 CAMPIONE 1.1) Statistica descrittiva Il primo passo dell’esercitazione consiste nell’estrazione dei dati dal dataset. Il campione a cui facciamo riferimento per la nostra analisi è quello dei valori dei provini portati a rottura in prove interne per barre di acciaio di diametro 16mm. Con gli strumenti della statistica descrittiva andiamo a rappresentare il campione: Interne rottura diam 16 613 612 617 622 603 613 615 609 623 621 587 592 617 604 573 583 595 619 616 591 Descriptive Statistics: Interne rottura diam 16 Variable Interne N 20 Mean 606,25 Median 612,50 TrMean 607,17 Variable Interne Minimum 573,00 Maximum 623,00 Q1 592,75 Q3 617,00 StDev 14,58 Tabella di frequenza Snervamento Intervallo 572,5-575,5 575,5-582,5 582,5-587,5 587,5-592,5 592,5-597,5 597,5-602,5 602,5-607,5 607,5-612,5 612,5-617,5 frequenza assoluta 1 0 2 2 1 0 2 2 6 % 5 0 10 10 5 0 10 10 30 SE Mean 3,26 617,5-622,5 622,5-627,5 totale complessivo 3 1 20 15 5 100 Descriptive Statistics Variable: C1 C2: 16 Anderson-Darling Normality Test A-Squared: P-Value: 575 585 595 605 615 625 95% Confidence Interval for Mu 0,808 0,030 Mean StDev Variance Skewness Kurtosis N 606,250 14,578 212,513 -8,6E-01 -3,0E-01 20 Minimum 1st Quartile Median 3rd Quartile Maximum 573,000 592,750 612,500 617,000 623,000 95% Confidence Interval for Mu 599,427 595 605 615 613,073 95% Confidence Interval for Sigma 11,086 21,292 95% Confidence Interval for Median 95% Confidence Interval for Median 596,882 616,765 Dai grafici ottenuti possiamo ricavare numerose informazioni sul campione. Esso presenta asimmetria negativa, cioè abbiamo che la media risulta essere minore della mediana. Ciò si può rilevare dall’indice di Skewness e dalla forma della curva. Il test di normalità Anderson-Darling ci dice che, assumendo un indice di significatività pari ad alpha=0.05 la distribuzione non può essere assunta normale, grazie al confronto col p-value. Tra i grafici troviamo anche il Boxplot, con cui possiamo avere un’idea immediata di quali sono il valore centrale e la varianza del nostro campione. Nella “scatola” è contenuto il 50% dei nostri dati e la linea all’interno indica il valore della mediana; i due valori estremali del contenitore sono detti primo e terzo interquartile. 1.2) Statistica inferenziale ad un campione sulla media: intervallo di confidenza, verifica di ipotesi rispetto al valore assegnato (colonna "1 sample test mean", alternativa a due code) One-Sample T: Interne rottura diam 16 Test of mu = 610 vs mu not = 610 Variable Interne rott N 20 Mean 606,25 StDev 14,58 SE Mean 3,26 Variable Interne rott ( 95,0% CI 599,43; 613,07) T -1,15 P 0,264 Histogram of C9 (with Ho and 95% t-confidence interval for the mean) 8 Frequency 6 4 2 0 [ 570 580 590 600 _ X Ho 610 ] 620 C9 Abbiamo svolto una verifica di ipotesi sulla media del campione. Non è stato possibile rifiutare l’ipotesi nulla perché il valore del p-value è 0,264>0,05, quindi si può fare inferenza sul parametro media della popolazione dicendo che esso assume il valore 610 (assumendo la significatività considerata). E’ stato condotto un test-t perché la varianza della popolazione è incognita. Statistica test T0 = X − μ0 S n S è la varianza campionaria, quindi una stima di quella reale incognita. Essa sarà tanto migliore quanto più grande è la numerosità campionaria (per n>30 molto buona) e si avvicinerà pertanto al test Z; rispetto alla distribuzione normale la T-student ha le code più importanti. Minitab ha costruito l’intervallo di confidenza e mostra graficamente che il valore dell’ipotesi nulla cade dentro di esso. 1.3) Costruire una tabella che calcoli la proporzione di campioni "non di qualità" in base alla soglia assegnata (colonna "no quality threshold") Interne rottura diam 16 Test qualità(>600) 613 612 617 622 603 613 615 609 623 621 587 592 617 604 573 583 595 619 616 591 conforme conforme conforme conforme conforme conforme conforme conforme conforme conforme non conforme non conforme conforme conforme non conforme non conforme non conforme conforme conforme non conforme 6 TOTALE non conformi In questa tabella sono riassunti i valori del campione messi a confronto con la quantità di soglia, che per la nostra esercitazione è pari a 600; solo i valori di rottura maggiori di questa quantità sono conformi. 1.4) Statistica inferenziale ad un campione sulla proporzione: intervallo di confidenza, verifica di ipotesi rispetto al valore assegnato Test and CI for One Proportion Test of p = 0,3 vs p > 0,3 Sample 1 X 6 N 20 Sample p 0,300000 95,0% Lower Bound 0,139554 Exact P-Value 0,584 Abbiamo studiato la proporzione di barre non conformi, andando a costruire l’intervallo di confidenza, e quindi svolgendo la verifica di ipotesi H 0 : p=0.3 e H 1 : p>0.3. Usiamo come statistica test Z0 = X − np 0 np0 (1 − p0 ) sulla popolazione binomiale conforme/non conforme. Il test è a una coda, infatti l’ipotesi alternativa ammette solo un confronto unilaterale (>). Il p-value ci dice che l’ipotesi nulla non può essere rifiutata perché esso risulta essere >0,05, pertanto la probabilità di trovare barre non conformi si può assumere non maggiore del 30%. 2) STATISTICA A 2 CAMPIONI 2.1) La seconda parte dell’esperienza consiste nell’estrarre dal dataset i dati relativi alla rottura in prove interne per il diametro di barra 10 mm e nel confronto col campione precedente. Interne rottura diam 10 Interne rottura diam 16 590 605 609 631 623 601 610 589 598 598 591 612 613 617 604 604 598 601 595 592 613 612 617 622 603 613 615 609 623 621 587 592 617 604 573 583 595 619 616 591 Andando ad analizzare con la statistica descrittiva il secondo campione: Descriptive Statistics Variable: Diametro 10 Anderson-Darling Normality Test A-Squared: P-Value: 590 600 610 620 630 Mean StDev Variance Skewness Kurtosis N Minimum 1st Quartile Median 3rd Quartile Maximum 95% Conf idence Interv al f or Mu 0,315 0,517 604,050 11,255 126,682 0,758186 0,278499 20 589,000 595,750 602,500 611,500 631,000 95% Conf idence Interv al f or Mu 598,782 600 605 610 609,318 95% Conf idence Interv al f or Sigma 8,560 16,439 95% Conf idence Interv al f or Median 95% Conf idence Interv al f or Median 598,000 609,765 Possiamo fare un confronto col precedente: • Per questo campione si può assumere una distribuzione approssimatamente normale, infatti il test di normalità Anderson Darling ci fornisce un p-value di 0,517 e quindi non è possibile rifiutare l’ipotesi nulla; • A differenza del primo, questo campione presenta asimmetria positiva, ossia il valore della media è maggiore di quello della mediana; • Il secondo campione presenta un range interquartile meno esteso rispetto al precedente, ciò significa che i valori si concentrano più vicini alla mediana; • Anche la varianza è molto maggiore (126 contro 212) testimoniando ancora la maggior vicinanza dei dati al valor medio; • I due indici di Skewness dei campioni differiscono di segno, infatti il primo presenta asimmetria negativa, il secondo positiva. 2.2)Statistica descrittiva a due campioni: tabella e poligoni di frequenza, confronto principali indici di sintesi Usiamo gli strumenti della statistica descrittiva per confrontare le caratteristiche delle distribuzioni dei due campioni. Possiamo notare come la loro media sia piuttosto simile, ma il valore delle mediane è piuttosto lontano; ciò accade a causa della forte asimmetria del campione avente 16 come diametro. Dai boxplots si può notare come il nuovo campione sia distribuito simmetricamente, a differenza dell’altro. Descriptive Statistics: 10 vs 16 Variable C1 C2 10 16 N 20 20 Mean 604,05 606,25 Median 602,50 612,50 TrMean 603,39 607,17 StDev 11,26 14,58 Variable C1 C2 10 16 SE Mean 2,52 3,26 Minimum 589,00 573,00 Maximum 631,00 623,00 Q1 595,75 592,75 Q3 611,50 617,00 Boxplots di Rottura per Diametro 630 Rottura 620 610 600 590 580 16 10 570 Diametro Dotplots di rottura per diametro 630 610 600 590 580 16 570 10 Rottura 620 Diametro 2.3) Statistica inferenziale a due campioni sulle medie: verifica di ipotesi sulle varianze, verifica di ipotesi sulla differenza delle medie Vogliamo confrontare le due popolazioni, e in particolare le medie. Prima di tutto, visto che le varianze delle popolazioni non sono conosciute, andiamo a svolgere un test per verificare l’ipotesi di uguaglianza. Questo viene effettuato dal programma con il Levene’s test e la statistica test f a una coda. L’ipotesi nulla e quella alternativa sono: H 0 : σ 12 = σ 22 H 1 : σ 12 ≠ σ 22 Test for Equal Variances for -rottura95% Confidence Intervals for Sigmas Factor Levels 10 16 8 13 18 23 F-Test Levene's Test Test Statistic: 0,596 Test Statistic: 0,811 P-Value P-Value : 0,268 : 0,373 Boxplots of Raw Data 10 16 570 580 590 600 610 620 630 -rottura- Abbiamo quindi verificato l’uguaglianza delle varianze, infatti il valore del p-value supera quello della soglia di significatività. Pertanto andiamo ad effettuare un test sulle medie, tenendo conto del risultato appena ottenuto. Ipotesi nulla e alternativa sono rispettivamente: H 0 : μ1 = μ 2 H 1 : μ1 ≠ μ 2 La statistica test che useremo è : T= X 1 − X 2 − ( μ1 − μ 2 ) Sp 1 1 + n1 n 2 Dove Sp è lo stimatore pooled della varianza, calcolato proporzionalmente alle varianze e alle numerosità campionarie. Two-Sample T-Test and CI: -rottura-; -diametroTwo-sample T for -rottura-diametr 10 16 N 20 20 Mean 604,1 606,3 StDev 11,3 14,6 SE Mean 2,5 3,3 Difference = mu (10) - mu (16) Estimate for difference: -2,20 95% CI for difference: (-10,54; 6,14) T-Test of difference = 0 (vs not =): T-Value = -0,53 Both use Pooled StDev = 13,0 P-Value = 0,596 DF = 38 Boxplots of -rottura by -diametr (means are indicated by solid circles) 630 620 -rottura- 610 600 590 580 570 10 16 -diametro- Il p-value 0,596>0,05 ci dice che bisogna accettare l’ipotesi nulla; si può pertanto assumere uguaglianza delle medie per le due popolazioni. μ1 = μ 2 μ1 = media pop. φ16 μ 2 = media pop. φ10 Anche graficamente si può vedere la vicinanza delle medie (dal grafico dei boxplot). 2.4) Statistica inferenziale a due campioni sulle proporzioni: test Z, test Chi-quadro 3) STATISTICA A CAMPIONI Vogliamo studiare la tensione di rottura avendo a disposizione 5 campioni di provini di barre di acciaio aventi diverso diametro. Abbiamo pertanto un fattore (il diametro) con cinque diversi livelli di trattamento. Costruire una tabella di riepilogo con media e dev. std. della variabile di interesse, rispetto a tutti i gruppi Diam 10 Diam 12 Diam 14 Diam 16 Diam 18 590 580 617 613 621 605 581 623 612 620 609 598 589 617 615 631 597 627 622 620 623 586 593 603 633 601 574 605 613 622 610 580 571 615 621 589 584 601 609 623 598 614 600 623 607 598 580 576 621 634 591 595 614 587 631 612 606 616 592 629 613 613 607 617 640 617 623 625 604 626 604 593 606 573 602 604 606 623 583 618 598 591 606 595 619 601 597 593 619 614 595 634 598 616 605 592 631 599 591 621 604,05 598,15 604,45 606,25 621,05 Media Deviazione standard 11,25529 17,59269 15,46635 14,57783 9,681643 Dotplots of Rottura by Diametro 640 630 Rottura 620 610 600 590 580 18 16 14 12 Diametro 10 570 Boxplots of Rottura by Diametro 640 630 Rottura 620 610 600 590 580 18 16 14 12 Diametro 10 570 Dai grafici riportati si possono valutare a colpo d’occhio la tendenza centrale, la dispersione e l’allontanamento dalla simmetria dei valori dei nostri cinque campioni. 3.1) ANOVA UNA VIA L’analisi della varianza (anova) si utilizza per confrontare le medie quando vi sono più livelli di un singolo fattore. Nel nostro caso abbiamo valori di tensioni di rottura ottenute per cinque diversi diametri delle barre di acciaio; il nostro fattore di interesse è pertanto il diametro e siamo in presenza di cinque trattamenti. Se vi fossero solo due metodi di trattamento, l’esperimento potrebbe essere analizzato usando il test t a due campioni, come abbiamo fatto in precedenza. I risultati ottenuti nella tabella precedente possono essere descritti per mezzo del seguente modello statistico lineare y ij = μ + τ i + ε ij µ= media generale della variabile risposta τ i = effetto sulla media dell’i-esimo livello del fattore (i=1,2,3,4,5) ε ij = errore casuale Gli effetti dei trattamenti sono definiti come scarti dalla media generale µ, pertanto vale la seguente uguaglianza: a ∑τ i =1 i =0 Lo scopo di questo test è di verificare l’uguaglianza tra le medie μ i e questo equivale ad una verifica di ipotesi per l’ipotesi nulla: Ho : τ 1 = τ 2 = ... = τ a = 0 L’ipotesi alternativa viceversa risulta essere che almeno uno dei τ i sia non nullo e quindi la variazione dei livelli del fattore non influenza la risposta media. L’analisi della varianza suddivide la variabilità dei dati in due parti: una considera la distanza della media per un trattamento dalla media generale, e l’altra invece la differenza dei dati dalla media del proprio specifico trattamento, e quindi dovuta all’errore casuale. SS T = SS Trattamenti + SS E Dividendo per i gradi di libertà definiamo le seguenti quantità: MS Trattamenti = SS Trattamenti /(a − 1) media quadratica MS E = SS E /[ a (n − 1)] errore quadratico medio Che ci servono per la verifica di ipotesi per cui useremo la statistica test F: MS Trattamenti MS E e potremo rifiutare l’ipotesi nulla se essa cade nell’intervallo fo > f α ,a −1,a ( n −1) ossia i livelli dei Fo = fattori influenzano la variabile risposta. Col software Minitab abbiamo ottenuto questi risultati: One-way ANOVA: Rottura versus Diametro Analysis of Variance for Rottura Source DF SS MS Diametro 4 5825 1456 Error 95 18651 196 Total 99 24477 Level 10 12 14 16 18 N 20 20 20 20 20 Mean 604,05 598,15 604,45 606,25 621,05 Pooled StDev = StDev 11,26 17,59 15,47 14,58 9,68 14,01 F 7,42 P 0,000 Individual 95% CIs For Mean Based on Pooled StDev ---------+---------+---------+------(-----*-----) (-----*-----) (-----*------) (-----*-----) (-----*-----) ---------+---------+---------+------600 610 620 Fisher's pairwise comparisons Family error rate = 0,281 Individual error rate = 0,0500 Critical value = 1,985 Intervals for (column level mean) - (row level mean) 10 12 14 12 -2,90 14,70 14 -9,20 8,40 -15,10 2,50 16 -11,00 6,60 -16,90 0,70 -10,60 7,00 18 -25,80 -8,20 -31,70 -14,10 -25,40 -7,80 16 -23,60 -6,00 Dalla nostra analisi risulta pertanto che i diversi trattamenti influenzano la media; il p-value viene infatti segnato come 0. Uno strumento che ci da Minitab per la comparazione diretta tra due campioni è la Fisher pairwise comparisons: nella matrice che si crea se l’intervallo derivante dal confronto tra un campione e l’altro comprende lo 0, allora non posso rifiutare l’ipotesi nulla e pertanto le medie sono uguali. Nel nostro caso si può vedere come il campione avente diametro 18 si discosti da tutti gli altri. Ora andiamo a verificare l’adeguatezza del modello con i grafici: Histogram of the Residuals (response is Rottura) Frequency 20 10 0 -40 -30 -20 -10 0 10 20 30 40 Residual Residuals Versus the Fitted Values (response is Rottura) 40 30 Residual 20 10 0 -10 -20 -30 -40 600 610 620 Fitted Value Residuals Versus the Order of the Data (response is Rottura) 40 30 Residual 20 10 0 -10 -20 -30 -40 10 20 30 40 50 60 Observation Order 70 80 90 100 Normal Probability Plot of the Residuals (response is Rottura) 3 Normal Score 2 1 0 -1 -2 -3 -40 -30 -20 -10 0 Residual 3.2) REGRESSIONE LINEARE MULTIPLA SiO2 CaO TiO2 Al2O3 K2O 57,86 4,44 1,01 21,11 2,1 53,98 3,14 0,89 24,67 3,91 62,83 1,99 0,88 17,94 2,38 52,6 1,32 0,95 26,14 3,44 55,35 0,89 0,93 25,53 4,03 57,87 0,51 0,95 23,41 3,29 52,85 1,04 1 26,53 3,58 54,19 0,92 0,96 26,6 4,06 53,98 1,05 0,97 26,81 4,12 52,9 1,39 0,99 27,54 4,02 55,56 1,02 0,94 25,77 4,16 51,59 1,22 1,06 29,31 3,39 53,55 1,06 0,96 26,88 4,09 52,58 3,27 0,84 23,44 3,88 57,92 6,75 0,96 18,24 2,03 55,99 0,99 0,97 25,71 4,06 60,48 1,19 0,94 22,38 3,32 59,68 1,16 1 21,87 3,36 56,78 1,14 1,02 24,97 3,56 57,5 0,98 0,91 23,88 3,92 53,6 0,86 0,94 25,53 4,09 54,53 1,67 0,89 25,13 4,06 56,83 2,3 0,95 23,63 3,68 56,94 1,03 0,98 25,52 3,9 47,84 6,54 0,72 20,44 3,6 60,26 1,06 0,93 21,72 3,09 59,03 4,88 0,97 18,52 1,99 61,7 4,38 0,91 18,33 2,07 60,39 0,57 0,91 21,84 3,15 57,79 4,85 1 20,79 1,94 62,49 2,25 0,84 17,17 2,27 60,18 1,7 0,8 20,91 3,74 57,3 5,44 1,04 20,97 2,11 10 20 30 40 52,27 1,94 0,97 26,94 3,92 La regressione lineare multipla consiste nel trovare una relazione lineare tra una variabile risposta dipendente e delle variabili indipendenti, dette regressori; formalizzando: Y = β 0 + β 1 x1 + ... + β n x n +εi Y variabile risposta β 0 valore dell’intercetta β k coefficiente di regressione, ε i termine di errore casuale La nostra esercitazione consiste nello svolgere una regressione lineare multipla sui componenti di un tipo di ceramica. Bisogna selezionare le variabili significative e costruire il modello. Regression Analysis: SiO2 versus CaO; TiO2; Al2O3; K2O The regression equation is SiO2 = 72,5 - 1,40 CaO + 22,9 TiO2 - 1,58 Al2O3 + 0,701 K2O Predictor Constant CaO TiO2 Al2O3 K2O Coef 72,475 -1,4012 22,892 -1,5753 0,7011 S = 1,102 SE Coef 4,300 0,1556 5,414 0,1856 0,7953 R-Sq = 91,3% T 16,86 -9,00 4,23 -8,49 0,88 P 0,000 0,000 0,000 0,000 0,385 R-Sq(adj) = 90,0% Analysis of Variance Source Regression Residual Error Total DF 4 29 33 SS 367,309 35,198 402,508 MS 91,827 1,214 F 75,66 P 0,000 Il primo modello costruito presenta tutte quattro le variabili; dal test-t risulta che una di queste non è significativa, e pertanto la scartiamo e costruiamo un nuovo modello con tre variabili. Regression Analysis: SiO2 versus CaO; TiO2; Al2O3 The regression equation is SiO2 = 75,2 - 1,46 CaO + 19,0 TiO2 - 1,43 Al2O3 Predictor Constant CaO TiO2 Al2O3 Coef 75,246 -1,4650 18,950 -1,42861 SE Coef 2,923 0,1373 3,042 0,08193 T 25,74 -10,67 6,23 -17,44 P 0,000 0,000 0,000 0,000 S = 1,098 R-Sq = 91,0% R-Sq(adj) = 90,1% Analysis of Variance Source Regression Residual Error Total DF 3 30 33 SS 366,37 36,14 402,51 MS 122,12 1,20 F 101,37 P 0,000 La verifica mi dice che tutte le tre variabili sono significative, quindi posso fermare la procedura ed ho ottenuto il modello lineare che volevo. Minitab da la possibilità di selezionare automaticamente le variabili significative; basta impostare il programma sul metodo stepwise e lui produce un risultato uguale a quello da noi ottenuto. Stepwise Regression: SiO2 versus CaO; TiO2; Al2O3; K2O Backward elimination. Response is SiO2 Alpha-to-Remove: 0,05 on 4 predictors, with N = Step Constant 1 72,48 2 75,25 CaO T-Value P-Value -1,40 -9,00 0,000 -1,46 -10,67 0,000 TiO2 T-Value P-Value 22,9 4,23 0,000 19,0 6,23 0,000 Al2O3 T-Value P-Value -1,575 -8,49 0,000 -1,429 -17,44 0,000 K2O T-Value P-Value 0,70 0,88 0,385 S R-Sq R-Sq(adj) C-p 1,10 91,26 90,05 5,0 34 1,10 91,02 90,12 3,8 Ora per verificare il modello andiamo ad osservare i grafici dei residui: Histogram of the Residuals (response is SiO2) 8 7 Frequency 6 5 4 3 2 1 0 -2,5 -2,0 -1,5 -1,0 -0,5 -0,0 0,5 1,0 1,5 2,0 Residual I residui si distribuiscono approssimativamente in maniera normale. Nel grafico dei quantili per i residui possiamo notare un andamento lineare. Normal Probability Plot of the Residuals (response is SiO2) Normal Score 2 1 0 -1 -2 -2 -1 0 1 2 Residual Gli altri grafici ci mostrano che sono verificate l’omoschedasticità e l’indipendenza dei valori dei residui. Residuals Versus the Fitted Values (response is SiO2) 2 Residual 1 0 -1 -2 50 52 54 56 58 Fitted Value 60 62 64 Residuals Versus the Order of the Data (response is SiO2) 2 Residual 1 0 -1 -2 5 10 15 20 Observation Order 25 30