Metodi statistici e probabilistici per l’ingegneria Corso di Laurea in Ingegneria Civile A.A. 2009-10 Facoltà di Ingegneria, Università di Padova Docente: Dott. L. Corain STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 1 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 2 1 SOMMARIO DEFINIZIONE DI INFERENZA STATISTICHE E DISTRIBUZIONI CAMPIONARIE STIMA PUNTUALE STIMA INTERVALLARE VERIFICA DI IPOTESI CARTE DI PROBABILITÀ STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 3 INFERENZA L’inferenza statistica può essere definita come la disciplina che utilizza l’informazione campionaria, per fare delle affermazioni sulla popolazione da cui il campione è stato tratto, in particolare sui parametri della distribuzione della popolazione stessa (solitamente µ e σ, vedere “La rappresentazione e la sintesi dei dati”) . Le affermazioni della statistica inferenziale sono di due tipi: 9 STIMA: si vuole indicare un valore plausibile per il parametro della popolazione, sotto una delle 2 forme: 1. un valore ben definito (STIMA PUNTUALE) 2. un intervallo in cui molto verosimilmente il parametro sia incluso (STIMA INTERVALLARE) 9 VERIFICA DI IPOTESI: indicare quale tra due specifiche ipotesi sul parametro (nulla o alternativa) sia da accettare STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 4 2 INFERENZA SUI PROCESSI PRODUTTIVI Si è visto come le distribuzioni di probabilità consentono di modellare e descrivere un fenomeno/processo di interesse. In relazione a questo obiettivo tuttavia, non è realistico pensare di conoscere i parametri che regolano tali fenomeni/processi e quindi è necessario ricorrere all’inferenza per stimare tali parametri e per risolvere dei problemi decisionali che li riguardano. Ad esempio non è plausibile che sia possibile conoscere con esattezza o una dimensione media di una variabile numerica critica dal punto di vista delle prestazioni/qualità di un materiale, prodotto o processo o la frazione di unità non conformi, non idonee o difettose presenti in un processo di fabbricazione o la capacità di processo di rispondere alle specifiche di progettazione STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 5 STATISTICHE E DISTRIBUZIONI CAMPIONARIE I metodi inferenziali presuppongono che il campione di dati (x1,..., xn), ottenuto dalla popolazione di interesse, sia un campione casuale, cioè ottenuto in modo che le osservazioni {xi} siano indipendenti ed identicamente distribuite (IID). Ogni funzione dei dati campionari, che non contiene parametri ignoti, viene definita statistica. La media e la varianza campionaria (e la deviazione std), oltre a essere indici descrittivi della tendenza centrale e della variabilità del campione, sono esempi di statistiche. Notiamo che le statistiche, in quanto funzioni di v.a. sono loro stesse v.a. Se conosciamo la legge di distribuzione della popolazione dalla quale è preso il campione, possiamo determinare la legge di distribuzione della statistica, detta distribuzione campionaria. STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 6 3 CAMPIONAMENTO CAMPIONAMENTO DA DISTRIBUZIONE NORMALE Come conseguenza delle proprietà della distribuzione di una combinazione lineare di v.a. normali, se x=(x1,..., xn), è un campione casuale di numerosità n, estratto da una v.a. X normale con media µ e varianza σ 2, allora la media campionaria X ∼ N(µ , σ 2/n). CAMPIONAMENTO DA ALTRE DISTRIBUZIONI In virtù del Teorema del Limite Centrale, senza riferimento al tipo di distribuzione della popolazione, la legge di distribuzione della media campionaria sopra citata è ancora approssimativamente valida: d σ2 X → N µ, n Il grado di approssimazione dipende dalla particolare forma della distribuzione di X: più è simmetrica migliore è l’approssimazione. STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 7 CAMPIONAMENTO DA DISTRIBUZIONE BERNOULLIANA STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 8 4 CAMPIONAMENTO DA DISTRIBUZIONE DI POISSON STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 9 STIMA DEI PARAMETRI DI UNA VARIABILE CASUALE Una variabile casuale è caratterizzata dalla sua legge di probabilità che è identificata dai suoi parametri. Dato un valore plausibile dei parametri, siamo in grado di descrivere e rappresentare un modello statistico per la caratteristica di interesse. Possiamo definire come stimatore di un parametro ignoto, la statistica (che è una variabili casuale) che corrisponde a tale parametro. Uno stimatore puntuale è una statistica che produce un singolo valore numerico. Un particolare valore numerico, ottenuto sulla base dei dati campionari, è detto stima. Uno stimatore intervallare è un intervallo casuale entro cui il vero valore del parametro cade con un livello di probabilità assegnata (livello di confidenza). Questi intervalli sono usualmente indicati come intervalli di confidenza. STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 10 5 PROPRIETÀ DI UNO STIMATORE Preso un campione casuale di n osservazioni da una v.c. X, la media campionaria x, la varianza campionaria s2, la deviazione standard campionaria s, sono rispettivamente stimatori puntuali della media della popolazione µ, della varianza della popolazione σ 2 e della deviazione standard della popolazione σ. Agli stimatori sono richieste alcune importanti proprietà, tra le quali le più rilevanti sono o non distorsione: il valore atteso (la media) dello stimatore deve essere uguale al parametro da stimare o minima varianza: (in qualità di v.c.) ad uno stimatore è richiesto di avere la minore variabilità possibile, rispetto a tra tutti i possibili stimatori del parametro o consistenza: al crescere della numerosità campionaria, la varianza dello stimatore deve tendere a zero STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 11 MEDIA, VARIANZA E DEVIAZIONE STANDARD CAMPIONARIE Mentre la media campionaria x e la varianza campionaria s2, sono stimatori non distorti della media della popolazione µ, della varianza della popolazione σ2, la deviazione standard campionaria s NON è uno stimatore non distorto della deviazione standard della popolazione σ. STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 12 6 INTERVALLI DI CONFIDENZA STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 13 INTERVALLI DI CONFIDENZA STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 14 7 INTERVALLI DI CONFIDENZA INTERVALLO DI CONFIDENZA DELLA MEDIA CON VARIANZA NOTA Furthermore, a 100(1 − α)% upper confidence bound on µ is whereas a 100(1 − α)% lower confidence bound on µ is STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 15 INTERVALLI DI CONFIDENZA INTERVALLO DI CONFIDENZA DELLA MEDIA CON VARIANZA IGNOTA Notiamo che la distribuzione di riferimento non è la normale, bensì la v.a. t di Student. STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 16 8 INTERVALLI DI CONFIDENZA INTERVALLO DI CONFIDENZA DELLA PROPORZIONE STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 17 INTERVALLI DI CONFIDENZA CONDIZIONI PER L’INFERENZA A DUE CAMPIONI STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 18 9 INTERVALLI DI CONFIDENZA DELLA DIFFERENZA DELLE MEDIE VARIANZE NOTE VARIANZE IGNOTE MA UGUALI STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 19 INTERVALLI DI CONFIDENZA DELLA DIFFERENZA DELLE MEDIE VARIANZE IGNOTE E DIVERSE STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 20 10 INTERVALLO DI CONFIDENZA DELLA DIFFERENZA DI DUE PROPORZIONI 21 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA VERIFICA D’IPOTESI Una ipotesi statistica è una affermazione sui parametri di una distribuzione di probabilità. Ipotesi Alternativa Ipotesi Nulla L’ipotesi nulla corrisponde allo “stato delle cose” che possiamo presumere vero se non sono intervenuti fattori di cambiamento. Ad esempio: “il processo è sotto controllo” o “il processo è conforme”. L’ipotesi alternativa corrisponde invece ad una eventuale situazione di allontanamento dall’ipotesi nulla che l’analista vorrebbe mettere in evidenza in caso si verificasse. L’ipotesi alternativa può essere bilateriale (simbolo “≠”, come nell’esempio) o unilateriale (simbolo “>” o ”<”, a seconda dell’interesse dell’analista). STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 22 11 ERRORE DI I° E II° TIPO STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 23 ERRORE DI I° E II° TIPO STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 24 12 PROCEDURA DECISIONALE La procedura decisionale per condurre una verificare di ipotesi consta dei seguenti passi: ¾ specificare l’ipotesi nulla e l’ipotesi alternativa di interesse ¾ considerare l’appropriata statistica (meglio detta “statistica test”) in relazione alle ipotesi di cui sopra ¾ fissare l’errore di I tipo α (detto anche “livello di significatività del test”) ad un valore accettabile; questa operazione identifica nella distribuzione della statistica test due regioni: la regione di accettazione e la regione di rifiuto (detta anche “regione critica”) ¾ in base ai dati campionari (ottenuti da un campione casuale IID dalla popolazione sotto indagine) calcolare il valore osservato della statistica test ¾ se tale valore appartiene alla regione critica si deve rifiutare l’ipotesi nulla, altrimenti apparterrà alla regione di accettazione e non si può rifiutare l’ipotesi nulla STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 25 IL P-VALUE NELLA PROCEDURA DECISIONALE In alternativa al considerare le due regioni di accettazione e rifiuto, è possibile prendere la decisione in base al p-value: Il p-value rappresenta la probabilità di osservare un valore della statistica test uguale o più estremo del valore che si calcola a partire dal campione, quando l’ipotesi H0 è vera. Il p-value è anche chiamato livello di significatività osservato, in quanto coincide con il più piccolo livello di significatività in corrispondenza del quale H0 è rifiutata. In base a questo approccio, la regola decisionale per rifiutare H0 è la seguente: ¾ Se il p-value è maggiore o uguale a α, l’ipotesi nulla non è rifiutata. ¾ Se il p-value è minore di α, l’ipotesi nulla è rifiutata. STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 26 13 UN ESEMPIO Consideriamo ad esempio il caso di una verifica di ipotesi sulla media (σ nota) dove la statistica test Z ha una distribuzione normale standard. In base ai dati campionari, il valore osservato della statistica test è +1.50. Naturalmente, la decisione presa in base alla regione di accettazione/rifiuto è coerente a quella presa in base alla regola del p-value (= 0.0668 × 2). STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 27 ANALOGIA TRA VERIFICA D’IPOTESI E INTERVALLI DI CONFIDENZA Pur rispondendo ad obiettivi e motivazioni sostanzialmente diverse, stima intervallare e verifica di ipotesi presentano molte analogie, tanto che queste due procedure inferenziali hanno come comune origine l’espressione della distribuzione di probabilità di una stessa statistica test. Prendiamo, ad esempio, il caso della verifica di ipotesi sulla media (σ nota) ed il corrisponde problema di stima intervallare di µ (σ nota): entrambe le procedure si riferiscono alla distribuzione normale standard della statistica Z (vedi slide seguente). Fissato il livello di significatività α ed il livello di confidenza a (1− α), si può facilmente verificare che il valore µ0 sotto ipotesi è compreso nell’intervallo di confidenza se e solo se l’ipotesi nulla viene accettata. Questo risultato è generalizzabile a tutte le altre procedure di stima intervallare e alla corrispondente verifica di ipotesi. STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 28 14 VERIFICA D’IPOTESI SULLA MEDIA (VARIANZA NOTA) H1 nell’equazione 3-22 rappresenta una ipotesi alternativa a due code (o bilaterale) La procedura per testare questa ipotesi consiste: considerare un campione casuale di n osservazioni della variabile casuale X, − calcolare la statistica test, e − rigettare H0 se |Z0| > Zα/2, dove Zα/2 è il percentile superiore a livello α/2 della distribuzione normale standard STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 29 VERIFICA D’IPOTESI SULLA MEDIA (VARIANZA IGNOTA) Per le ipotesi alternative a due code, rigettare H0 se |t0| > tα/2,n-1, dove tα/2,n-1, è il percentile superiore a livello α/2 della distribuzione t con n − 1 gradi di libertà Per l’ipotesi alternativa ad una coda, se H1: µ1 > µ0, rigettare H0 if t0 > tα,n − 1, e se H1: µ1 < µ0, rigettare H0 if t0 < −tα,n − 1 Si potrebbe inoltre calcolare il P-value del t-test STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 30 15 ESEMPIO STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 31 STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 32 ESEMPIO 16 ESEMPIO STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 33 VERIFICA D’IPOTESI SULLA PROPORZIONE STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 34 17 VERIFICA D’IPOTESI SULLA DIFFERENZE DI 2 MEDIE (VARIANZE NOTE) STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 35 VERIFICA D’IPOTESI SULLA DIFFERENZE DI 2 MEDIE (VARIANZE IGNOTE) VARIANZE IGNOTE MA UGUALI STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 36 18 VERIFICA D’IPOTESI SULLA DIFFERENZE DI 2 MEDIE (VARIANZE IGNOTE) VARIANZE IGNOTE E DIVERSE STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 37 VERIFICA D’IPOTESI SULLA DIFFERENZE DI 2 PROPORZIONI STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 38 19 VALUTAZIONE DELLA POTENZA DEL TEST STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 39 RELAZIONE TRA POTENZA DEL TEST E DIMENSIONE CAMPIONARIA STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 40 20 CURVA OPERATIVA CARATTERISTICA STATISTICHE, DISTRIBUZIONI CAMPIONARIE E INFERENZA 41 21