Recap on Measure Theory and Statistical Inference Carola Aiello [email protected] INDICE • Richiami di teoria della misura • Strumenti di Statistica Inferenziale Strumenti di statistica inferenziale Richiami di teoria della misura • “Non puoi controllare ciò che non puoi misurare” [T. De Marco, 1982] • Le misure si effettuano ad esempio per: • verificare l'aderenza di alcuni parametri di qualità a dei valori di riferimento (esterni/interni) • rilevare delle deviazioni relative alla pianificazione temporale/ allocazione di risorse • raccogliere vari indici di produttività • validare l'effetto di strategie tese a migliorare un processo produttivo (qualità/ produttività / aderenza alla pianificazione / controllo dei costi) • Nel processo di misura la fase progettuale assume la stessa importanza della fase di raccolta e di analisi dei dati vera e propria • Durante la fase progettuale devono essere chiariti i seguenti aspetti Definizione requisiti Selezione della metrica Definizione dei criteri di valutazione ...e solo in seguito MISURA Strumenti di statistica inferenziale Processo di misura Misura e analisi dei dati ISO/IEC 9126 Qualità del SW Definizione dei criteri di valutazione Rating (definizione dei livelli di riferimento) Le metriche forniscono valori quantitativi che non sono di per sé una valutazione della qualità, dobbiamo mappare i dati quantitativi su una scala qualitativa A carico dell’ organizzazione Strumenti di statistica inferenziale Qualità di una misura • Le misure, a loro volta, posseggono delle qualità che, in alcuni casi, è possibile quantificare in modo formale. − Affidabilità (reliability). L'affidabilità è relativa ai valori che si ottengono effettuando più volte la stessa misura. Se i valori ottenuti sono vicini tra loro la metrica è affidabile. Tipicamente si caratterizza questa qualità analizzando la varianza s2 di misure ripetute. Più piccolo è questo valore più la metrica è affidabile. − Validità (validity). La validità indica se la metrica misura effettivamente cosa vogliamo misurare. Per misure poco astratte (peso, volume) la validità coincide con l'accuratezza. Si noti che anche per misure poco astratte i concetti di affidabilità e validità sono differenti: un orologio fermo è perfettamente affidabile ma ha una validità molto ridotta... Affidabile ma non valida Strumenti di statistica inferenziale Valida ma non affidabile Affidabile e Valida Errori di misura (1) • Il risultato di un’operazione di misura è un numero reale x che esprime il valore vero (incognito) del fenomeno in esame ed è detto misura analitica • La successione delle operazioni effettuate per ottenere la misura, secondo un complesso di istruzioni che costituiscono il metodo analitico, è detta procedimento analitico. valore vero Θ misura X procedimento analitico • L’esperienza indica che, se si eseguono più misurazioni di una stessa quantità, raramente le misure coincidono I valori misurati (x) sono in genere diversi dal vero valore ( ) • La differenza tra il valore misurato e quello vero è detta errore totale (ET) X = misura Strumenti di statistica inferenziale valore vero + ET errore totale La Variabile Casuale Normale • E’ la distribuzione statistica più famosa ed utilizzata: • • si adatta bene alla rappresentazione grafica di moltissimi fenomeni reali; è fondamentale in inferenza statistica perché approssima molte altre distribuzioni di probabilità; • Anche detta: variabile casuale Gaussiana, curva di Gauss, Campana di Gauss, curva degli errori, curva a campana, ogiva. • “curva degli errori” perché che questa curva serve a rappresentare la legge con cui si distribuiscono gli errori di natura accidentale. • La formula matematica che descrive la funzione della densità di probabilità normale è la seguente: f (X ) 1 e 2 1 X 2 2 dove µ e σ rappresentano la popolazione media e lo scarto quadratico medio (o deviazione standard). • L'equazione della funzione di densità è costruita in modo tale che l'area sottesa alla curva rappresenti la probabilità. Perciò, l'area totale è uguale a 1. Strumenti di statistica inferenziale Distribuzione normale 1 X 1 f (X ) e 2 2 2 Errori di misura (2) • La misurazione non consente di determinare con certezza il vero valore della quantità misurata, ma produce stime la cui capacità di approssimare il vero valore (attendibilità) dipende dal metodo analitico e da come è stato eseguito il procedimento analitico. È necessario considerare la natura degli errori di misura ET = Egrossolani + Esistematici + Ecasuali Si prevengono con un’accorta organizzazione dell’analisi Costituiscono oggetto tipico della metodologia statistica Esistematici Influenzano la validità Ecasuali Influenzano l’affidabilità Strumenti di statistica inferenziale Ma qual è il legame tra statistica e misura? Strumenti di statistica inferenziale Esempio Per validare le ipotesi è necessario introdurre l'unità di analisi (componente o progetto), effettuare analisi statistiche (e.g., analisi della varianza), validare gli indicatori scelti, ovvero effettuare ed interpretare delle misure ESEMPIO: Se presso una software house ottenessimo i seguenti dati tramite 9 esperimenti (3 al 50%, 3 al 70%, 3 al 90%) : Copertura linee di codice Media errori trovati durante il test di sistema 50% 20/KLOC 70% 15/KLOC 90% 12/KLOC Senza una corretta analisi dei dati quale l'analisi della varianza (ANOVA) non potremmo essere sicuri della significatività statistica di quanto ottenuto Ad esempio se 20 è la media di {19, 20, 21}, 15 di {15, 15, 15}, e 12 di {11, 12, 13} ci sentiremmo abbastanza sicuri Se invece 20 è la media di {10, 10, 40}, 15 di {1, 4, 40} e 12 di {3, 3, 30}... Strumenti di statistica inferenziale Richiami di statistica descrittiva • Fornisce informazioni sintetiche sulla popolazione osservata nell’ipotesi di disporre di misurazioni che ne riguardano la totalità • Data una popolazione di N elementi (noti) su cui si effettua una misura (e.g., il peso delle persone in italia) {x1,...,xN}, si definiscono i seguenti parametri: − media m= (x1+ x2+... +xN)/N − varianza var=[(x1-m)2+ (x2-m)2 +...(xN-m)2]/N − spesso la varianza si indica con s2 − deviazione standard s=var1/2 − tipicamente gli N elementi si distribuiscono secondo una distribuzione normale (o gaussiana) Strumenti di statistica inferenziale Limiti della statistica descrittiva • Costi (economici e di tempo) • Popolazione non nota Strumenti di statistica inferenziale Richiami di statistica inferenziale • Si analizza una popolazione di M elementi (M non è noto) tramite un campione di N elementi {x1,...,xN} e si definiscono i seguenti parametri: − media m= (x1+ x2+... +xN)/N − varianza var=[(x1-m)2+ (x2-m)2 +...(xN-m)2]/(N-1) − deviazione standard σ=var1/2 − spesso la varianza si indica con σ2 − tipicamente gli elementi del campione si distribuiscono secondo una distribuzione normale (o gaussiana) − o, se così non è, si assume che lo sia… • L'inferenza statistica è il procedimento per cui si deducono le caratteristiche di una popolazione dall'osservazione di una parte di essa, detta campione Strumenti di statistica inferenziale Esempio (1) • Assumiamo, per semplicità espositiva, che in una software house si conducano attività di test per tre differenti percentuali prefissate: 50 %, 70%, 90% e che, per ciascuna di esse, siano stati osservati per un anno 5 pacchetti software. • Calcoliamo la media di DR ed otteniamo la seguente tabella Codice ispezionato (KT) Difetti Riscontrati (e/KLOC) − 50% 20 − 70% 15 − 90% 12 • Il problema è: le medie sono differenti, ma questo accade perchè effettivamente esiste una relazione tra KT e DR, oppure i dati vengono così, "per caso"? Strumenti di statistica inferenziale Esempio (2) KT DR − 50% 20 − 70% 15 − 90% 12 • L’osservazione acritica di questi dati porterebbe a concludere che l’aumento del KT implichi la diminuzione del DR • D’altra parte è possibile che le medie della popolazione complessiva (tutti i programmi sw del mondo) siano uguali, ossia che calcolando l'andamento di DR su un numero molto più alto di casi si scopra che KT non abbia nessuna influenza su DR Strumenti di statistica inferenziale Test statistici • Molto spesso nell’ambito della ricerca sperimentale è necessario confrontare tra loro serie di misure ripetute (es. confronto di risultati di due o più metodi) • Il confronto può essere condotto mediante appropriati test statistici (F di Fisher, t-Student, etc.) • I test statistici consistono nel mettere alla prova l’ipotesi formulata su certi parametri delle popolazioni (es. medie o varianze) e nel verificare se con i dati a disposizione è possibile rifiutarla o no: se il campione fornisce risultati fortemente in contrasto con l’ipotesi formulata, questa viene rifiutata in favore dell’ipotesi alternativa • Il test viene condotto fissando a priori la probabilità di errore che può essere commesso (α) Strumenti di statistica inferenziale Ipotesi statistica • Un’ipotesi statistica è una asserzione o supposizione sulla distribuzione di una o più variabili casuali e si indica con la lettera H • Generalmente si mettono a confronto due ipotesi, contrarie tra loro: • Ipotesi H0 (IPOTESI NULLA). Costituisce l’oggetto della verifica: specifica i valori dei parametri della popolazione da cui si suppone provenga il campione in esame H0: = 0 • Dove indica il parametro della popolazione e parametro che ci si attende. • 0 il Ipotesi H1 (IPOTESI ALTERNATIVA). È l’ipotesi contraria alla precedente H1: Strumenti di statistica inferenziale ≠ 0 Test di verifica delle ipotesi • Definizione: Un test di ipotesi è una regola attraverso la quale si decide se accettare o meno l'ipotesi formulata sulla base delle risultanze campionarie. • Se si indica con C l'universo dei campioni o spazio dei campioni, cioè l'insieme di tutti i possibili risultati campionari, un test delle ipotesi consiste nel bipartire l'insieme C in due sottoinsiemi disgiunti C0 e C1 = C – C0 in modo tale che si decida di rifiutare l'ipotesi H0 se il punto campionario cade in C1, di accettare l'ipotesi se il punto campionario cade in C0. • Lo spazio C1 di rifiuto di un'ipotesi viene usualmente detto regione critica, mentre si dice regione di accettazione lo spazio C0. Strumenti di statistica inferenziale Test di ipotesi DECISIONE REALTA’ Ho VERA Ho FALSA Accetto Ho Decisione giusta (1-α, Protezione) Errore di Tipo II (β) Rifiuto Ho Errore di Tipo I (α, significatività) Decisione giusta (1-β, Potenza) • Il test migliore minimizza la probabilità di commettere un errore di seconda specie β. Strumenti di statistica inferenziale Scelta dell’ipotesi nulla • La progettazione delle ipotesi è fondamentale nel processo di test • Per come è costruito il test, l’errore di I tipo è quello considerato più grave Strumenti di statistica inferenziale Significatività e potenza del test • La probabilità di commettere un errore di I tipo, e cioè la probabilità di rifiutare una ipotesi quando essa è vera, è indicata usualmente con α. • dove α viene detto livello di significatività del test e X rappresenta il punto campionario. • La probabilità di commettere un errore di II tipo, e cioè la probabilità di accettare un'ipotesi quando essa è falsa, è indicata con β ( Η1 ) • L’unico aspetto su cui possiamo intervenire è sul “confine” fra regione di accettazione e regione di Rifiuto Strumenti di statistica inferenziale Co Costruzione del test • Errore di Tipo I (α) − rappresenta la probabilità di fare un errore decidendo di rifiutare Ho cioè di affermare che vi è una differenza quando in realtà non esiste tale differenza. Viene generalmente posta ad un valore basso (α). • Errore di Tipo II (Errore β) − Rappresenta la probabilità di commettere un errore assumendo Ho vera anche quando in realtà è falsa. E’ la capacità del test di individuare l’ipotesi alternativa quando è vera. Dipende da α (α = 1- β). • Così posto il problema la migliore soluzione è rappresentata da un test che minimizzi simultaneamente le probabilità di commettere gli errori di I e di II tipo. Purtroppo, non è generalmente possibile perseguire un tale obbiettivo. La procedura che si segue generalmente è quella di fissare la misura della probabilità di commettere un errore di primo tipo (si stabilisce cioè il livello di significatività α) e nell'individuare poi il test che minimizza la probabilità di commettere un errore di II tipo. • In sintesi: fissato il livello di significatività α (arbitrariamente), si cerca il test più potente (test MP dall’inglese Most Powerful), cioè, quello che minimizza β • Se il test statistico dimostra che la probabilità α favore di Ho è inferiore ad α, si può affermare che fra le due misure esiste una differenza statisticamente significativa. Strumenti di statistica inferenziale ANalysisOfVAriance • L’analisi della varianza (ANOVA) è un insieme di tecniche statistiche facenti parte della statistica inferenziale utilizzato per la verifica d’ipotesi • e’ nato nell’ambito della ricerca sperimentale per valutare l’effetto di determinati fattori, variabili indipendenti - di tipo continuo o categoriale , sulla variabile dipendente - di tipo continuo. • assume nomi diversi a seconda di quante sono le variabili dipendenti e indipendenti: − anova ad una via (one-way) quando si ha una sola variabile dipendente e una sola variabile indipendente. − anova fattoriale quando si ha una sola variabile dipendente, ma piu’ variabili indipendenti. − manova (multivariate analysis of variance) quando c’e’ + di una dipendente e + di una indipendente. • Permette di confrontare due o più gruppi di dati confrontando la variabilità interna a questi gruppi con la variabilità tra gruppi • L’ipotesi nulla solitamente prevede che i dati di tutti i gruppi abbiano la stessa origine, ovvero la stessa distribuzione stocastica, e che le differenze osservate tra i gruppi siano dovute solo al caso • Il confronto si basa sull’idea che se la variabilità interna ai gruppi è relativamente elevata rispetto alla variabilità tra i gruppi, allora probabilmente la differenza tra questi gruppi è soltanto il risultato della variabilità interna. • Il più noto insieme di tecniche si basa sul confronto della varianza e usa variabili di test distribuite come la variabile casuale F di Snedecor • Requisiti: • Osservazioni di ogni trattamento devono essere distribuite normalmente • Varianza costante Strumenti di statistica inferenziale ANalysisOfVAriance • Il metodo utilizza il rapporto tra varianze ma lo scopo dell’analisi riguarda la verifica dell’ipotesi nulla tra medie. • Consiste nella scomposizione della varianza totale dell’esperimento in varianze parziali (corrispondenti a diverse e ben determinate fonti di variazione). • La fonte delle variazioni dei dati viene chiamata fattore sperimentale (o trattamento) e può essere: • a più livelli quantitativi (e.g. dosi crescenti dello stesso farmaco) • a diverse modalità qualitative (e.g. somministrazione di farmaci differenti) • Ogni unità od osservazione del gruppo sperimentale viene detta replicazione (o replica) • Nell’ANOVA le ipotesi sono: H0: μ1 = μ2 =…μK H1: almeno 2 delle medie sono differenti Strumenti di statistica inferenziale Come funziona • Per confrontare i risultati dei diversi esperimenti (es. per controllare l’effetto dei diversi livelli di controllo del sw, ossia per testare la differenza tra le medie dei gruppi sottoposti ai diversi livelli di controllo), separiamo la variabilità complessiva della variabile dipendente in due fonti di variabilità: • Varianza Between (VarB): attribuibile alla varianza tra gruppi • Varianza Within (VarW): residua all’interno dei gruppi, varianza entro i gruppi Dal confronto delle due varianze possiamo decidere se le differenze osservate nei diversi esperimenti sono significative, ossia se rappresentano effettivamente due popolazioni differenti (es. i controlli diversi hanno avuto effetto oppure no) oppure sono una manifestazione casuale NB: lavoriamo sulla scomposizione della varianza , ma stiamo facendo inferenza sulle medie Strumenti di statistica inferenziale Come funziona • L’ANOVA, si applica nel caso si vogliano confrontare gli effetti medi di una variabile su I campioni distinti: {C1,…,CI }. • Ciascun campione è assunto avere lo stesso numero J di soggetti (ma non è obbligatorio) Yij è la j-esima osservazione sull’ i-esimo campione Dove: J − i ( Yij ) / J Media del campione i : j 1 I − media generale: ( i ) / I i 1 Strumenti di statistica inferenziale Come funziona IDENTITA’ PRINCIPALE DELL’ANOVA (somma dei quadrati) SS totale = SSW + SSB Ovvero: I i 1 Dove: J I (Yij Y.. ) 2 j 1 i 1 J i Yi. ( Yij ) / J j 1 I J Y.. ( Yij ) / IJ i 1 I SSW i 1 Strumenti di statistica inferenziale j J 2 ( Y Y ) ij i. j 1 J I 2 ( Y Y ) J ( Y Y ) ij i. i. .. 2 j 1 i 1 I SS B J (Yi. Y.. ) 2 i 1 I SST i 1 J (Y j 1 2 Y ) ij .. Test di Fisher • Dalla teoria dei valori attesi si ricava: SS B /( I 1) F SSW /[ I ( J 1)] ~ FI 1,( I ( J 1)) • È stato dimostrato che questo test ha una distribuzione campionaria F di Snedecor con (I-1) e (I(J-1)) gradi di libertà (F(I-1),(I(J-1)) ) • noti tali gradi di libertà (numeratore e denominatore) è possibile valutare la probabilità associata ai valori di F • per un valore prefissato, solitamente =0.05, questo test ci dice quando l’ipotesi nulla è accettata ( F<F(I-1),(I(J-1)) ) e quando viene rifiutata ( F> F(I-1),(I(J-1)) ) • Se il valore di F calcolato supera quello tabulato, alla probabilità prefissata, si rifiuta l'ipotesi nulla e si accetta l'ipotesi alternativa: almeno una media è diversa dalle altre Strumenti di statistica inferenziale Test di Fisher • Criterio decisionale: accetto se F FI 1, I ( J 1) H0 rifiuto se F FI 1, I ( J 1) Strumenti di statistica inferenziale Esempio Zona di Accettazione Zona di Rifiuto Strumenti di statistica inferenziale Esempio • Supponiamo di aver sviluppato due prototipi sw e di volerli testare su un campione di possibili utenti • Intervistiamo 7 utenti che hanno utilizzato il prototipo P1 e 7 utenti che hanno usato il prototipo P2 • Analizziamo in quest’esempio le risposte alla domanda che indaga la soddisfazione del cliente in merito alla funzione ‘help’ implementata • le risposte ammissibili sono valori da 1 a 6 dove 1 indica un basso grado di soddisfazione e sei un alto grado di soddisfazione • Nella tabella che segue sono riportate le risposte ottenute con le due indagini Strumenti di statistica inferenziale Esempio Prototipo P1 P2 Q1 1 5 Q2 6 3 Q3 1 1 Q4 1 6 Q5 6 2 Q6 6 4 Q7 2 1 Questionario Strumenti di statistica inferenziale Esempio Y1. (1 6 1 1 6 6 2) / 7 3,28 Y2. (5 3 1 6 2 4 2) / 7 3,14 Y.. (1 6 1 1 6 6 2 5 3 1 6 2 4 2) / 14 3,21 SS B 7[(3,28 3,21) 2 (3,14 3,21) 2 ] 0,0714 SSW (1 3,28) 2 (6 3,28) 2 (1 3,28) 2 (1 3,28) 2 (6 3,28) 2 (6 3,28) 2 (2 3,28) 2 (5 3,14) 2 (3 3,14) 2 (1 3,14) 2 (6 3,14) 2 (2 3,14) 2 (4 3,14) 2 (1 3,14) 2 62,29 F SS B /( I 1) SSW /[ I ( J 1)] F 0,0714 /( 2 1) 0,01376 62,29 /[ 2(7 1)] << F1,12 4,75 Accetto Ho Strumenti di statistica inferenziale Esempio con excel Zona di Accettazione Analisi varianza: ad un fattore RIEPILOGO Gruppi Colonna 1 Colonna 2 Conteggio Somma Media Varianza 7 23 3,285714 6,571429 7 22 3,142857 3,809524 Zona di Rifiuto ANALISI VARIANZA Origine della variazione Tra gruppi In gruppi SQ 0,071429 62,28571 Totale 62,35714 Strumenti di statistica inferenziale gdl MQ F Valore di significatività F crit 1 0,071429 0,013761 0,908555546 4,747225 12 5,190476 13