I-1

Recap on Measure Theory
and
Statistical Inference
Carola Aiello
[email protected]
INDICE
• Richiami di teoria della misura
• Strumenti di Statistica Inferenziale
Strumenti di statistica inferenziale
Richiami di teoria della misura
• “Non puoi controllare ciò che non puoi misurare” [T. De Marco, 1982]
• Le misure si effettuano ad esempio per:
• verificare l'aderenza di alcuni parametri di qualità a dei valori di riferimento
(esterni/interni)
• rilevare delle deviazioni relative alla pianificazione temporale/ allocazione di risorse
• raccogliere vari indici di produttività
• validare l'effetto di strategie tese a migliorare un processo produttivo (qualità/
produttività / aderenza alla pianificazione / controllo dei costi)
• Nel processo di misura la fase progettuale assume la stessa
importanza della fase di raccolta e di analisi dei dati vera e propria
• Durante la fase progettuale devono essere chiariti i seguenti aspetti

Definizione requisiti

Selezione della metrica

Definizione dei criteri di valutazione
...e solo in seguito
MISURA
Strumenti di statistica inferenziale
Processo di misura
Misura e analisi
dei dati
ISO/IEC 9126 Qualità del SW
Definizione dei criteri di valutazione
Rating (definizione dei livelli di riferimento)
Le metriche forniscono valori quantitativi che non sono di per sé una valutazione
della qualità, dobbiamo mappare i dati quantitativi su una scala qualitativa
A carico dell’
organizzazione
Strumenti di statistica inferenziale
Qualità di una misura
• Le misure, a loro volta, posseggono delle qualità che, in alcuni casi, è possibile
quantificare in modo formale.
− Affidabilità (reliability). L'affidabilità è relativa ai valori che si ottengono effettuando più
volte la stessa misura. Se i valori ottenuti sono vicini tra loro la metrica è affidabile.
Tipicamente si caratterizza questa qualità analizzando la varianza s2 di misure ripetute.
Più piccolo è questo valore più la metrica è affidabile.
− Validità (validity). La validità indica se la metrica misura effettivamente cosa vogliamo
misurare. Per misure poco astratte (peso, volume) la validità coincide con l'accuratezza.
Si noti che anche per misure poco astratte i concetti di affidabilità e validità sono
differenti: un orologio fermo è perfettamente affidabile ma ha una validità molto
ridotta...
Affidabile
ma
non valida
Strumenti di statistica inferenziale
Valida
ma
non affidabile
Affidabile
e
Valida
Errori di misura (1)
• Il risultato di un’operazione di misura è un numero reale x che esprime il valore
vero (incognito) del fenomeno in esame ed è detto misura analitica
• La successione delle operazioni effettuate per ottenere la misura, secondo un
complesso di istruzioni che costituiscono il metodo analitico, è detta
procedimento analitico.
valore vero
Θ
misura
X
procedimento
analitico
• L’esperienza indica che, se si eseguono più misurazioni di una stessa quantità,
raramente le misure coincidono

I valori misurati (x) sono in genere diversi dal vero valore ( )
• La differenza tra il valore misurato e quello vero è detta errore totale (ET)
X =
misura
Strumenti di statistica inferenziale
valore
vero
+ ET
errore
totale
La Variabile Casuale Normale
• E’ la distribuzione statistica più famosa ed utilizzata:
•
•
si adatta bene alla rappresentazione grafica di moltissimi fenomeni reali;
è fondamentale in inferenza statistica perché approssima molte altre distribuzioni di
probabilità;
• Anche detta: variabile casuale Gaussiana, curva di Gauss, Campana di Gauss,
curva degli errori, curva a campana, ogiva.
• “curva degli errori” perché che questa curva serve a rappresentare la legge
con cui si distribuiscono gli errori di natura accidentale.
• La formula matematica che descrive la funzione della densità di probabilità
normale è la seguente:
f (X ) 
1
e
 2
1  X  
 

2  
2
dove µ e σ rappresentano la popolazione media e lo scarto quadratico medio (o deviazione standard).
• L'equazione della funzione di densità è costruita in modo tale che l'area sottesa
alla curva rappresenti la probabilità. Perciò, l'area totale è uguale a 1.
Strumenti di statistica inferenziale
Distribuzione normale
1  X  

 
 
1
f (X ) 
e 2
 2
2
Errori di misura (2)
• La misurazione non consente di determinare con certezza il vero
valore della quantità misurata, ma produce stime la cui capacità di
approssimare il vero valore (attendibilità) dipende dal metodo
analitico e da come è stato eseguito il procedimento analitico.
 È necessario considerare la natura degli errori di misura
ET = Egrossolani + Esistematici + Ecasuali
Si prevengono con un’accorta
organizzazione dell’analisi
Costituiscono oggetto tipico della
metodologia statistica
Esistematici
Influenzano la validità
Ecasuali
Influenzano l’affidabilità
Strumenti di statistica inferenziale
Ma qual è il legame tra statistica e misura?
Strumenti di statistica inferenziale
Esempio
Per validare le ipotesi è necessario introdurre l'unità di analisi (componente o
progetto), effettuare analisi statistiche (e.g., analisi della varianza), validare gli
indicatori scelti, ovvero effettuare ed interpretare delle misure
ESEMPIO:
Se presso una software house ottenessimo i seguenti dati tramite 9 esperimenti (3 al
50%, 3 al 70%, 3 al 90%) :
Copertura linee di codice
Media errori trovati durante
il test di sistema
50%
20/KLOC
70%
15/KLOC
90%
12/KLOC
Senza una corretta analisi dei dati quale l'analisi della varianza (ANOVA) non
potremmo essere sicuri della significatività statistica di quanto ottenuto

Ad esempio se 20 è la media di {19, 20, 21}, 15 di {15, 15, 15}, e 12 di {11, 12,
13} ci sentiremmo abbastanza sicuri

Se invece 20 è la media di {10, 10, 40}, 15 di {1, 4, 40} e 12 di {3, 3, 30}...
Strumenti di statistica inferenziale
Richiami di statistica descrittiva
• Fornisce informazioni sintetiche sulla popolazione osservata
nell’ipotesi di disporre di misurazioni che ne riguardano la totalità
• Data una popolazione di N elementi (noti) su cui si effettua una
misura (e.g., il peso delle persone in italia) {x1,...,xN}, si definiscono i
seguenti parametri:
− media m= (x1+ x2+... +xN)/N
− varianza var=[(x1-m)2+ (x2-m)2 +...(xN-m)2]/N
− spesso la varianza si indica con s2
− deviazione standard s=var1/2
− tipicamente gli N elementi si distribuiscono secondo una
distribuzione normale (o gaussiana)
Strumenti di statistica inferenziale
Limiti della statistica descrittiva
• Costi (economici e di tempo)
• Popolazione non nota
Strumenti di statistica inferenziale
Richiami di statistica inferenziale
• Si analizza una popolazione di M elementi (M non è noto) tramite un
campione di N elementi {x1,...,xN} e si definiscono i seguenti parametri:
− media m= (x1+ x2+... +xN)/N
− varianza var=[(x1-m)2+ (x2-m)2 +...(xN-m)2]/(N-1)
− deviazione standard σ=var1/2
− spesso la varianza si indica con σ2
− tipicamente gli elementi del campione si distribuiscono secondo
una distribuzione normale (o gaussiana)
− o, se così non è, si assume che lo sia…
• L'inferenza statistica è il procedimento per cui si deducono le
caratteristiche di una popolazione dall'osservazione di una parte di
essa, detta campione
Strumenti di statistica inferenziale
Esempio (1)
• Assumiamo, per semplicità espositiva, che in una software house si
conducano attività di test per tre differenti percentuali prefissate: 50 %,
70%, 90% e che, per ciascuna di esse, siano stati osservati per un anno
5 pacchetti software.
• Calcoliamo la media di DR ed otteniamo la seguente tabella
Codice ispezionato
(KT)
Difetti Riscontrati
(e/KLOC)
− 50%
20
− 70%
15
− 90%
12
• Il problema è: le medie sono differenti, ma questo accade perchè
effettivamente esiste una relazione tra KT e DR, oppure i dati vengono
così, "per caso"?
Strumenti di statistica inferenziale
Esempio (2)
KT
DR
− 50%
20
− 70%
15
− 90%
12
•
L’osservazione acritica di questi dati porterebbe a concludere che
l’aumento del KT implichi la diminuzione del DR
•
D’altra parte è possibile che le medie della popolazione complessiva
(tutti i programmi sw del mondo) siano uguali, ossia che calcolando
l'andamento di DR su un numero molto più alto di casi si scopra che KT
non abbia nessuna influenza su DR
Strumenti di statistica inferenziale
Test statistici
• Molto spesso nell’ambito della ricerca sperimentale è necessario
confrontare tra loro serie di misure ripetute (es. confronto di risultati
di due o più metodi)
• Il confronto può essere condotto mediante appropriati test statistici
(F di Fisher, t-Student, etc.)
• I test statistici consistono nel mettere alla prova l’ipotesi formulata
su certi parametri delle popolazioni (es. medie o varianze) e nel
verificare se con i dati a disposizione è possibile rifiutarla o no: se il
campione fornisce risultati fortemente in contrasto con l’ipotesi
formulata, questa viene rifiutata in favore dell’ipotesi alternativa
• Il test viene condotto fissando a priori la probabilità di errore che
può essere commesso (α)
Strumenti di statistica inferenziale
Ipotesi statistica
• Un’ipotesi statistica è una asserzione o supposizione sulla
distribuzione di una o più variabili casuali e si indica con la lettera H
• Generalmente si mettono a confronto due ipotesi, contrarie tra
loro:
•
Ipotesi H0 (IPOTESI NULLA). Costituisce l’oggetto della verifica:
specifica i valori dei parametri della popolazione da cui si
suppone provenga il campione in esame
H0:
=
0
• Dove
indica il parametro della popolazione e
parametro che ci si attende.
•
0
il
Ipotesi H1 (IPOTESI ALTERNATIVA). È l’ipotesi contraria alla
precedente
H1:
Strumenti di statistica inferenziale
≠
0
Test di verifica delle ipotesi
• Definizione: Un test di ipotesi è una regola attraverso la quale si decide se
accettare o meno l'ipotesi formulata sulla base delle risultanze campionarie.
• Se si indica con C l'universo dei campioni o spazio dei campioni, cioè l'insieme di
tutti i possibili risultati campionari, un test delle ipotesi consiste nel bipartire l'insieme
C in due sottoinsiemi disgiunti C0 e C1 = C – C0 in modo tale che si decida di
rifiutare l'ipotesi H0 se il punto campionario cade in C1, di accettare l'ipotesi se il
punto campionario cade in C0.
• Lo spazio C1 di rifiuto di un'ipotesi viene usualmente detto regione critica, mentre si
dice regione di accettazione lo spazio C0.
Strumenti di statistica inferenziale
Test di ipotesi
DECISIONE
REALTA’
Ho VERA
Ho FALSA
Accetto Ho
Decisione giusta
(1-α, Protezione)
Errore di Tipo II
(β)
Rifiuto Ho
Errore di Tipo I
(α, significatività)
Decisione giusta
(1-β, Potenza)
• Il test migliore minimizza la probabilità di commettere un errore di seconda
specie β.
Strumenti di statistica inferenziale
Scelta dell’ipotesi nulla
•
La progettazione delle ipotesi è fondamentale nel processo di test
•
Per come è costruito il test, l’errore di I tipo è quello considerato più grave
Strumenti di statistica inferenziale
Significatività e potenza del test
• La probabilità di commettere un errore di I tipo, e cioè la probabilità di rifiutare una
ipotesi quando essa è vera, è indicata usualmente con α.
• dove α viene detto livello di significatività del test e X rappresenta il punto
campionario.
• La probabilità di commettere un errore di II tipo, e cioè la probabilità di accettare
un'ipotesi quando essa è falsa, è indicata con β ( Η1 )
• L’unico aspetto su cui possiamo intervenire è
sul “confine” fra regione di accettazione e
regione di Rifiuto
Strumenti di statistica inferenziale
Co
Costruzione del test
• Errore di Tipo I (α)
− rappresenta la probabilità di fare un errore decidendo di rifiutare Ho cioè di affermare che vi è
una differenza quando in realtà non esiste tale differenza. Viene generalmente posta ad un
valore basso (α).
• Errore di Tipo II (Errore β)
− Rappresenta la probabilità di commettere un errore assumendo Ho vera anche quando in
realtà è falsa. E’ la capacità del test di individuare l’ipotesi alternativa quando è vera. Dipende
da α (α = 1- β).
• Così posto il problema la migliore soluzione è rappresentata da un test che minimizzi
simultaneamente le probabilità di commettere gli errori di I e di II tipo. Purtroppo, non
è generalmente possibile perseguire un tale obbiettivo. La procedura che si segue
generalmente è quella di fissare la misura della probabilità di commettere un errore di
primo tipo (si stabilisce cioè il livello di significatività α) e nell'individuare poi il test che
minimizza la probabilità di commettere un errore di II tipo.
• In sintesi: fissato il livello di significatività α (arbitrariamente), si cerca il test più potente
(test MP dall’inglese Most Powerful), cioè, quello che minimizza β
• Se il test statistico dimostra che la probabilità α favore di Ho è inferiore ad α, si può
affermare che fra le due misure esiste una differenza statisticamente significativa.
Strumenti di statistica inferenziale
ANalysisOfVAriance
•
L’analisi della varianza (ANOVA) è un insieme di tecniche statistiche facenti parte della statistica
inferenziale utilizzato per la verifica d’ipotesi
•
e’ nato nell’ambito della ricerca sperimentale per valutare l’effetto di determinati fattori, variabili
indipendenti - di tipo continuo o categoriale , sulla variabile dipendente - di tipo continuo.
•
assume nomi diversi a seconda di quante sono le variabili dipendenti e indipendenti:
−
anova ad una via (one-way) quando si ha una sola variabile dipendente e una sola variabile
indipendente.
−
anova fattoriale quando si ha una sola variabile dipendente, ma piu’ variabili indipendenti.
−
manova (multivariate analysis of variance) quando c’e’ + di una dipendente e + di una indipendente.
•
Permette di confrontare due o più gruppi di dati confrontando la variabilità interna a questi gruppi con
la variabilità tra gruppi
•
L’ipotesi nulla solitamente prevede che i dati di tutti i gruppi abbiano la stessa origine, ovvero la stessa
distribuzione stocastica, e che le differenze osservate tra i gruppi siano dovute solo al caso
•
Il confronto si basa sull’idea che se la variabilità interna ai gruppi è relativamente elevata rispetto alla
variabilità tra i gruppi, allora probabilmente la differenza tra questi gruppi è soltanto il risultato della
variabilità interna.
•
Il più noto insieme di tecniche si basa sul confronto della varianza e usa variabili di test distribuite come
la variabile casuale F di Snedecor
•
Requisiti:
•
Osservazioni di ogni trattamento devono essere distribuite normalmente
•
Varianza costante
Strumenti di statistica inferenziale
ANalysisOfVAriance
•
Il metodo utilizza il rapporto tra varianze ma lo scopo dell’analisi riguarda la
verifica dell’ipotesi nulla tra medie.
•
Consiste nella scomposizione della varianza totale dell’esperimento in
varianze parziali (corrispondenti a diverse e ben determinate fonti di
variazione).
•
La fonte delle variazioni dei dati viene chiamata fattore sperimentale (o
trattamento) e può essere:
•
a più livelli quantitativi (e.g. dosi crescenti dello stesso farmaco)
•
a diverse modalità qualitative (e.g. somministrazione di farmaci
differenti)
•
Ogni unità od osservazione del gruppo sperimentale viene detta replicazione
(o replica)
•
Nell’ANOVA le ipotesi sono:
H0: μ1 = μ2 =…μK
H1: almeno 2 delle medie sono differenti
Strumenti di statistica inferenziale
Come funziona
• Per confrontare i risultati dei diversi esperimenti (es. per controllare
l’effetto dei diversi livelli di controllo del sw, ossia per testare la
differenza tra le medie dei gruppi sottoposti ai diversi livelli di
controllo), separiamo la variabilità complessiva della variabile
dipendente in due fonti di variabilità:
•
Varianza Between (VarB): attribuibile alla varianza tra gruppi
•
Varianza Within (VarW): residua all’interno dei gruppi,
varianza entro i gruppi
 Dal confronto delle due varianze possiamo decidere se le
differenze osservate nei diversi esperimenti sono significative, ossia
se rappresentano effettivamente due popolazioni differenti (es. i
controlli diversi hanno avuto effetto oppure no) oppure sono una
manifestazione casuale
 NB: lavoriamo sulla scomposizione della varianza , ma stiamo
facendo inferenza sulle medie
Strumenti di statistica inferenziale
Come funziona
• L’ANOVA, si applica nel caso si vogliano confrontare gli effetti
medi di una variabile su I campioni distinti: {C1,…,CI }.
• Ciascun campione è assunto avere lo stesso numero J di soggetti
(ma non è obbligatorio)
Yij
è la j-esima osservazione sull’ i-esimo campione
Dove:
J
−
 i  ( Yij ) / J
Media del campione i :
j 1
I
−
media generale:
  (  i ) / I
i 1
Strumenti di statistica inferenziale
Come funziona
IDENTITA’ PRINCIPALE DELL’ANOVA (somma dei quadrati)
SS totale = SSW + SSB
Ovvero:
I

i 1
Dove:
J
I
 (Yij  Y.. ) 
2
j 1
i 1
J
i  Yi.  ( Yij ) / J
j 1
I
J
  Y..  ( Yij ) / IJ
i 1
I
SSW  
i 1
Strumenti di statistica inferenziale
j
J
2
(
Y

Y
)
 ij i.
j 1
J
I
2
(
Y

Y
)

J
(
Y

Y
)
 ij i.
 i. ..
2
j 1
i 1
I
SS B  J  (Yi.  Y.. ) 2
i 1
I
SST  
i 1
J
 (Y
j 1
2

Y
)
ij
..
Test di Fisher
• Dalla teoria dei valori attesi si ricava:
SS B /( I  1)
F
SSW /[ I ( J  1)]
~ FI 1,( I ( J 1))
• È stato dimostrato che questo test ha una distribuzione campionaria
F di Snedecor con (I-1) e (I(J-1)) gradi di libertà
(F(I-1),(I(J-1)) )
• noti tali gradi di libertà (numeratore e denominatore) è possibile
valutare la probabilità associata ai valori di F
• per un valore  prefissato, solitamente =0.05, questo test ci dice
quando l’ipotesi nulla è accettata ( F<F(I-1),(I(J-1)) ) e quando viene
rifiutata ( F> F(I-1),(I(J-1)) )
• Se il valore di F calcolato supera quello tabulato, alla probabilità
prefissata, si rifiuta l'ipotesi nulla e si accetta l'ipotesi alternativa:
almeno una media è diversa dalle altre
Strumenti di statistica inferenziale
Test di Fisher
• Criterio decisionale:

accetto se F  FI 1, I ( J 1)
H0  

rifiuto se F  FI 1, I ( J 1)
Strumenti di statistica inferenziale
Esempio
Zona di
Accettazione
Zona di
Rifiuto
Strumenti di statistica inferenziale
Esempio
•
Supponiamo di aver sviluppato due prototipi sw e di volerli testare su
un campione di possibili utenti
•
Intervistiamo 7 utenti che hanno utilizzato il prototipo P1 e 7 utenti che
hanno usato il prototipo P2
•
Analizziamo in quest’esempio le risposte alla domanda che indaga la
soddisfazione del cliente in merito alla funzione ‘help’ implementata
•
le risposte ammissibili sono valori da 1 a 6 dove 1 indica un basso
grado di soddisfazione e sei un alto grado di soddisfazione
•
Nella tabella che segue sono riportate le risposte ottenute con le due
indagini
Strumenti di statistica inferenziale
Esempio
Prototipo
P1
P2
Q1
1
5
Q2
6
3
Q3
1
1
Q4
1
6
Q5
6
2
Q6
6
4
Q7
2
1
Questionario
Strumenti di statistica inferenziale
Esempio
Y1.  (1  6  1  1  6  6  2) / 7  3,28
Y2.  (5  3  1  6  2  4  2) / 7  3,14
Y..  (1  6  1  1  6  6  2  5  3  1  6  2  4  2) / 14  3,21
SS B  7[(3,28  3,21) 2  (3,14  3,21) 2 ]  0,0714
SSW  (1  3,28) 2  (6  3,28) 2  (1  3,28) 2  (1  3,28) 2  (6  3,28) 2  (6  3,28) 2  (2  3,28) 2 
 (5  3,14) 2  (3  3,14) 2  (1  3,14) 2  (6  3,14) 2  (2  3,14) 2  (4  3,14) 2  (1  3,14) 2  62,29
F
SS B /( I  1)
SSW /[ I ( J  1)]
F
0,0714 /( 2  1)
 0,01376
62,29 /[ 2(7  1)]
<<
F1,12  4,75
Accetto Ho
Strumenti di statistica inferenziale
Esempio con excel
Zona di
Accettazione
Analisi varianza: ad un fattore
RIEPILOGO
Gruppi
Colonna 1
Colonna 2
Conteggio Somma
Media
Varianza
7
23 3,285714 6,571429
7
22 3,142857 3,809524
Zona di
Rifiuto
ANALISI VARIANZA
Origine della variazione
Tra gruppi
In gruppi
SQ
0,071429
62,28571
Totale
62,35714
Strumenti di statistica inferenziale
gdl
MQ
F
Valore di significatività
F crit
1 0,071429 0,013761
0,908555546 4,747225
12 5,190476
13