Test delle ipotesi – Parte 2 Test delle ipotesi sulla distribuzione: Introduzione 2 sulla distribuzione T Test χ ll di ib i Test χ2 sulla distribuzione: Esercizio Test delle ipotesi sulla distribuzione • Molte conclusioni tratte nell’inferenza parametrica nascono dall’assunzione dall assunzione implicita che il campione di dati proviene da implicita che il campione di dati proviene da una popolazione di proprietà ben definite. • In particolare si assume che sia noto il tipo di distribuzione che ha prodotto il campione in esame • È possibile implementare un test statistico per stabilire, con un certo livello di significatività, se una data distribuzione è compatibile con il campione a disposizione compatibile con il campione a disposizione • Tale tipo di test prende il nome di test sulla bontà di adattamento M.Grosso ‐ Statistica Test delle Ipotesi ‐ Parte 2 1 Test delle ipotesi sulla distribuzione • Anche per tale tipo di test è prevista un’ipotesi nulla: H0: il campione proviene da una distribuzione teorica nota • La filosofia di tali test si basa sul confrontare: – Frequenze assolute del campione – Frequenze assolute previste dalla distribuzione ipotizzata q p p Test χ2 sulla distribuzione • Ricetta: 1. Individuare k classi distinte in cui suddividere il campione Individuare k classi distinte in cui suddividere il campione 2. Valutare la frequenza Oi delle osservazioni del campione per ciascuna classe: Oi, i=1,…,k 3. Calcolare la frequenza assoluta Ei che spetta alla di t ib i distribuzione ipotizzata per ciascuna classe: i ti t i l Ei, i=1,…,k • Se l’ipotesi nulla fosse vera i valori Ei e Oi dovrebbero essere confrontabili M.Grosso ‐ Statistica Test delle Ipotesi ‐ Parte 2 2 Test χ2 sulla distribuzione • Ricetta (cont.) – Calcolare lo scalare: k χ =∑ 2 oss i =1 (O − E ) 2 i i Ei • Importante: • Se l’ipotesi nulla di partenza fosse vera, si può dimostrare che χ2oss è un valore osservato di una VA di tipo χ p χ2 a ν = k‐1‐m g.d.l, essendo ν=k‐1‐m gdl della VA di tipo χ2 k Numero di classi m Numero di parametri della distribuzione da stimare a partire dal campione Test χ2 sulla distribuzione • Ricetta (cont.) – Il valore osservato χ Il valore osservato χ2oss deve essere confrontato con il deve essere confrontato con il 2 valore critico χ α della χ2 tale che: P(χ ≤ χα2 ) = α – Essendo α il livello di significatività del test e χ la VA di tipo χ2 a ν gradi di libertà. – L’ipotesi nulla H0 sarà quindi rigettata se: 2 χ oss > χα2 M.Grosso ‐ Statistica Test delle Ipotesi ‐ Parte 2 3 Test χ2 sulla distribuzione • N.B. • Il test di adattamento in esame è valido se Il test di adattamento in esame è valido se Oi ≥ 5 ∀i • Nel caso non sia soddisfatta questa proprietà si deve ricorrere a raggruppare più classi Test χ2 sulla distribuzione ‐ Esercizio • In tabella è riportata la distribuzione della pressione sanguigna sistolica (in mmHg) per un campione casuale di 250 uomini di età compresa tra i 30 e i 40 anni. p • Si vuole testare se i dati possano provenire da una VA normale Pressione Frequenza osservata (n. di uomini) Frequenza relativa fi 80< x ≤100 3 0.012 100< x ≤110 12 0.048 110< x ≤120 110< x ≤120 52 0.208 120< x ≤130 74 0.296 130< x ≤140 67 0.268 140< x ≤150 26 0.104 150< x ≤160 12 0.048 160< x ≤180 4 0.010 M.Grosso ‐ Statistica Test delle Ipotesi ‐ Parte 2 k ∑ fi = 1 i =1 4 Test χ2 sulla distribuzione ‐ Esercizio • Il primo passo è la stima dei parametri per la variabile aleatoria ipotizzata, ovvero devo calcolare media aritmetica e aleatoria ipotizzata, ovvero devo calcolare media aritmetica e varianza del campione: k μˆ = x = ∑ xi f i = 128.46 i =1 σˆ = s = ∑ (xi − x ) f i = 187.48 2 2 k 2 i =1 • Stiamo quindi assumendo che i dati provengano da una VA X del seguente tipo: X ~ N (μ = 128.46,σ 2 = 187.48) • È possibile quindi valutare le frequenze relative che competono teoricamente a ciascuna classe Test χ2 sulla distribuzione ‐ Esercizio • Per il calcolo delle frequenze relative si può ricorrere alle proprietà della trasformazione lineare: X − μ X − 128.46 Z= = σ 13.69 • Per cui, per esempio, per la classe [110÷120]: 120 − 128.46 ⎞ ⎛ 110 − 128.46 <X≤ P(110 < X ≤ 120 ) = P⎜ ⎟ 13.69 ⎝ 13.69 ⎠ = P(− 1.35 < Z ≤ −0.62) = P(0.62 ≤ Z < 1.35) = 0.9115 − 0.7324 = 0.1791 • Per cui, la frequenza assoluta attesa è: Ei = N ⋅ 0.1791 = 250 ⋅ 0.1791 = 44.775 M.Grosso ‐ Statistica Test delle Ipotesi ‐ Parte 2 5 Test χ2 sulla distribuzione ‐ Esercizio Classi Frequenza osservata Oi Frequenza relativa attesa Frequenza assoluta attesa Ei x≤80 0 0.0002 0.050 80<x≤100 3 0.0186 4.65 100<x≤110 12 0.0697 17.425 110<x≤120 52 0.1791 44.775 120<x≤130 74 0.2762 69.050 130<x≤140 67 0 2557 0.2557 63 925 63.925 140<x≤150 26 0.1423 35.575 150<x≤160 12 0.0475 11.875 160<x≤180 4 0.0106 2.650 x>180 0 0.0001 0.025 Da notare che, per x<80 e x>180, nonostante non vi siano valori osservati nel campione, esiste q una frequenza attesa Ei ≠ 0 e dobbiamo quindi considerare anche queste classi Test χ2 sulla distribuzione ‐ Esercizio • Raggruppando le classi con un numero di osservazioni Oi<5: Classe Oi Ei (Oi‐Ei)2/Ei x≤110 15 22.125 2.294 110<x≤120 52 44.775 1.166 120<x≤130 74 69.050 0.355 130<x≤140 67 63.925 0.148 140<x≤150 26 35.575 2.577 X>150 16 14.550 0.145 Totale: k=6 250 250 χ2oss = 6.685 M.Grosso ‐ Statistica Test delle Ipotesi ‐ Parte 2 6 Test χ2 sulla distribuzione ‐ Esercizio • Restano da stabilire i gradi di libertà della χ2 da considerare e il valore critico ad esso relativo: Numero classi k: 6 Numero parametri m: 2 ν=k‐m‐1=3 • Resta da stabilire quale è il valore critico χ20.05 di una χ2 a 3 gdl. Consultando le tabelle si osserva che: P(χ 3 ≤ χ 02.05 ) = 0.05 ⇒ χ 02.05 = 7.815 • Essendo: χ2oss < χ20.05 • Non possiamo rigettare l’ipotesi nulla di partenza M.Grosso ‐ Statistica Test delle Ipotesi ‐ Parte 2 7