Inferenza Statistica Le componenti teoriche dell’Inferenza Statistica sono: la teoria dei campioni la teoria della probabilità la teoria della stima dei parametri la teoria della verifica delle ipotesi 1 Stima dei parametri e Verifica delle ipotesi La Stima dei parametri consente di conoscere, su basi probabilistiche, le caratteristiche di una popolazione mediante informazioni ottenute dal campione La Verifica delle ipotesi permette, sempre sulla base delle informazioni ottenute mediante un campione, di non respingere o di respingere l’attendibilità di ipotesi, formulate intorno ai parametri di variabili di una popolazione 2 Per la stima dei parametri….. Nel caso di dati quantitativi continui, estratto un campione di dimensione appropriata, per stimare i parametri di una variabile di una popolazione: se la variabilità della popolazione di riferimento è nota ed il campione è sufficientemente numeroso, ci avvaliamo della distribuzione di Gauss standardizzata se la variabilità della popolazione di riferimento non fosse nota, nel caso di campioni numerosi, (almeno 100 unità), si considererebbe possibile riferirsi comunque alla distribuzione di Gauss standardizzata, rappresentativa delle distribuzioni di probabilità normali, nelle quali si identificano la maggior parte dei fenomeni biologici 3 Stima puntuale e stima intervallare per stimare il parametro μ di una popolazione, mediante la media x di un campione ci avvaliamo delle seguenti procedure: stima puntuale stima intervallare 4 Stima puntuale STIMA PUNTUALE eseguiamo il calcolo di un singolo valore (puntuale), che stima il parametro della popolazione. n x x i 1 i n L’attendibilità della stima si riferisce solamente al campione prescelto 5 Errore standard della media L’errore campionario si quantifica come stima della deviazione standard dalla media in un ampio numero di campioni, tratti dalla stessa popolazione Per questo, occorre un indice che quantifichi la variabilità di ciascuna di queste medie, rispetto alla media di tutte queste medie SE n la media di questa distribuzione delle medie campionarie tenderà a coincidere con la media della popolazione (μ) 6 Teorema del limite centrale se il campione è sufficientemente numeroso, la distribuzione di tutte le medie calcolate su tutti i possibili campioni estraibili dalla popolazione, tenderà a distribuirsi normalmente 7 INTERVALLO DI CONFIDENZA l’intervallo di confidenza è un intervallo di valori che probabilmente racchiude quello vero, ma non conosciuto, della media della popolazione stabilendo la probabilità di errore che il ricercatore è disposto a correre come: α =0,05 per costruire l’intervallo fiduciario al 95%, ci riferiamo al 95% dei valori centrali della distribuzione normale standardizzata, che corrisponde all’area delimitata da ±1,96 sulla curva di Gauss standardizzata 8 Intervallo al 95%... se campionassimo ripetutamente una variabile di una popolazione, il 95% degli intervalli di confidenza avrebbe la probabilità di catturare il valore medio della variabile della popolazione In una distribuzione normale standardizzata… -4 -3 -2 -1 0 95% 1 2 3 4 ( 1,96) 9 Valori critici INTERVALLO DI CONFIDENZA l’intervallo di confidenza si costruisce sulla media campionaria puntuale ed è stimato come: x ± 1,96 • ES (1.96 se alfa=0.05 e la distribuzione è normale) il concetto di “l’intervallo di confidenza" si basa sul concetto di ripetizione dell’ indagine intrapresa. Se l’indagine fosse ripetuta su 100 campioni, dei 100 intervalli di confidenza costruiti ciascuno su ogni campione, il 95% degli intervalli avrebbe la probabilità di racchiudere il parametro μ della popolazione infatti, stabilita la probabilità α = 0,05 z0,025 , corrispondente a - 1,96 deviazioni standard, è quel valore che isola il 2,5% dei valori compresi nell’area sotto la curva (cosiddetta area di rifiuto, a sinistra del valore medio), pari alla probabilità prefissata α, che dal campione estratto, possa essere calcolato un intervallo di confidenza in cui il parametro μ della popolazione non sia racchiuso z0,975 , corrispondente a +1,96 deviazioni standard, che individua il 95% dell’area sotto la curva in cui il parametro μ della popolazione è probabilmente racchiuso, isolando il 2,5% dei valori compresi nell’area sotto la curva (cosidetta area di rifiuto a destra del valore medio) 10 11 Calcolo degli intervalli di confidenza per la media di una popolazione Nella valutazione del parametro μ, per tutte le distribuzioni normali con numerosità superiore a 30 unità e varianza nota, possiamo riferirci alla distribuzione normale standardizzata con una livello di probabilità, stabilita generalmente con α = 0,05 (95%) oppure = 0,01 (99%) previa il necessario calcolo dell’errore standard calcoliamo l’intervallo di confidenza per la media della popolazione μ 95 x 1,96 SE nel 95% dei casi, tra tutti i campioni estraibili dalla popolazione, sarà dunque selezionato il campione il cui intervallo di confidenza conterrà la media della popolazione un intervallo di confidenza del 99% è dato da: μ 99 x 2,576 SE nel 99% dei casi, tra tutti i campioni estraibili dalla popolazione, sarà dunque selezionato il campione il cui intervallo di confidenza conterrà la media della popolazione 12 Intervalli di confidenza -4 -3 -2 -1 0 95% 99% 1 2 3 4 (± 1,96) (± 2,58) 13 Esempio Media calcolata su un campione di 60 casse di legno (n=60) dove viene misurata la resistenza in giorni = 185,7 x σ = 14,6 per stimare l’intervallo al 95% e al 99% della media della popolazione: 14,6 SE 1,88 n 60 μ 95 x 1,960 SE μ 99 x 2,576 SE Variabile: Pressione Arteriosa -----------------------------------------------------------Media SE Lim.inf. Lim.sup. -----------------------------------------------------------95,0 % di confidenza 185,7 1,88 182,015 189,385 -----------------------------------------------------------99,0 % di confidenza 185,7 1,88 180,857 190,543 -----------------------------------------------------------Valori critici 14 16