Statistica Descrittiva descrivere e riassumere un insieme di dati in maniera ordinata • • • tabelle grafici misure di posizione dispersione associazione Statistica Descrittiva Misure di posizione Forniscono indicazioni sull’ordine ordine di grandezza dei dati: • Moda • Media • Mediana Indici di posizione: Moda La moda di una distribuzione di frequenza è, la modalità, il valore o la classe di modalità o di valori, caratterizzata dalla massima frequenza. Indici di posizione: Media Media aritmetica dato un insieme di n unità su cui è stata rilevata la variabile X: {x1, x2, x3,......, xn} la media aritmetica X è definita come: n x1 + x 2 + ...+ x n X= = n I oppure: X= ∑ x × f (x ) i i =1 i I ∑ f (x ) i =1 i ∑x i=1 n i Indici di posizione: Mediana La mediana è il valore centrale della serie ordinata di dati: • per n dispari, la mediana è quel valore che occupa la posizione (n+1)/2 nell’insieme ordinato dei dati; • per n pari, la mediana è il valore centrale (medio) tra quello che occupa la posizione n/2 e nell’insieme ordinato dei dati. (n/2)+1 Distribuzione simmetrica Moda = Mediana = Media Distribuzione con asimmetria positiva Moda < Mediana < Media Distribuzione con asimmetria negativa Moda > Mediana > Media I quartili … sono valori che ripartiscono una popolazione in 4 parti ugualmente “popolate”. In altri termini, la frequenza cumulata fino ai tre quartili è circa 25%, 50% e 75% rispettivamente. I centili CENTILI Il centile x° della distribuzione di una variabile è quel valore che divide la distribuzione in due parti, una contenente l’x% dei valori, l’altra il restante 100-x%. Ovviamente: l’x% dei valori è ≤ x° centile il 100-x% dei valori è > x° centile x% x° centile 100-x% e Statistica Descrittiva Misure di dispersione Forniscono indicazioni sulla variabilità (eterogeneità) dei dati: • Intervallo di variazione: (min;max) • Intervallo interquartile: Q3–Q1 n • Devianza: D = ∑ ( x i − x )2 i =1 D • Varianza campionaria: s = n −1 2 2 s = s • Deviazione standard campionaria: • Coefficiente di variazione: CV = s × 100 X Indici e tipo di distribuzione dati con distribuzione simmetrica ..... usare media e deviazione standard dati con distribuzione non simmetrica ..... usare mediana e percentili Statistica Inferenziale • Generalizzare i risultati ottenuti da un insieme campione alla popolazione dal quale esso è stato estratto Modello Struttura idealizzata che si adatta alla realtà e serve per descriverla, interpretarla, comprenderla Non è VERO o FALSO ma può essere UTILE o INUTILE È una semplificazione: …il più semplice possibile, …ma non di più Modello Superficie reale della Sardegna: 24089,4 km2 Superficie stimata utilizzando come modello l'area di un rettangolo: 24000 km2 Utilizzando un modello semplice, basato solo su semplice 2 parametri (base e altezza del rettangolo) abbiamo ottenuto una buona approssimazione della misura di interesse Modello Calcolare la superficie della Sicilia Modello semplice 2 parametri: base e altezza Modello Modello più complesso 3 parametri: base e altezza del triangolo + altezza del rettangolo Un “modello” di grande successo Distribuzione Gaussiana o Normale Variabile continua con distribuzione simmetrica Un “modello” di grande successo Distribuzione Gaussiana o Normale Variabile continua con distribuzione simmetrica Un “modello” di grande successo Distribuzione Gaussiana o Normale Variabile continua con distribuzione simmetrica Come è fatto il modello gaussiano? 1 x − µ 2 1 f(x) = exp − σ 2π 2 σ Sembra complicato, ma… µ è la media σ è Var, ovvero la deviazione standard forma simmetrica a campana area sotto la curva pari a 1 Conoscendo solo due parametri, media e varianza varianza, possiamo sapere come è fatta la variabile di interesse Perché è importante la distribuzione gaussiana? In natura molte variabili presentano una distribuzione a forma di campana, bene caratterizzata da questo modello matematico, chiamato distribuzione normale o curva di Gauss o curva degli errori casuali Storicamente la distribuzione normale è nata dalla osservazione delle misurazioni ripetute di un fenomeno fisico. Perché è importante la distribuzione gaussiana? La maggior parte dei fenomeni che si osservano nella realtà assumono la forma di una distribuzione normale: • fenomeni biomedici (colesterolo, pressione arteriosa…); • fenomeni antropometrici (statura, peso, perimetro toracico …); • fenomeni fisici (misure del periodo di un pendolo …). Caratteristiche della distribuzione gaussiana X~N(µ,σ) µ determina la posizione della curva sull’asse delle ascisse. Tre distribuzioni normali con medie diverse ma con la stessa deviazione standard Caratteristiche della distribuzione gaussiana X~N(µ,σ) σ determina la maggiore o minore concentrazione della curva attorno a µ Tre distribuzioni normali con la stessa media ma con deviazioni standard diverse Caratteristiche della distribuzione gaussiana Per qualsiasi distribuzione gaussiana lo scarto σ contrassegna intervalli tipici: • il • il • il • il 68.27% delle oss. è compreso nell’intervallo [µ-σ; µ+σ] 95% nell’intervallo [µ-1.96σ; µ+1.96σ] 95.45% nell’intervallo [µ-2σ; µ+2σ] 99.73% nell’intervallo [µ-3σ; µ+3σ] Caratteristiche della distribuzione gaussiana I centili centili, costituiscono un buon sistema per valutare se una variabile di interesse è distribuita come una gaussiana. In una distribuzione gaussiana, infatti, i valori associati ad assegnati centili sono i seguenti: 0.5° centile 2.5° centile 16.0° centile 50.0° centile 84.0° centile 97.5° centile 99.5° centile = µ - 3σ = µ - 2σ = µ -1σ =µ = µ + 1σ = µ + 2σ = µ + 3σ Se i valori associati ai centili non sono troppo diversi da quelli attesi sulla base di µ e σ, allora la distribuzione gaussiana è una buona rappresentazione della distribuzione reale e, di conseguenza, media e deviazione standard descrivono in modo adeguato tale distribuzione. Problema Voglio calcolare la probabilità che la variabile X ~N(µ,σ) assuma valori compresi nell’intervallo [a,b] a b Dovrei risolvere l’integrale: b P ( a < X < b) = ∫ a ( x − µ )2 1 exp − f ( x)dx = ∫ dx 2 2σ a σ 2π b Distribuzione Normale standard (µ (µ=0, =0,σ σ=1) I valori di probabilità della Normale con µ=0 e σ=1 sono già stati calcolati e riportati in una tavola: Z~N(0,1) Distribuzione Normale standard (µ (µ=0, =0,σ σ=1) Come si usano le tavole? 0.8944 ad es. P(Z<1.25)= 0.8944 Come si usano le tavole? f(z) 0.4 0.3 1-p 0.2 p 0.1 0 -3 -2 -1 0 1 z* 2 3 deviata gaussiana standard z Detto p (0<p<1) il valore dell'area a destra di +z*, l'area a sinistra di +z* vale (1-p). Come si usano le tavole? Dato che la distribuzione è simmetrica… f(z) 0.4 0.3 1-2p 0.2 p p 0.1 0 -3 -2 -z* -1 0 1 +z*2 3 deviata gaussiana standard z L'area a sinistra di -z* è uguale all'area a destra di +z*. Detto p (0<p<1) il valore di tale area, l'area esterna a z* vale 2p, e l'area interna vale (1-2p). Come si usano le tavole? f(z) 0.4 0.3 1-p 1 -p 2 0.2 0.1 p1 0 -3 -2 p2 z-1 1 0 z21 2 3 deviata gaussiana standard z L'area compresa tra due valori z1* < z2* si ricava per differenza (1 - p1 - p2), dove p1 è il valore dell'area a sinistra di z1*, e p2 quello dell'area a destra di z2*. Distribuzione Normale (µ (µ≠0, ≠0,σ σ≠1) E’ possibile trasformare una qualsiasi funzione gaussiana f(x) con media µ e varianza σ2 in una funzione gaussiana standard, f(z) con media 0 varianza 1, se si pone: standard Z= X −µ σ Z è una trasformata di X, centrata rispetto a µ e scalata rispetto a σ. Il modello si semplifica… 1 x − µ 2 1 f(x) = exp− 2 σ σ 2π E diventa… (z) 2 1 f(x) = exp− 2 2π Spostare il valore medio: xx-µ 0 µ x Spostare il valore medio: xx-µ 0 µ x Modificare la larghezza −σ 0 +σ x Modificare la larghezza −σ 0 +σ x Modificare la larghezza −σ -1 0 +1 +σ xz Gaussiana (µ σ²) Gaussiana standardizzata (0 1) Prossima lezione Merc 18 novembre 9:30-12:30