STATISTICA DESCRITTIVA Riassume e visualizza i risultati ottenuti in un esperimento o raccolti sul campo, con lo scopo di acquisire una certa familiarità con i dati prima di passare alle analisi statistiche inferenziali evidenziare nei dati tendenze inattese a priori che possono suggerire analisi non previste inizialmente o anche nuovi esperimenti o campionamenti identificare rapidamente eventuali errori nella trascrizione dei valori o nel loro inserimento al calcolatore identificare preliminarmente alcune caratteristiche dei dati che potrebbero precludere il successivo utilizzo di alcune tecniche statistiche comunicare ad altre persone brevemente, con logica ed ordine, le principali caratteristiche dei dati raccolti Attenzione: riassumere vuol quasi sempre dire perdere parte dell’informazione Cos’è una variabile? o una qualsiasi caratteristica misurata o registrata in un’unità campionaria. Generalmente le variabili sono indicate con lettere maiuscole e i valori che possono assumere con lettere minuscole, spesso indicizzati per indicare il valore assunto dalla variabile in una specifica osservazioni I valori che assume possono essere numerici oppure di semplice appartenenza ad una certa categoria o Variabili quantitative continue Peso, altezza, concentrazione, … o Variabili quantitative discrete Numero uova, numero parassiti, numero piastre batteriche,… o Variabili qualitative con valori ordinabili (scala ordinale) “Abbondanza”, stato di salute, aggressività, … o Variabili qualitative con valori non ordinabili (scala nominale) = variabili categoriche Gruppo sanguigno, tipo di malattia, tipo mutazione, specie… Variabili risposta e variabili esplicative (dipendenti e indipendenti) Ipertensione arteriosa e rischio di ictus Piani edificio e lesione gatti Intensità di caccia e livelli di variabilità genetica 2 Nucleotide diversity (%) 1.5 1 0.5 0 12 14 16 18 20 Level of hunting 22 24 Dati, frequenze e distribuzioni 22 nidi di merlo al momento dell’involo e di avere contato in ciascuno di essi il numero di piccoli sopravvissuti o unità campionaria = nido o la femmina o variabile è quantitativa discreta. x1 = 0; x2 = 2; x3 = 2; x4 = 0; x5 = 1; x6 = 3; x7 = 3; x8 = 2; x9 = 2; x10 = 4; x11 = 1; x12 = 4; x13 = 2; x14 = 1; x15 = 2; x16 = 3; x17 = 3; x18 = 6; x19 = 4; x20 = 2; x21 = 3; x22 = 3, dove xi, indica il valore assunto dalla variabile X nella i-esima osservazione, con l'indice i che varia da 1 a n (n = 22 = dimensione del campione). classe di frequenza e tabella di frequenza: xi 0 1 2 3 4 6 ni 2 3 7 6 3 1 In questo caso xi indica il valore assunto dalla variabile X nella i-esima classe, con l'indice i che varia da 1 a c, ni è il numero di volte che nel campione ricorre l'osservazione xi e c è il numero di classi (5 nel nostro caso) Chiaramente la somma di tutti gli ni deve dare n, ovvero i=c c ∑ n = ∑n = ∑n = ∑n i i =1 i i=1 i i =n i distribuzione di frequenza: ossia alla distribuzione dei dati nelle diverse classi o distribuzione di probabilità o distribuzione di probabilità teorica diagramma a segmenti (o a barre) o o o o capisco quali sono i valori che ricorrono più frequentemente distribuzione unimodale, bimodale, multimodale? Simmetrica o asimmetrica? Asimmetrica a destra o a sinistra? capisco e l'intervallo di variazione della variabile analizzata Si noti come nella tabella di frequenza è stata inserita anche una categoria, la 5, in cui non si rilevano osservazioni. Questo permette di costruire un diagramma a segmenti che rappresenti correttamente la distribuzione di frequenza dei dati. Esempio di una distribuzione bimodale. Distribuzioni contagiose o numero di animali che hanno contratto una certa parassitosi in 100 nidi di vespa o numero di piante in 100 quadrati di 1 metro x 1 metro frequenze assolute (ni, dette anche numerosità) frequenze relative (fi, o, a volte, pi,), ovviamente varia tra 0 e 1 frequenza percentuale ni n fi (%) = fi × 100 fi = pi = Il termine generico frequenza è spesso utilizzato per indicare cose diverse Istogramma: quando la variabile analizzata assume molti valori diversi nel campione è una migliore rappresentazione della distribuzione di frequenza. Nell’istogramma i dati vengono raggruppati in classi che includono tutti i valori in certo intervallo. Definizione classi o Regolette: radice di n; (1 + ln(n)/ln(2)) o Evitare la presenza di molte classi circa vuote o Limiti di classe (>= e <) o Buon senso Distribuzioni di frequenza per le variabili di tipo qualitativo? Diagramma a segmenti (o a barre) Diagramma a torta Rappresentazione grafica della relazione tra due variabili numeriche Due variabili di tipo quantitativo misurate in ciascuna unità campionaria, o comunque di tipo ordinabile, la rappresentazione grafica delle singole osservazioni in un sistema di assi cartesiani diventa molto importante per evidenziare eventuali tendenze o associazioni. Scatterplot, o nube di punti (due esempi) E’ facile intuire che esiste una associazione tra le due variabili: le femmine di dimensioni maggiori depongono generalmente uova più grandi (a destra), e i maschi più brillanti generano figli più attraenti per le femmine. Associazione positiva, negativa e nulla Inserisco una terza variabile In 30 località europee viene rilevato il livello di precipitazioni annue (mm di pioggia) e il ph medio delle piogge. Con il semplice utilizzo di simboli diversi (quadratini per le le località del Sud-Europa, asterischi per quelle del Nord-Europa), è possibile visualizzare in una nube di punti tre variabili (precipitazioni, ph e posizione geografica). Diagramma a linee . Tre esempi sulla differenza tra associazione e causazione Le variabili di confondimento creano problemi Gli studi sperimentali possono risolvere il problema Rappresentazione tridimensionale di temperatura, umidità, e numero di specie misurate in 13 stazioni di campionamento. Analisi di due (o più) variabili categoriche Tabella di contingenza (in questo caso, per 2 variabili categoriche) Diagramma a barre raggruppate Considerazioni generali sulla visualizzazione grafica - Chiarezza - Completezza - Onestà Indici sintetici di una distribuzione Sintesi attraverso le distribuzioni di frequenza Ulteriori sintesi attraverso le o misure di tendenza centrale (o di posizione) cercano di identificare il valore "tipico" di una distribuzione, ovvero la posizione, nella scala della variabile analizzata, intorno alla quale si concentrano le osservazioni o misure di dispersione sintetizzano il grado di variabilità dei dati Le misure di tendenza centrale e di dispersione dovrebbero quindi rispettivamente, la posizione e l’ampiezza di una distribuzione di frequenza. rispecchiare, Conoscere la dispersione dei dati equivale a conoscere qualcosa sul valore di ogni singolo valore per la comprensione di un fenomeno. Se la dispersione è molto elevata, le singole osservazioni possono essere anche molto diverse, e quindi singolarmente di scarso valore. Si può dire quindi che all’aumentare della dispersione il numero di osservazioni necessarie per trarre delle conclusioni generali a partire da un campione deve aumentare. Quando la variabilità è molto bassa può anche non essere necessario effettuare molte osservazioni, e forse nemmeno ricorrere alla statistica inferenziale. Misure di tendenza centrale La media Media aritmetica. In genere quando si parla di media si intende la media aritmetica Media campionaria, della variabile X, la media campionaria viene indicata con x . n ∑x i 1 x= n Media della popolazione µ= ∑x i N La somma delle differenze dei singolo valori dalla media (detti scarti dalla media) è uguale a 0 e quindi la media si può considerare il baricentro del campione dove si bilanciano gli scarti. ∑ (x i − x ) = ∑ xi − ∑ x = nx − nx = 0 Media a partire da una tabella di frequenza : c ∑xn i i x= oppure 1 n c x = ∑ xi fi 1 Esempio Aplotipo xi ni A B C D E F 51 54 55 57 62 63 5 11 15 29 22 4 c ∑xn i i x= 1 n = 51 × 5 + 54 × 11 + 55 × 15 + 57 × 29 + 62 × 22 + 63 × 4 5738 = = 57,44 86 86 E se la variabile continua? Proprietà della media • la media implica la somma di valori numerici e quindi ⇒ ha un significato solo per le variabili quantitative; ⇒ risente molto dei valori estremi; se un singolo valore nel campione è per esempio molto più grande di tutti gli altri, la media non identifica un valore tipico del campione ⇒ non è calcolabile se alcune osservazioni sono “fuori scala” • nel caso di distribuzioni multimodali, la media raramente identifica un valore tipico Esempio: Supponiamo di sacrificare 12 trote campionate in natura per contare in ciascuna di esse il numero di parassiti intestinali di una certa specie. Dati: 3, 2, 3, 4, 6, 2, 44, 8, 5, 3, 4, 2. La media di questi valori risulta essere 7,16, ma come è facile rendersi conto, questo valore non identifica certamente un valore tipico del campione. Questio a causa di un valore estremo, detto outlier. Esempio: Nove cavie sono sottoposte ad un test cognitivo all’interno di un labirinto, e per ogni animale si misura il tempo impiegato a percorrere un certo tracciato. I risultati ottenuti, in minuti, sono i seguenti: Dati: 23 ,25, 29, 22, 15, >120, 32, 20,>120 In questo caso due valori sono “fuori scala”, e la media calcolata escludendo questi valori mancanti non rappresenterebbe correttamente l’esperimento. La mediana La mediana è il valore centrale in una serie di dati ordinati. Per esempio Dati: 30, 49, 74, 40, 63, 295, 60 Dati ordinati: 30, 40, 49, 60, 63, 74, 295 La mediana è quindi il valore che divide un campione di dati ordinati in due parti ugualmente numerose. In altre parole, metà dei valori nel campione sono più piccoli della mediana, e metà sono più grandi. E’ evidente quindi che la mediana è una misura della tendenza centrale. Se il numero di osservazioni n è dispari, la mediana è il valore che occupa la posizione (n+1)/2 nella serie ordinata dei dati (il quarto valore nell’esempio appena visto). Se n è pari, la mediana è la media tra i 2 valori centrali, ossia la media dei valori nelle posizioni n/2 e n/2 +1. Nel caso di dati raccolti in una tabella di frequenza, è in genere sufficiente identificare la classe che contiene la mediana (la classe mediana). Proprietà della mediana Il calcolo della mediana non implica l’elaborazione dei dati numerici osservati o L’informazione sul peso relativo dei singoli valori viene perduta. E’ spesso un buon indicatore della tendenza centrale di un set di dati è calcolabile anche se la variabile è qualitativa (ma deve essere ordinabile!) non risente dei valori estremi è calcolabile anche se alcune osservazioni sono “fuori scala” Esempi precedenti - la mediana del numero di parassiti nelle 12 trote è pari a 3,5 parassiti - la mediana del tempo impiegato dalla cavie nel labirinto è 25 minuti In entrambi i casi la mediana e facilmente calcolabile e indica bene (meglio della media) dove si concentrano le osservazioni. La mediana, però, soffre dello stesso inconveniente della media, ovvero può portare ad un valore assolutamente non rappresentativo quando la distribuzione non è unimodale. La moda La moda è semplicemente il valore osservato più spesso nel campione. Dati: 0, 1, 5, 2, 2, 2, 3, 3, 3, 2, 4, 4, 1,2 vengono riassunti nella tabella di frequenza xi ni 0 1 2 3 4 5 1 2 5 3 2 1 La moda è quindi pari a 2. Classe modale è quella che contiene il maggior numero di osservazioni. La stretta interpretazione della moda dovrebbe anche avere come conseguenza il fatto che praticamente tutte le distribuzioni osservate sono unimodali Proprietà della moda La moda è una statistica molto semplice e intuitiva per riassumere una distribuzione di frequenza attraverso il suo “picco” più elevato. Anche se, come la mediana, non considera il peso delle singole osservazioni, ha alcune proprietà importanti: • è possibile identificare la moda in qualsiasi tipo di variabile, quindi anche nelle variabili qualitative non ordinabili • indica sempre un valore realmente osservato nel campione • non è influenzata dai valori estremi • nel caso di distribuzioni di frequenza molto asimmetriche, la moda è forse il miglior indice per descrivere la tendenza centrale di un campione • è collegata direttamente al concetto di probabilità (che vedremo meglio nei prossimi capitoli): la moda di una popolazione è il valore della variabile con la la maggior probabilità di essere osservata Questa distribuzione presenta una forte asimmetria a destra. La mediana ha valore 3 e la media 5.24, mentre la moda è uguale a 2. Misure di dispersione Basate sulle differenze tra le singole osservazioni e la media (scarti dalla media) o Varianza o Deviazione standard o Coefficiente di variazione o Tutti i valori concorrono al calcolo di queste tre misure di dispersione (inclusi gli outliers) o L’utilizzo di questi indici non è adatto allo studio della dispersione di variabili qualitative, Non basate sull’elaborazione numerica dei dati o Range o Distanza interquartile. La varianza La somma degli scarti della media è uguale a 0 o media degli scarti = 0 Se però ogni singolo scarto dalla media viene elevato al quadrato… o La media degli scarti al quadrato, chiamata anche scarto quadratico medio, è la varianza. Varianza campionaria: s 2 (x ∑ = 2 − x) n −1 i , La somma degli scarti quadratici al numeratore, chiamata devianza, può essere calcolata anche con le formule semplificate: x) ( ∑ − 2 Dev(X ) = ∑ x 2 i i n Infatti: 2 ( x − x ) = ∑ (xi2 + x 2 − 2xx i ) = ∑ x i2 + n ∑ i ( ∑ xi n2 2 ) −2 ∑x Così il calcolo (manuale) è più preciso. Perché? Attenzione però che concettualmente… i n ∑ x i = ∑ xi2 − ( ∑ xi n 2 ) Cosa c’è di strano nel calcolo di s2 ? o Dal punto di vista della statistica descrittiva potrei usare n al denominatore o Anche se fossero disponibili i dati riferiti a tutte le N unità campionarie della popolazione, allora σ2 = ∑ (x 2 − µ) N i Ma: o La varianza campionaria s2, calcolata utilizzando n al denominatore è una stima distorta (una sottostima in questo caso) della varianza della popolazione σ2 La media di un campione è imprecisa (non è uguale a µ) I valori tendono ad essere più vicini alla media campionaria di quanto non siano a µ Più il campione è piccolo, meno riesce a cogliere tutta la variabilità dei dati nella popolazione Tale distorsione (bias) si può correggere utilizzando il fattore n-1 a denominatore. Nel caso di dati raggruppati in c classi di frequenza c s2 = 2 ∑ ni (xi − x ) 1 n −1 , Se poi i dati sono raccolti in classi corrispondenti ad un intervallo tra due valori, una stima di s2 si può ottenere utilizzando la stessa espressione sostituendo xi con i valori centrali degli intervalli. La deviazione standard L'unita di misura della varianza e l'unita di misura della deviazione standard La deviazione standard, s, indicata anche con l’abbreviativo D.S. o DS, è data da: s = DS = s 2 Coefficiente di variazione E’ una sorta di deviazione standard rielaborata per evitare i cosiddetti “effetti di scala”. Esempio: Deviazione standard nella lunghezza del corpo dei maschi di Gambusia holbrooki (un piccolo pesce d’acqua dolce) é uguale a 3.2 mm Deviazione standard nella lunghezza dei maschi territoriali di Zosterisessor ophiocephalus (il gò, un ghiozzo di laguna) sia pari 10.6 mm. I maschi di Gambusia sono meno variabili dei maschi di gò, ossia i maschi di Gambusia si assomigliano tra loro (per la lunghezza) più di quanto facciano quelli di gò? Forse la maggiore dispersione indicata dalla deviazione standard è solo un effetto della diversa dimensione media di queste due specie o Per esempio, la differenza nella lunghezza del femore tra due persone è senza dubbio di molte volte maggiore della differenza nella lunghezza della zampa di due maggiolini. Quando cioè si vuole confrontare la dispersione tra variabili con medie molto diverse, si ricorre al CV s CV = × 100 x Il coefficiente di variazione è dimensionale o Esempio: Siamo interessati a sapere se nel ghiro è più variabile la lunghezza della coda oppure la durata del letargo (variabili con unità di misura diverse) Nell’esempio dei pesci, assumendo una lunghezza media di 29 mm per i maschi di gambusia e di 181 mm per i maschi di gò: CV(Gambusia) = 11% CV(gò) = 6 %, Un risultato di questo tipo suggerisce una conclusione molto diversa da quella basata sulla deviazione standard: la variabilità nelle dimensioni corporee è quasi doppia nei maschi di Gambusia rispetto a quelli di gò. Il range Range = valore massimo – valore minimo Descrizione molto rozza della dispersione dei dati o si basa solamente sui due valori estremi (ed è quindi altamente influenzata da questi) e non considera assolutamente la quale sia le distribuzione di frequenza dei dati tra essi. La distanza interquartile Cosa sono i quartili? o Imparentati con la mediana, solo che invece di separare l’insieme dei dati ordinati in due gruppi lo separano il quattro o Ogni gruppo contiene il 25% delle osservazioni: il primo quartile, Q1, è il valore che separa il primo 25% delle osservazioni ordinate dal restante 75%, il secondo è la mediana, e il terzo quartile, Q3, è il valore che separa il primo 75% delle osservazioni dal restante 25%. La distanza interquartile è data dalla differenza Q3-Q1, e identifica quindi l’intervallo centrale della distribuzione di frequenza all’interno del quale cade il 50% delle osservazioni. E’ una misura della dispersione dei dati che non risente di eventuali valori estremi molto diversi dalla gran parte degli altri, e può essere calcolata anche quando i valori estremi sono “fuori scala”. L’identificazione dei quartili non è banale quando il numero di osservazioni non è elevato o Cerco la mediana delle due metà dei dati Risultati per dati prima autoamputazione: Mediana: 2.90; primo quartile: 2.34; terzo quartile: 3.045; distanza interquartile: 0.705 Diagramma Box-and-Whiskers (scatola e baffi) o Mediana, primo e terzo quartile, range (+ a volte valori estremi, cioè valori a una distanza dalla scatola superiore a 1.5 volte la distanza interquartile) ESEMPI Fare la tabella di frequenza, l’istogramma, e discutere la forma dell’istogramma Classi con ampiezze diverse. E’ corretto? Distribuzione di frequenza e distribuzione di densità o Classi di ampiezza diversa La corretta e fedele rappresentazione della distribuzione dei dati è ottenuta quando l’altezza di ogni rettangolo corrisponde non alla frequenza ma alla densità media dei valori all’interno della classe corrispondente. E’ invece l’area dei rettangoli a contenere l’informazione relativa alla frequenza. Questa distinzione è teoricamente importante, anche se non sempre rilevante da un punto di vista pratico. Qual’è la tabella più appropriata per rappresentare i dati? Che varaibile è rappresentata nei due istogrammi? Che variabile distingue i due istogrammi? Che grafico è rappresentato? Cosa suggeriscono i grafici? Che tipo di grafico? Che tipo di associazione? Numero di ondulazioni per secondo in serpenti che planano Calcolare media, varianza, deviazione standard, CV, mediana, distanza interquartile Relazione con distribuzione di frequenza se la distribuzione è normale Che tipo di diagrammi? Che tipo di variabile nei due istogrammi? C’e’ una variabile esplicativa e una risposta? Quali sono? In cosa differeriscono i due diagrammi? Conclusioni Calcolare il numero medio di ore dopo la morte fino al rigor mortis. Calcolare la deviazione standard. Calcolare la mediana. Perché minore della media?