Farmacia Applicata Parte Matematica--Statistica Antonio Siconolfi Note compilate da Flavia Mascioli Organizzazione del corso • Il corso consta di due parti distinte, una di contenuto statistico-matematico e l’altra informatico. • La parte informatica sara’ tenuta dal prof. Adolfo Piperno. • Le lezioni della parte statistica saranno lunedi’ e quelle informatiche giovedi’. Obiettivi della parte statistica • Far capire l’importanza della statistica nel trattamento dei dati medico- biologici • Far capire la logica del ragionamento statistico • Introdurre i principali elementi di: disegno del metodo di raccolta dei dati analisi esplorativa dei dati • Familiarizzare lo studente con il particolare vocabolario della statistica Materiale didattico 1) Diapositive delle lezioni. 2) Testo consigliato: Moore D. S. (2005), Statistica di base, Apogeo, Milano Cos’è la statistica? La statistica: è intesa ad esplorare il mondo reale attraverso la raccolta, l’analisi e l’interpretazione di dati. I dati sono numeri inseriti in un contesto, che descrivono la variabilità presente in natura . Cos’è la statistica? La statistica: è una disciplina che consente l’analisi dei dati numerici in cui è presente una grande variabilità. La vicinanza di reti ad alta tensione provoca la leucemia nei bambini ? Approccio aneddotico o statistico ? La statistica e la matematica • I principi base della scienza statistica sono semplici e distinti rispetto ai concetti matematici. • Nonostante il nome, questo non è un corso di matematica. • Per questo corso le conoscenze matematiche richieste sono a un livello di scuola secondaria. Perché la statistica in scienze farmaceutiche? • A causa della grande variabilità • intrinseca al materiale medico-biologico: variabilità genetica tra gli individui, variabilità dovuta alla crescita e allo sviluppo degli individui, variabilità delle reazioni di uno stesso individuo in momenti diversi, o delle misurazioni eseguite sullo stesso individuo in tempi diversi. La variabilità • Il concetto di variabilità è fondamentale nella sperimentazione scientifica. • La statistica aiuta nello studio quantitativo della variabilità, permettendo di capire, gestire e ridurre la variabilità. La variabilità Si studia la variabilità del fenomeno effettuando delle misure Si può ipotizzare la legge del fenomeno, cioe’ il rapporto matematico tra dati di cui si cerca un collegamento, ad es. Altezza di un individuo e lunghezza della spina dorsale. Inferenza Statistica basata sulla Probabilita’. La necessità dei metodi statistici • L’esempio che segue illustra la necessità dei metodi statistici per l’analisi di dati quantitativi. • Nella tabella appaiono i risultati di un esperimento per studiare gli effetti dell’irrigazione sulla crescita di piante di cavolo piantate a quattro diverse distanze . I valori che appaiono sono i pesi dei cavoli in kg. Peso (kg) del raccolto di cavoli in 24 appezzamenti di terreno irrigazione distanza Campo A Campo B Campo C frequente 1 (45cm) 1.11 1.03 0.94 frequente 2 (40cm) 1.00 0.82 1.00 frequente 3 (35cm) 0.89 0.80 0.95 frequente 4 (25cm) 0.87 0.65 0.85 rara 1 (45cm) 0.97 0.86 0.92 rara 2 (40cm) 0.80 0.91 0.68 rara 3 (35cm) 0.57 0.72 0.77 rara 4 (25cm) 0.60 0.69 0.51 • Sono state provate tutte le 8 combinazioni di irrigazione e distanza fra piante, perché l’effetto dell’irrigazione può essere diverso per differenti distanze. Inoltre le 8 combinazioni sono state provate su 3 campi diversi. In questo modo si avranno informazioni sulla variabilità del materiale sperimentale, e si otterranno stime più precise sugli effetti dovuti ai trattamenti. • Alcuni effetti importanti possono essere determinati osservando la tabella: l’irrigazione frequente produce cavoli più grandi e una distanza minore ne riduce la dimensione. • Tuttavia, rimangono diverse domande a cui si vorrebbe rispondere e che necessitano di un’analisi statistica più elaborata. • Di quanto aumenta il peso con irrigazioni frequenti e con distanze maggiori? • C’è un relazione tra peso e distanza? • E’ possibile prevedere il peso per una distanza diversa da quelle considerate nell’esperimento? • A parità di irrigazione e distanza c’è differenza tra i raccolti dei 3 campi? Passi principali del disegno di una ricerca biologica Identificare gli scopi della ricerca. Pianificare la ricerca al fine di studiare il problema per il quale si cerca una risposta. Come ottenere i dati di cui si ha bisogno? Quale metodo statistico usare per analizzarli? Come interpretare i risultati? Come presentare i risultati? • Nelle prime lezioni cercheremo di dare qualche idea su: • che cosa è la statistica raccolta e interpretazione dei dati per rispondere a domande sul mondo che ci circonda • i principali tipi di studio usati per rispondere a tali domande indagini campionarie, esperimenti, studi di osservazione • alcune considerazioni pratiche da ricordare quando si effettuano tali studi • il ruolo della randomizzazione in tali studi Il ciclo di una ricerca statistica Problemi reali Questione d’interesse Si pone la domanda Risposta alla domanda originale Interpretazione dei risultati Qual è il loro significato? Disegno del metodo di raccolta dei dati Raccolta dei dati Riassunto e analisi dei dati Quale metodo di raccolta dei dati? Indagini campionarie Sondaggi Esperimenti Studi di osservazione Studi sul campo Indagini campionarie, Sondaggi • In un’indagine campionaria, o in un sondaggio si studiano i dati di un campione dalla popolazione per ottenere informazioni sull’intera popolazione. • La popolazione è l’intero gruppo di unità sul quale vogliamo ottenere informazioni. • Un campione è il sottoinsieme della popolazione che viene esaminato per ottenere le informazioni che interessano. Perché un campione? • Meno costoso • Più rapido • Più pratico da gestire • Il nostro scopo è di ottenere un campione che rifletta la variabilità presente nell’intera popolazione. • Chiameremo un tale campione “rappresentativo”. Disegno campionario • Il disegno campionario o piano di campionamento è il metodo usato per selezionare il campione. • Occorre che il campione venga scelto in modo casuale in modo da non favorire l’inserimento di alcuni elementi rispetto ad altri, o l’autoselezione tra chi deve rispondere. N. B. Scegliere in modo “casuale” non vuol dire “a casaccio” La randomizzazione nelle indagini campionarie • Scegliendo un campione in modo casuale (random) viene data, a tutti gli elementi, la stessa probabilità di essere scelti. • Nel campionamento casuale semplice (CCS) si estrae un campione in cui ogni unità della popolazione ha la stessa probabilità di essere selezionata. Inoltre, campioni della stessa dimensione hanno tutti la stessa probabilità di essere selezionati. Come si sceglie un campione casuale semplice? a) etichettare le unità b) usare il computer c) oppure, usare le tavole di numeri casuali Il campionamento • Ci sono altri disegni campionari che costruiscono campioni probabilistici come il CCS. • Attenzione agli errori di copertura, alle mancate risposte, alle distorsioni nelle risposte. • Si noti che più è grande il campione, più è efficace la randomizzazione nel produrre un campione rappresentativo. • Distorsione Un disegno campionario è distorto se favorisce, in modo sistematico, alcuni individui rispetto ad altri. • Ad esempio, se si vuole misurare la biomassa media dei topi campagnoli, in una certa zona, si attirano i topi in trappole tramite esche. Ma, è probabile la cattura di animali affamati e sottopeso. • Errore di copertura • Esempio. Si vuole stimare il numero medio di uova nei nidi di una specie di uccello in una grande foresta. Se si esaminano, a caso, solo i nidi di una piccola area della foresta, si ha un errore di copertura. Distorsione e variabilità • E’ possibile ridurre la distorsione? Tutti gli elementi della popolazione devono avere la stessa probabilità di essere scelti. Disegno campionario probabilistico. • E’ possibile ridurre la variabilità? Aumentare la dimensione del campione. Gli esperimenti • In un esperimento si sottopongono le unità sperimentali (soggetti) ad alcuni trattamenti per osservarne le reazioni (risposte). • Un trattamento è una condizione sperimentale applicata ai soggetti. Gli esperimenti Esperimento Unità sperimentale pomodori topo paziente Trattamento fertilizzante radiazioni farmaco Risposta raccolto mortalità pressione Studi di osservazione • In uno studio di osservazione si studiano e si confrontano le unità a cui è capitato di “ricevere un trattamento”. Il trattamento non viene imposto e non si cerca di influenzare le risposte. Studi di osservazione Studio di osservazione Unità Trattamento Risposta patate condizioni meteo raccolto individuo radiazioni mortalità paziente fumo tumore(polmone) Studi sul campo • Anche lo studio sul campo è uno studio di osservazione. • In questo caso, si osserva direttamente il comportamento che interessa studiare, in genere in un ambito naturale. • Molte delle conoscenze sul comportamento animale sono state ottenute con questo tipo di studi. • Questo vale per tutte quelle aree di ricerca dove indagini campionarie e esperimenti sono impossibili. Studi di osservazione e Esperimenti • Gli studi di osservazione non possono essere usati per valutare gli effetti di un qualche intervento sulle unità sottoposte a studio, possono solo identificare possibili cause di effetti. • Solo un esperimento ben disegnato e ben eseguito può stabilire un rapporto di causa ed effetto (tra il trattamento e la risposta). Studi di osservazione Un esempio • Uno studio di osservazione, durato 11 anni, su un gruppo di fumatori e non fumatori, ha mostrato che ci sono state 7 morti per tumore al polmone su 100000, nel campione di non fumatori, mentre ce ne sono state 166 su 100000, nel campione di fumatori. • Tuttavia questo non prova che fumare causa il tumore ai polmoni, perché i fumatori, ad esempio, potrebbero fumare a causa dello stress e questo stress potrebbe provocare il tumore polmonare. Disegno degli esperimenti--Disegni completamente randomizzati Asse gnazio ne casua le I gruppo 20 soggetti II gruppo (controllo) 20 soggetti I trattamento Nuovo farmaco Si osservano gli effetti del farmaco II trattamento Placebo 1) numerare i soggetti 2) usare le tavole dei numeri casuali per assegnare i soggetti ai trattamenti 11369 23569 26339 42564 39623 92280 17246…….! Tavole di numeri casuali 12 individui. Si osservano le righe 115 e 116 di una tabella di numeri casuali: 61041 77684 94222 24709 73698 14526 318933 259 26056 31424 80371 65103 62253 50490 Si dividono in coppie Le prime 6 coppie di numeri sono il gruppo trattato. 61 04 17 76 84 94 22 22 47 09 73 69 81 45 26 31 89 33 25 92 60 56 31 42 48 03 71 65 10 36 22 53 50 49 06 11 81 Trattamento: 03, 04, 06, 09, 10, 11 Non trattamento (controllo): gli altri 6 gruppi. • In un disegno completamente randomizzato tutti i soggetti sono assegnati in modo casuale ai trattamenti. • Il confronto con un gruppo di controllo permette di ridurre il più possibile l’influenza di altri fattori che potrebbero confondere l’effetto vero del trattamento. • Ad esempio, supponiamo che l’esperimento descritto sopra voglia verificare l’efficacia di un farmaco (causa) per ridurre la pressione (effetto). • Soggetti con caratteristiche simili vengono assegnati a caso ai due gruppi (trattati e controllo). • Se, invece, un gruppo di soggetti fosse semplicemente osservato (studio di osservazione), l’effetto dell’assunzione del farmaco potrebbe confondersi con le caratteristiche dei soggetti quali, ad esempio, peso, tipo di dieta, attività fisica svolta…… • Perciò non sarebbe possibile stabilire una relazione di causa-effetto. Un esperimento • Torniamo all’esempio dello studio di osservazione sul fumo. • Per controllare il fattore (stress) che si confonde col fattore fumo, si possono dividere i due campioni in diverse categorie di stress. • Quindi si confrontano i fumatori e non fumatori che sono nella stessa categoria di stress. • Solo così si può stabilire una relazione di causa (fumo) – effetto (tumore). Riassunto • Gli studi di osservazione e gli esperimenti producono dati che servono a rispondere a domande specifiche. • Le indagini campionarie, che selezionano una parte della popolazione d’interesse per studiarne tutto l’insieme, sono un esempio di studio di osservazione. • Negli esperimenti, a differenza degli studi di osservazione, i soggetti vengono sottoposti a trattamenti. • Gli studi di osservazione spesso non riescono a mostrare l’influenza di una variabile su un’altra, perché possono esserci effetti di confondimento. • Il disegno campionario è il metodo usato per scegliere il campione. (Attenzione alla distorsione e variabilità) • Il campione probabilistico più importante è il campione casuale semplice. • Per scegliere un CCS si possono usare le tavole dei numeri casuali o un software statistico. • In un esperimento si somministrano uno o più trattamenti ai soggetti. • Il disegno di un esperimento descrive la scelta dei trattamenti e il modo in cui i soggetti sono assegnati ai trattamenti. • Con gli esperimenti è possibile provare l’esistenza di relazioni causa-effetto. • Controllo e randomizzazione Quali domande sui dati per un’indagine statistica? • Perché? _ Qual è lo scopo dell’indagine • Chi? _ Quali unità statistiche, quante • Quali variabili? _ Quali variabili, quante, quali unità di misura L’analisi esplorativa dei dati • Nelle prossime lezioni studieremo i metodi per a) esplorare e b) descrivere i dati. • A tale scopo faremo uso di a) grafici istogrammi, grafici ramo-foglia, box-plot,... b) riassunti numerici centro, dispersione, percentili,... • Attraverso l’analisi esplorativa dei dati cerchiamo di capire cosa i dati “vogliono dire”. Popolazione, unità statistiche, caratteri • In statistica, il termine popolazione indica qualunque insieme di elementi o unità statistiche che sono l’oggetto della ricerca. • Una variabile è un qualunque carattere o caratteristica misurabile o osservabile su un’unità statistica. • I caratteri possono assumere modalità o valori differenti sulle diverse unità statistiche. Popolazione Valore o Modalità (es. altezza = 1.65, colore vestito = rosso) Campione Unità statistica Variabile o carattere statistico (es. altezza, colore del vestito ) Popolazione statistica e popolazione biologica • Attenzione a non confondere la popolazione statistica con la popolazione biologica. • La popolazione biologica si riferisce a tutti gli individui di una determinata specie che si trovano in un’area specifica ad un determinato tempo. Tipi di variabili Le variabili possono essere qualitative o quantitative. Una variabile qualitativa definisce il gruppo di appartenenza. Ad es. il gruppo sanguigno, il sesso Una variabile quantitativa misura o conta qualcosa. Ad es. l’altezza di un individuo, il numero di figli in una famiglia Variabili qualitative • Variabili categoriche (con scala nominale) che non possono essere ordinate Ad es. la specie, il sesso, il tipo di habitat • Variabili ordinate (con scala ordinale) che possono essere ordinate Ad es. la scala di abbondanza per la classificazione dell’abbondanza di diverse specie di piante (dominante, abbondante, frequente, non comune, rara) Variabili quantitative • Variabili quantitative discrete Ad es. il numero di uova deposte da un uccello • Variabili quantitative continue Ad es. la temperatura, il peso di un individuo Tipi di variabile Quantitativa Discreta Continua Qualitativa Categorica Ordinata E’ importante precisare il livello di misura dei dati osservati per determinare la procedura statistica da usare per analizzarli. La precisione delle osservazioni Cifre significative--Arrotondamenti • I dati sperimentali sono, generalmente, misurati con approssimazione a causa degli errori di misura e di osservazione. • Supponiamo che 38.257 m sia la misura di una data grandezza. • Se ne indichiamo la misura con 38 m, implicitamente ci riferiamo all’intervallo 37.5---38.5 ossia, la grandezza è stata misurata con una incertezza dell’ordine del decimetro. • Se ne indichiamo la misura con 38.3 m, ci riferiamo all’intervallo 38.25—38.35 ossia, la grandezza è stata misurata con una incertezza dell’ordine del centimetro. • Se ne indichiamo la misura con 38.26 m, ci riferiamo all’intervallo 38.255—38.265 ossia, la grandezza è stata misurata con una incertezza dell’ordine del millimetro. • L’accuratezza della misura aumenta al crescere delle cifre significative riportate. • Se si vuole ridurre il numero delle cifre significative è possibile procedere con l’arrotondamento. • Ad esempio: numero cifre significative desiderate 234,7891 56,34 56,34 78.887 0,06791 5 3 2 3 3 risposta 234,79 56,3 56 78.900 0,0679 Si noti che in questo esempio si usa la virgola per indicare i decimali, mentre dopo useremo il punto. Errori di misura • Gli errori di misura sono di due tipi: sistematici e casuali. • Esempio di errore sistematico Si consideri un metro a nastro, in cui le divisioni siano state erroneamente tracciate più ravvicinate del dovuto, ad es. siano più vicine del 3%. Come conseguenza le misure risulteranno maggiori di quanto dovrebbero, lo strumento sovrastima le lunghezze. Errori di misura • Un errore sistematico è dovuto all’azione di una sola causa che agisce costantemente in un verso. • Un errore casuale è invece il risultato dell’azione contemporanea di un numero molto grande di cause diverse, ciascuna di piccola entità, che si sommano e si sottraggono differentemente ogni volta che eseguiamo una misura. Proporzioni, percentuali, rapporti, tassi A volte, in alcuni modelli, si opera sui dati osservati per ottenere dei numeri derivati. Esempi importanti di variabili derivate sono le proporzioni, le percentuali, i rapporti e i tassi. Proporzione-- Percentuale • Una proporzione è il rapporto di una parte sul tutto. ► Ad es. se la lunghezza totale del corpo (testa+torace+addome) di un insetto è 7.2mm e se la testa è lunga 2.7mm, la proporzione della testa rispetto al corpo è 2.7/7.2=0.37. ► Ad es. Mortalità = N° morti/ N° abitanti • Una percentuale è una proporzione moltiplicata per 100. ► Ad es. 2.7/7.2=0.37, se si moltiplica per 100 37% Rapporti • Un rapporto è una parte divisa per un’altra parte (il numeratore non è compreso nel denominatore). ►Se la larghezza della capsula della testa di un insetto è 1.31mm e la lunghezza è 2.7mm il rapporto larghezza/lunghezza è pari a 1.31/2.7. ►Se in un campione ci sono 25 femmine e 32 maschi, il rapporto femmine/maschi è pari a 25/32=0.78 o 1:32/25 = 1/1.28, ossia, il rapporto femmine/maschi è 1/1.28. Tassi • Spesso si fa riferimento ai tassi considerati come rapporti tra un’osservazione e un periodo di tempo. • I tassi sono utili per esprimere variabili quali la crescita e i cambiamenti di una popolazione. ►Ad es. un germoglio cresce 15cm in 5 giorni Il rapporto è 15:5 = 3:1 Il tasso di crescita è 3 cm/giorno Analisi esplorativa dei dati • Strategia _ Esaminare ogni variabile separatamente; poi studiare le relazioni tra le variabili _ Cominciare con i grafici _ Poi usare i riassunti numerici _ A volte si usa un modello per la distribuzione dei dati • Per costruire il grafico di una variabile occorre conoscere la sua distribuzione, ossia i valori (o modalità) che assume la variabile e quante volte li assume (frequenza). Rappresentazione grafica delle distribuzioni Cosa ci rivela il grafico sulle caratteristiche principali dei dati esaminati? Il grafico aiuta a interpretare i dati. Attenzione alla scelta del grafico. Le rappresentazioni grafiche sono numerose e devono essere scelte in rapporto ai tipi di variabile e alle scale utilizzate. Sunto • Popolazione, unita’ statistiche, • variabili, variabili quantitative e qualitative, quantitative discrete e continue, qualitative categoriche e ordinate. Dati • Approssimazioni di dati. Troncature ed arrotondamenti. • Proporzioni, percentuali, rapporti e tassi. • Distribuzione di una variabile Grafici per variabili quantitative Grafici ramo-foglia (stem and leaf) Istogrammi Diagrammi a segmenti Grafici ramo-foglia • Ogni numero è diviso in due parti: a I b ramo foglia Esempio: lunghezza dell’ala di 10 passeri (mm) 59 64 68 71 73 75 75 77 80 80 (dati ordinati) ramo 5 6 7 8 foglie 9 48 13557 00 Grafici ramo-foglia 5 6 7 8 5 6 6 7 7 8 9 48 13557 00 9 4 8 13 557 00 Questo grafico si può espandere dividendo ogni ramo a metà. Comprende le foglie 0, 1, 2, 3, 4 Comprende le foglie 5, 6, 7, 8, 9 Grafici ramo-foglia Suggerimenti: • Un grafico appropriato dovrebbe avere tra 5 – 20 gambi. • Usare foglie di una sola unità. Se necessario, arrotondare i numeri. • Specificare sempre l’unità di misura. Ad es. per i dati (in kg): 53190, 54280, 54730 si arrotonda al centinaio di Kg più vicino: 53 | 2 = 532 Kg, 54 | 3, 54 | 7. Nel grafico le prime 2 cifre (migliaia) saranno i rami e la 3a cifra (centinaia) le foglie. Grafici ramo-foglia • Questi grafici si usano quando la dimensione n del campione 15 ≤ n ≤ 150 • Questi grafici mostrano la forma della distribuzione, conservano il valore effettivo di ogni osservazione, mostrano outlier (osservazioni anomale o estreme), interruzioni nei valori, valori raggruppati. Istogrammi • Come si costruisce un istogramma? Variabili continue 1) Si divide il campo di variazione delle osservazioni in classi di uguale ampiezza 2) Si conta il numero di osservazioni in ogni classe 3) Si disegna l’istogramma NOTA: date n osservazioni ordinate in senso crescente, il campo di variazione è la differenza tra la più grande e la più piccola delle osservazioni Gli istogrammi • Esempio 1. Le lunghezze (cm) dei coyote • Femmine 93.0 97.0 92.0 101.5 93.0 84.5 102.5 97.8 91.0 98.0 93.5 91.7 90.2 91.5 80.0 86.4 91.4 83.5 88.0 71.0 81.3 88.5 86.5 90.0 84.0 89.5 84.0 85.0 87.0 88.0 86.5 96.0 87.0 93.5 93.5 90.0 85.0 97.0 86.0 73.7 • Maschi 97.0 95.0 96.0 91.0 95.0 84.5 88.0 96.0 96.0 87.0 95.0 100.0 101.0 96.0 93.0 92.5 95.0 98.5 88.0 81.3 91.4 88.9 86.4 101.6 104.1 88.9 92.0 91.0 90.0 85.0 93.5 78.0 91.0 83.8 103.0 100.5 105.0 86.0 95.5 86.5 90.5 80.0 80.0 Istogrammi Distribuzione delle frequenze e delle frequenze relative delle lunghezze dei coyote femmina Classi 70- 75 75- 80 80- 85 85- 90 90- 95 95-100 100-105 Totale Frequenza Frequenza relativa (nj/n) 2 0.05 0 0 6 0.15 12 0.3 13 0.325 5 0.125 2 0.05 40 1.00 Lunghezze (cm) dei coyote femmina Stem-and-leaf of C1 N = 40 Leaf Unit = 1,0 ordinati in maniera crescente e poi decrescente rispetto alla mediana 2 7 2 7 8 8 20 8 20 9 7 9 2 10 13 013444 556666778889 0001111233333 67778 12 35 30 Percent 25 20 15 10 5 0 72 80 88 96 lunghezza coyote femmina (cm) 104 Istogrammi • Attenzione alla scelta delle classi • Scelte diverse delle classi possono portare a istogrammi di aspetto diverso. ISTOGRAMMI • A volte può essere opportuno considerare classi di ampiezze diverse. • Si supponga di voler ripartire le lunghezze dei coyote in 5 classi raggruppando le lunghezze delle prime due classi e delle ultime due. Classi 70- 80 80- 85 85- 90 90- 95 95-105 Totale Frequenza Frequenza relativa (nj/n) 2 0.05 6 0.15 12 0.3 13 0.325 7 0.175 40 1.00 Istogrammi • Quando le ampiezze delle classi sono diverse, per evitare distorsioni visive, saranno le aree e non più le altezze delle barre ad essere proporzionali alle corrispondenti frequenze. • In tal caso l’altezza del rettangolo corrispondente a una classe viene chiamata densità. • Densità = frequenza ampiezza classe 0,07 0,06 Density 0,05 0,04 0,03 0,02 0,01 0,00 70 80 85 90 95 lunghezza (cm) coyote femmina 0,09 0,08 0,07 Density 0,06 0,05 0,04 0,03 0,02 0,01 0,00 72 80 88 lunghezza (cm) coyote 96 104 105 Istogrammi Suggerimenti: • Un istogramma appropriato dovrebbe avere tra 5 – 20 classi • Gli istogrammi si usano quando la dimensione n del campione è abbastanza numerosa • Gli istogrammi mostrano: la forma della distribuzione, outlier, valori raggruppati, interruzioni nei valori. Diagrammi a segmento Variabili discrete Esempio 2. Numero di protozoi contati in 33 unità campionarie prelevate da uno stagno. 163 165 165 165 166 166 166 166 168 168 168 168 169 169 169 169 169 169 169 169 171 171 171 171 171 171 172 172 172 174 174 175 175 Diagrammi a segmento • Numero di protozoi 163 165 166 168 169 171 172 174 175 Frequenza 1 3 4 4 8 6 3 2 2 Diagramma a segmenti Diagramma ramo-foglia Protozoi 9 8 7 Frequenza 2 163 00 2 164 5 165 000 9 166 0000 9 167 13 168 0000 (8) 169 00000000 13 170 13 171 000000 7 172 000 4 173 4 174 00 2 175 00 6 5 4 3 2 1 0 16 3 16 5 16 6 16 8 16 9 17 1 Numero di protozoi 17 2 17 4 17 5 Variabile discreta: numero di orchidee in 50 quadrati collocati a caso (Esempio 3) n° orchidee 0 frequenza assoluta 21 frequenza relativa 0.42 frequenza rel.cumulata 0.42 1 15 0.30 0.72 2 6 0.12 0.84 3 3 0.06 0.90 4 2 0.04 0.94 5 1 0.02 0.96 8 1 0.02 0.98 12 1 0.02 1.00 50 1.00 totali diagramma a segmenti del n° di orchidee 20 frequenza 15 10 5 0 0 1 2 3 4 numero di carie 5 8 12 frequenza relativa percentuale diagramma a segmenti del n° di orchidee 40 30 20 10 0 0 Percent within all data. 1 2 4 3 numero di orchidee 5 8 12 diagramma a segmenti del n° di orchidee 0,50 0,40 0,30 interruzioni nei valori 0,20 0,10 0,00 0 1 2 3 4 5 6 7 8 9 10 11 12 Esempio 4 Studio delle specie di batteri in un contenitore di crema dermatologica conservata per un mese in un contenitore cilindrico a secondo della profondita’ dalla superficie. Come interpretare questi valori? 24 delle 330 specie sono state trovate in 4 degli strati 4 n = 330 24 24/330x100%=7.3% delle specie sono state trovate in 4 degli strati 7.3 72.4 72.4% delle specie vivono in un numero di strati ≤ 4 Come si interpretano i grafici ramo-foglia, gli istogrammi e i diagrammi a segmento? • Cercare di individuare un andamento generale per i dati osservati • Individuare eventuali scostamenti da tale andamento • Individuare le caratteristiche più significative della distribuzione dei dati quali la forma, il centro, e la dispersione • Individuare eventuali outlier. Possono essere errori o osservazioni interessanti/inusuali Variabili quantitative-Le caratteristiche principali di una distribuzione • Forma unimodale bimodale multimodale simmetrica coda a destra coda a sinistra 2. Centro 3. Dispersione Di solito le distribuzioni sono unimodali, ma, se per esempio, la distribuzione del numero di piccoli sopravvissuti per nido fosse di tipo bimodale, potremmo pensare che il campione analizzato si riferisca a due gruppi ben distinti di genitori che si differenziano per il numero medio di uova deposte o per l'abilità di allevare i piccoli. Tali gruppi potrebbero corrispondere a due specie diverse difficilmente distinguibili, oppure a due classi di età. Saper descrivere i dati basandosi su un dato grafico • Ci sono outlier o interruzioni nei valori (gaps)? • I dati sono simmetrici? • La distribuzione dei dati è unimodale? • Dov’è il centro della distribuzione? • I dati sono molto variabili? Grafici per variabili qualitative Grafici a barre Grafici a torta Grafici a barre Esempio 3. In un laboratorio sono state eseguite 200 analisi e sono stati osservati i gruppi sanguigni Gruppo Frequenza Frequenza relativa % 0 96 48% A 62 31% B 30 15% AB 12 6% • grafici a barre e a torta per l’esempio Gruppi sanguigni 12 0 Gruppi sanguigni Frequenza 10 0 80 60 40 A 20 B AB 0 O A B AB Gruppo sanguigno O Grafici a barre e grafici a torta • Nei grafici a barre ogni frequenza è rappresentata da una barra (rettangolo). • I rettangoli hanno la stessa base e l’altezza è proporzionale alla frequenza. • I grafici a barre sono diversi dagli istogrammi. • Nel grafico a torta si visualizzano le diverse parti in cui è stato diviso un tutto. • Le ampiezze dei settori circolari sono proporzionali alle corrispondenti frequenze percentuali. Riassunto • Un insieme di dati contiene informazioni su un certo numero di unità. • Per ogni unità i dati riportano valori riferiti a una o più variabili. • Variabili qualitative o quantitative. • L’analisi esplorativa dei dati si serve di grafici e indici numerici per descrivere il comportamento delle variabili in un insieme di dati. • La distribuzione di una variabile descrive i valori che questa assume e la frequenza con cui li assume. • Distribuzione delle frequenze, delle frequenze relative e delle frequenze relative cumulate. • Per descrivere una distribuzione è utile cominciare con un grafico. • Nell’analisi di un grafico o distribuzione cercare l’andamento generale (forma, centro, dispersione) e le eventuali deviazioni degne di nota. • Gli outlier sono osservazioni che si discostano molto dal modello generale della distribuzione. Tipi di grafico Variabile quantitativa Discreta Variabile qualitativa Continua grafico a segmenti grafico ramo foglia Categorica Istogramma grafico ramo foglia grafico a barre grafico a torta Ordinata grafico a barre grafico a torta Come rappresentare numericamente una distribuzione? Indici riassuntivi Indici di posizione media, mediana, moda, quartili, percentili Indici di variabilità o dispersione intervallo di variazione, varianza, coefficiente di variazione, box-plot Indici di forma curtosi, indice di simmetria Indici di posizione centrale La media (aritmetica) Esempio 1 I diametri delle cappelle di un fungo commestibile in un campione di 6 sono: 9.3 cm 7.8 cm 6.2 cm 7.0 cm 8.3 cm 9.9 cm la media (aritmetica) dei diametri, ossia il diametro medio, pari a 8.08 cm, è dato da som m a m edia num ero delle delle osservazioni osservazioni Perciò la formula per calcolare la media è data dalla x1 x2 ... xn 1 x xi n n dove x xi = xi = n = media aritmetica campionaria i-ma osservazione somma di tutte le osservazioni del campione numerosità o dimensione del campione La media • Se i dati sono rappresentati con una distribuzione di frequenze, cioè la modalità (il valore) xj compare con la frequenza fj (j = 1, 2, ..., k) si può usare la formula: k x1 f1 x2 f 2 ... xk f k x f1 f 2 ... f k xi fi i1 n La media Esempio 2. Il numero di formiche del legno catturate in 7 trappole, poste di notte in un bosco, è: 25 4 12 9 15 8 202 Qual è il numero medio di formiche per ogni trappola? x = 39.3.Tale valore è più grande di 6 delle 7 osservazioni ed è molto più piccolo dell’ultima. La media utilizza il valore effettivo di ogni osservazione, perciò potrà essere distorta da un singolo valore eccezionale (non è robusta). La mediana Nell’esempio precedente la mediana può essere un indice di centralità più appropriato. La mediana è il valore di mezzo in un insieme di osservazioni che sono state ordinate in ordine crescente. Quindi metà delle osservazioni sono più piccole e metà più grandi della mediana. La mediana Ordiniamo i dati sulle formiche (esempio 2): 4 8 9 12 12 15 25 202 mediana La mediana è più robusta della media, ossia non è influenzata da singoli valori estremi. Nell’esempio la mediana vale 12 qualunque sia il valore della settima osservazione (20, 202 o 2002). Come si calcola la mediana? Esempio 3 1 11 13 med = 9 4 15 7 9 10 12 14 16 19 21 22 25 Se le osservazioni sono in numero dispari, diciamo n la mediana è l’elemento che occupa il posto centrale, cioe’ il posto (n+1)/2 Se le osservazioni sono in numero pari la mediana è la semisomma dei due elementi di posto centrale cioe’ di posto n/2, n/2 +1. Media contro mediana A (a) Dati simmetrici Mediana = media A Mediana Media (b) Le due osservazioni con il valore più grande si sono spostate a destra (dati asimmetrici) La moda • In una distribuzione di dati la moda o (classe modale) è il valore che si verifica con maggior frequenza o (la classe che contiene il maggior numero di osservazioni). • Se due (più di due) valori si verificano con la stessa maggior frequenza la distribuzione è detta bimodale (multimodale). • La moda è l’unica misura di centralità che può essere usata con dati qualitativi. Relazioni tra media mediana e moda Le misure di posizione centrale Tra moda, mediana, e media quale scegliere per rappresentare la nostra distribuzione? Moda: è sempre calcolabile, ma è poco potente dal punto di vista informativo Mediana: è calcolabile soltanto per caratteri almeno ordinabili e trascura l’informazione relativa alla grandezza quantitativa dei dati. Ha però il vantaggio di non essere influenzata dai dati estremi. Media: è calcolabile soltanto per caratteri quantitativi, è la più informativa, ma è influenzata dai dati estremi. Misure di posizione “non centrale” Quartili, Percentili I quartili, rispettivamente, primo quartile Q1, mediana Q2 e terzo quartile Q3 dividono la distribuzione dei dati ordinati in 4 parti uguali. Il primo quartile è la mediana di tutte le osservazioni la cui posizione è inferiore alla posizione della mediana. Il terzo quartile è la mediana delle osservazioni con posizione superiore. Nota: nella letteratura vengono date diverse definizioni di quartili, ma l’idea è sempre la stessa. I quartili Esempio 4 11 13 15 16 19 21 22 25 Med = Q2 = 17.5 Q1 = 14 Q3 = 21.5 Q1 lascia alla propria destra il 75% dell’intera distribuzione.Q3 lascia alla propria destra il 25% della distribuzione. I percentili • I percentili sono quei valori che dividono la distribuzione dei dati ordinati in 100 gruppi di uguale numerosità, dove ogni gruppo contiene circa l’1% di tutti i valori. • Il p-percentile è quel valore tale che il p percento delle osservazioni cade fino a quel valore compreso. • Frequenza relativa dei valori minori o uguali a x moltiplicato 100 n° dei valori ≤ x percentile di x = 100* n° totale dei valori 71,0 73,7 80,0 81,3 83,5 84,0 84,0 84,5 85,0 85,0 86,0 86,4 86,5 86,5 87,0 87,0 88,0 88,0 88,5 89,5 90,0 90,0 90,2 91,0 91,4 91,5 91,7 92,0 93,0 93,0 93,5 93,5 93,5 96,0 97,0 97,0 97,8 98,0 101,5 102,5 Lunghezza (cm) di 40 coyote femmina (v. esempio 1) Vogliamo trovare il percentile corrispondente alla lunghezza 91cm. 24 : 40 * 100 = x x = 60 La lunghezza 91cm è il 60-mo percentile, ossia il 60% dei valori cade alla sua sinistra. Percentili • Esempio: un bambino che superi il 90° percentile avrà un valore (es. di altezza) superiore al 90% di tutti i bambini considerati. • Esempio: la più piccola osservazione in un insieme di 20 è il quinto percentile (5%), l’osservazione successiva è il 10-mo percentile (10%). 1 : 20 = x : 100 • La procedura inversa: ci sono diversi metodi che, dato un percentile, calcolano il corrispondente valore campionario. Sunto • Grafici per variabili qualitative: a barra e a torta. • Indici di posizione: media, mediana, moda. Quartili e percentili. • Distribuzioni unimodali, bimodali, multimodali. Funzione di ripartizione empirica • Associa ad ogni classe di valori della variabile statistica la frequenza relativa cumulata. • Se le classi sono determinate da piccoli intervalli si ottiene una curva continua crescente sino al valore 1 Quantili • Il quantile di ordine a e’ il valore q per cui la frequenza relativa cumulata di tutte le classi in cui la variabile e’ minore o uguale di q, risulta uguale ad a. I quantili si determinano dalla funzione di ripartizione empirica Basta prendere la retta parallela all’asse delle ascisse con ordinata q e proiettare verticalmente sull’asse delle ascisse i punti di intersezione di tale retta con le funzioni di ripartizione. Le ascisse delle proiezioni sono i q quantili. Funzioni di ripartizione empirica del peso alla nascita funzione di ripartizione empirica 1,20 1,00 0,80 0,60 0,40 0,20 0,00 0 20 40 60 80 100 120 140 peso alla nascita non fumatrici fumatrici 160 180 200 Confronto grafico sintetico P-P plot • Possiamo confrontare graficamente le due funzioni di ripartizione (fumatrici e non) riportando su un piano cartesiano, per ogni quantile fissato, in ascissa l’ordinata di una delle due funzioni (per esempio quella delle non fumatrici) e in ordinata l’altra. • Quanto più le due distribuzioni sono simili, tanto più la curva rappresentata sarà vicina alla diagonale del primo quadrante. Indici di variabilità • Se non ci fosse variabilità all’interno di una popolazione non ci sarebbe bisogno della statistica. Una singola unità campionaria sarebbe sufficiente a descrivere l’intera popolazione. • Come si misura la variabilità o dispersione di una distribuzione di dati? Dispersione Variazione rispetto ad un valore centrale (media o mediana). Misure di variabilità: Intervallo di variazione • Intervallo di variazione (range) = osservazione più grande – osservazione più piccola • E’ influenzato dalle osservazioni estreme. Misure di variabilità: Differenza (range) interquartile • Differenza interquartile = terzo quartile Q3 - primo quartile Q1 • Misura la dispersione del 50% dei valori centrali della distribuzione dei dati. • Esempio 5 Per i dati dell’esempio 3 la differenza interquartile è data da 11 13 15 16 19 21 22 25 Q1 = 14 Q3 = 21.5 Diff. interq. = 21.5 – 14 = 7.5 Misure di variabilità Gli indici di posizione centrale dicono attorno a quale valore le osservazioni sono centrate e sono tanto più significativi quanto più i dati sono concentrati vicino ad essi. Per ottenere un’informazione più accurata, è quindi necessario misurare il grado di dispersione dei dati intorno a tali indici. Ciò può farsi, soltanto per i caratteri quantitativi, associando alle misure di tendenza centrale delle misure di variabilità. Misure di variabilità: la varianza e la deviazione standard La varianza e la deviazione standard misurano la variabilità di una distribuzione sintetizzando la dispersione delle osservazioni intorno alla loro media. x1 x x2 x 2 Varianza s 2 Deviazione standard (radice quadrata della varianza) 2 ... xn x n 1 s 1 2 xi x n 1 2 La varianza Vediamo perché nella formula usuale della varianza si usano i quadrati degli scarti e perché si divide per n-1. Innanzitutto la somma degli scarti è sempre nulla. Perché non usare la media dei valori assoluti degli scarti? ESEMPIO. Sia data una popolazione costituita dai valori 1, 2, 3. La varianza della popolazione è pari a xi n 2 i 1 2 n 2 0.6 3 La media della popolazione è pari a µ = 2 Si estraggono tutti i campioni (9) di dimensione 2 con reinserimento. Per ogni campione si calcola la varianza campionaria s2 Si calcola poi la media delle 9 varianze campionarie: 0, 0,707, 1,41, 0,707, 0, 0,707, 1,41, 0,707, 0 tale media è pari a 0.6 = 2/3. Si può quindi dire che s2 è uno stimatore non distorto della varianza incognita della popolazione. Nota: anche la media campionaria x è uno stimatore non distorto della media incognita della popolazione Per i precedenti 9 campioni calcoliamo le varianze campionarie dividendo per n=3 e non per n-1=2. La media di tali varianze campionarie è 1/3. Si ha perciò una sottostima della varianza della popolazione. Analogamente, si può vedere che se usiamo come varianza campionaria n s2 i 1 xi x n si ottiene uno stimatore distorto che sottostima la varianza della popolazione. La varianza campionaria • La varianza campionaria s2 è uno stimatore non distorto della varianza della popolazione σ2 • Questo vuol dire che i valori di s2 tendono a centrare il valore di σ2 e non a sovrastimarlo o sottostimarlo in modo sistematico. La deviazione standard • Esempio 6 Calcolate la deviazione standard per i dati dell’esempio 4. s = 4.80 (controllate !!!!) • s misura la dispersione intorno alla media e si dovrebbe usare quando si usa la media x come misura del centro. • s è sempre maggiore di 0, s = 0 quando non c’è dispersione. • s ha la stessa unità di misura dei dati iniziali Variazioni di scala • I dati della tabella rappresentano i valori della temperatura corporea rilevati su 65 soggetti sani e misurati in gradi Fahrenheit. • La loro media è mf = 98.10 Temperature 96,30 96,70 96,90 97,00 97,10 97,10 97,10 97,20 97,30 97,40 97,40 97,40 97,40 97,50 97,50 97,60 97,60 corporee 97,60 97,70 97,80 97,80 97,80 97,80 97,90 97,90 98,00 98,00 98,00 98,00 98,00 98,00 98,10 98,10 98,20 in gradi Farenheit 98,20 98,70 98,20 98,70 98,20 98,80 98,30 98,80 98,30 98,80 98,40 98,90 98,40 99,00 98,40 99,00 98,40 99,00 98,50 99,10 98,50 99,20 98,60 99,30 98,60 99,40 98,60 99,50 98,60 98,60 Media 98,60 98,10 Come cambia la media se cambia l’unità di misura? • I dati della tabella rappresentano i valori della temperatura corporea degli stessi 65 soggetti sani in gradi Celsius. • La loro media è mc = 36.73 Temperature 35,73 35,95 36,06 36,12 36,17 36,17 36,17 36,23 36,28 36,34 36,34 36,34 36,34 36,39 36,39 36,45 36,45 corporee in gradi Celsius 36,45 36,78 37,06 36,50 36,78 37,06 36,56 36,78 37,12 36,56 36,84 37,12 36,56 36,84 37,12 36,56 36,89 37,17 36,62 36,89 37,23 36,62 36,89 37,23 36,67 36,89 37,23 36,67 36,95 37,28 36,67 36,95 37,34 36,67 37,00 37,39 36,67 37,00 37,45 36,67 37,00 37,50 36,73 37,00 36,73 37,00 Media 36,78 37,00 36,73 Trasformazione delle scale di misura • Le due scale di misura sono legate dalla seguente trasformazione: 5 Tc (T f 32) 9 che applicata alle medie si scrive: 5 mc (m f 32) 9 e fornisce lo stesso valore del calcolo diretto di mc a partire dai dati trasformati, ossia 36.73 = 5/9 x (98.10 – 32) • Con lo stesso insieme dei dati si può verificare che anche la mediana gode della stessa proprietà (per questi dati, inoltre, coincide con la media). Variazioni di scala • Cosa succede alla deviazione standard? • La dev. standard delle temperature in gradi Fahrenheit è pari a 0.62, mentre per le temperature in gradi Celsius è pari a 0.35. • Se si applica la trasformazione precedente alla dev. standard: 5 devstC (devstF 32) 9 ATTENZIONE!! perchè 0.35 = 5/9 x 0.62 Proprietà della media e della deviazione standard 1. Se a tutti gli elementi di una serie di dati viene sommato un numero, la media risulterà aumentata dello stesso numero, mentre la deviazione standard non cambia. 2. Se tutti gli elementi di una serie di dati vengono moltiplicati per una costante, sia la media sia la deviazione standard risulteranno moltiplicati per la stessa costante. istogramma delle temperature (F) Normal 0,6 0,5 0,3 0,2 0,1 0,0 96,8 97,6 98,4 temperature (F) 99,2 istogramma delle temperature (C) Normal 1,2 1,0 0,8 Density Density 0,4 0,6 0,4 0,2 0,0 36,0 36,4 36,8 temperature (C) 37,2 Lo scarto standard: una regola empirica per dati con una distribuzione approssimativamente normale • Lo scarto (deviazione) standard, insieme con la media, fornisce una indicazione utile circa l’intera distribuzione dei dati. • Vedremo che se la distribuzione è approssimativamente normale, l’intervallo x ±s comprende circa il 68% di tutti i valori. Distribuzione normale • Il grafico che si ottiene mettendo ad acissa i valori assunti dalla variabile e a ordinata le frequenze relativa ha la forma di una campana simmetrica. • Media=Mediana= Moda Quali misure di centralità e dispersione? La mediana e i quartili sono misure resistenti, ai valori estremi, la media e la deviazione standard non lo sono. La media e la deviazione standard sono ottimi indici per le distribuzioni simmetriche. I cinque numeri di sintesi e il boxplot non sono sensibili ai valori estremi e quindi sono più adatti per le distribuzioni asimmetriche. Campione e popolazione • Attenzione • Generalmente si osserva un campione estratto da una popolazione e x e s sono misure del centro e della dispersione dei dati del campione. • Se ci si riferisce ad una popolazione la media e la deviazione standard sono indicate con µ e σ. Il coefficiente di variazione Due distribuzioni con deviazioni standard s molto vicine non hanno necessariamente un’analoga dispersione; infatti s è “grande” o “piccolo” rispetto all’ordine di grandezza delle misure a cui si riferisce, ovvero ad un indice di posizione come x . Per confrontare le dispersioni di due diverse distribuzioni occorre confrontare indici indipendenti dall’unità di misura. L’indice più utilizzato è il Coefficiente di Variazione Misure di variabilità: Il coefficiente di variazione • La deviazione standard risente dell’unità di misura e dell’ordine di grandezza dei dati. Esempio 7 2 campioni di maschi Campione Campione 1 2 Età 25 anni 11 anni Peso medio Dev.st. 66 kg 36 kg 4,5 kg 4,5 kg I due campioni hanno la stessa variabilità? • Calcoliamo il coefficiente di variazione dato da s CV 100% x Campione 1: C. V. = 4,5/66 (100) = 6.8% Campione 2: C. V. = 4,5/36 (100) = 12.5% Il coefficiente di variazione esprime s come percentuale di x ed è indipendente dall’unità di misura. I cinque numeri di sintesi e il boxplot • I cinque numeri di sintesi di una distribuzione sono: il valore min. Q1 mediana Q3 il valore max. • Questi cinque numeri danno una descrizione sintetica della distribuzione. • Il boxplot fornisce una rappresentazione grafica dei dati sulla base dei cinque numeri. I cinque numeri di sintesi • Esempio 8 Date le osservazioni ordinate: 24 25 25 25 26 26 27 28 29 30 1° quartile mediana Q1 = 25 Q2 = (26 + 26)/2 = 26 Q3 = 28 2° quartile Boxplot Sunto • • • • • • • Funzione di ripartizione empirica Dispersione Differenza interquartile Varianza Deviazione standard Coefficiente di variazione Distribuzioni normali Come individuare gli outlier sospetti? • Per individuare eventuali outlier la regola più comune è calcolare: 1.5 x Δ dove Δ è la distanza interquartile data da Q3 – Q 1 • Un punto viene considerato un possibile outlier se si trova più di 1.5 x Δ al di sotto del primo quartile o al di sopra del terzo quartile. Indici di forma e di simmetria • Nelle applicazioni medico– biologiche si confronta un istogramma di frequenze osservate (monomodale ) con una distribuzione normale con medesima media e deviazione standard. Un indice di “forma” utile, in tal caso, è l’indice di curtosi dato dalla. 1 n 4 xi x 3 s i Indice di curtosi Ipernormale γ > 0 Leptocurtica, piu’ appuntita di una normale Iponormale γ < 0 Platicurtica, piu’ piatta di una normale Indice di Curtosi L’indice di curtosi vale 0 se la popolazione è normale. γ<0 γ>0 Indice di asimmetria • L’indice di asimmetria (skewness) di Pearson è dato da • S = ( media – moda) / dev. standard • Se S = 0 si ha simmetria • Se S ≥ 1.00 si ha una asimmetria a destra • Se S ≤ -1.00 si ha una asimmetria a sinistra. Riassunto • Un riassunto numerico di una distribuzione deve riportare il centro e la dispersione. • La media, la mediana e la moda descrivono il centro di una distribuzione in modi diversi. • Se si usa la mediana per indicare il centro è opportuno rappresentare la dispersione con i quartili. • I quartili e i percentili sono misure di posizione non centrale che dividono la distribuzione, rispettivamente, in 4 e 100 parti di uguale numerosità. • La varianza e la sua radice quadrata, la deviazione standard, misurano la dispersione rispetto alla media come centro. • Il coefficiente di variazione è una misura di dispersione che non risente dell’unità di misura e dell’ordine di grandezza dei dati. • Il sommario a cinque numeri (mediana, quartili, minimo e massimo) fornisce una descrizione generale della distribuzione. • Il box-plot è un grafico del sommario a cinque numeri. • La mediana e i quartili sono misure resistenti. • L’indice di curtosi e di asimmetria. • Attenzione ai cambiamenti di scala e alle trasformazioni dei dati. Distribuzioni di probabilità – Modelli probabilistici Distribuzioni di frequenze Distribuzioni di probabilità Esempio. Distribuzione del numero di uova per nido di una particolare specie di uccello in una foresta. N° uova Frequenze Frequenze relative 0 1 2 3 4 5 Totale 90 165 209 187 67 12 730 0.12 0.23 0.29 0.26 0.09 0.01 1.00 grafico a segmenti GRAFICO DELLE FREQUENZE GRAFICO DELLE FREQUENZE RELATIVE O DELLE PROBABILITA' 250 0 1 2 3 4 5 150 100 50 0 N° DI UOVA PER NIDO N° DI NIDI N° DI NIDI 200 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 1 2 3 4 5 N° DI UOVA PER NIDO Distribuzioni di probabilità discrete • Diagramma a segmenti delle frequenze relative Diagramma a segmenti delle probabilità: raffigura la distribuzione di probabilità della variabile aleatoria discreta: “n° di uova per nido”. • Distribuzioni discrete utili nelle applicazioni biologiche: • Distribuzione binomiale, Distribuzione di Poisson. Distribuzioni di probabilità continue • Molte distribuzioni di variabili continue possono essere definite matematicamente, alcune descrivono adeguatamente la distribuzione di variabili biologiche. • La distribuzione normale • La distribuzione esponenziale popolazione di 730 nidi in una determinata zona popolazione di 3000 pesci popolazione ipotetica La distribuzione normale: un esempio • Esempio 1. lunghezza (in decimi di mm) delle ali di 100 mosche (Sokal e Rohlf 1995, Biometry). • La “lunghezza di un’ala” è una variabile continua Distribuzione normale: le ali delle mosche • Poiché le misure di lunghezza sono su di una scala continua, è possibile aumentare il grado di precisione delle misurazioni in modo che le classi di frequenza siano a intervalli di 0.01 mm invece che di 0.1 mm. Se si considera un numero di osservazioni molto grande a un grado di precisione infinitamente elevato, i gradini dell’istogramma si trasformano in una curva continua simile a quella della distribuzione normale (con un andamento a campana). L’ISTOGRAMMA Peso di 150 studenti tra i 12-18 anni 0.50 0.40 0.30 0.20 0.10 0.00 40-50 51-60 61-70 71-80 81-90 91+ L’ISTOGRAMMA Peso di 150.000 studenti tra i 12-18 anni 0.05 0.04 0.04 0.03 0.03 0.02 0.02 0.01 0.01 0.00 30 40 50 60 70 80 90 100 Distribuzione normale • Se la scala del grafico è tale che l’area totale sotto la curva è pari a 1, allora l’area rappresenta tutte le osservazioni e la curva è una curva di densità. • L’area che sta sotto la curva e sopra un determinato intervallo di valori rappresenta la proporzione di tutte le osservazioni che cadono in quell’intervallo. • Si può, anche, dire che tale area rappresenta la probabilità che un individuo scelto a caso appartenga a quell’intervallo. Istogramma e distribuzione normale: un altro esempio • Esempio 2. Nella tabella che segue sono riportate le lunghezze (al mm più vicino) di 100 germogli nati da semi piantati allo stesso tempo. • Ad esempio, tutti i germogli di lunghezza tra 73.5mm e 74.5mm sono inseriti nella classe 74mm. • Nella tabella sono, anche, riportate la distribuzione delle frequenze, delle frequenze relative e delle frequenze cumulate dei valori della variabile “lunghezza dei germogli”. Tabella delle frequenze Intervallo classe Lunghezza (mm) Frequenza Frequenza relativa Frequenza rel. cumulata 67.5-68.5 68 1 0.01 0.01 68.5-69.5 69 2 0.02 0.03 69.5-70.5 70 4 0.04 0.07 70.5-71.5 71 7 0.07 0.14 71.5-72.5 72 11 0.11 0.25 72.5-73.5 73 15 0.15 0.40 73.5-74.5 74 20 0.20 0.60 74.5-75.5 75 16 0.16 0.76 75.5-76.5 76 10 0.10 0.86 76.5-77.5 77 6 0.06 0.92 77.5-78.5 78 4 0.04 0.96 78.5-79.5 79 2 0.02 0.98 Distribuzione delle frequenze relative cumulate • La frequenza relativa cumulata per una data classe è ottenuta come somma della corrispondente frequenza relativa e di tutte quelle relative alle classi precedenti. • In modo analogo si definisce la frequenza cumulata. • Spesso si considera la frequenza percentuale cumulata pari alla frequenza relativa cumulata moltiplicata per 100. istogramma della lunghezza(mm) di 100 germogli 0,20 Density 0,15 0,10 0,05 0,00 68 70 72 74 76 lunghezza (mm) germogli 78 80 E’ unimodale (classe modale 73.5-74.5 mm) istogramma della lunghezza(mm) germogli 0,20 Density 0,15 0.07 0,10 0,05 0,00 68 70 a b 72 74 76 lunghezza (mm) germogli 78 80 L’area della barra sull’intervallo a=70.5 e b=71.5 è pari a 0.07. Corrisponde al 7% di tutte le osservazioni. Ossia, nel campione di 100 germogli, il 7% ha lunghezza tra 70.5 e 71.5. istogramma della lunghezza(mm) germogli 0,20 Density l’osservazione b a quale percentile corrisponde? 0,15 0.14 0,10 0,05 0,00 68 70 72 74 76 blunghezza (mm) germogli 78 80 L’area tratteggiata in rosso rappresenta la frequenza relativa cumulata che fino al punto b è pari a 0.14 (14%). istogramma della lunghezza germogli Normal Mean StDev N 0,20 74,02 2,395 100 Density 0,15 0,10 0,05 0,00 68 70 72 74 76 lunghezza (mm) germogli 78 80 Se si aumenta il numero di osservazioni e si diminuisce l’ampiezza delle classi, l’istogramma si avvicina a una curva normale e l’area sotto la curva tra a=70.5 e b=71.5 è pari a 0.075 ed è molto vicina alla percentuale (proporzione) di germogli di lunghezza tra 70.5 e 71.5. Istogrammi e distribuzioni normali • Entrambi gli istogrammi delle lunghezze delle ali di mosche e dei germogli suggeriscono per i dati osservati un andamento simile a quello di una distribuzione normale. • Possiamo, pertanto, costruire un modello normale per descrivere entrambi i fenomeni. • La curva di densità normale rappresenta il modello complessivo delle due distribuzioni. Non tutte le distribuzioni sono normali • Esempio 3 produzione annuale di latte di 100 vacche Jersey(libbre x100) p104 sokal • L’andamento non è simmetrico La distribuzione normale • Tutte le distribuzioni normali hanno la stessa forma generale. La curva di densità per una particolare distribuzione normale si ottiene specificando la sua media µ e la sua deviazione standard σ (o la sua varianza σ2). Distribuzione normale N (µ, σ) Perché le distribuzioni normali sono importanti? rappresentano ragionevolmente bene molte distribuzioni di dati reali permettono di rappresentare in modo compatto i dati. Un gran numero di valori distribuiti normalmente possono essere riassunti da 2 soli numeri: media e varianza sono molto importanti nell’inferenza statistica La distribuzione normale: una proprietà importante La regola 68-95-99.7 Nella distribuzione Normale con media µ e deviazione standard σ: • il 68% delle osservazioni è compreso nell’intervallo [µ − σ, µ + σ] • il 95% delle osservazioni è compreso nell’intervallo [µ − 2 σ, µ + 2σ] • il 99.7% delle osservazioni è compreso nell’intervallo [µ−3 σ, µ+3σ] Area colorata= =0.683 Area colorata= =0.954 C’è una probabilità pari al 68% di essere compresi tra µσ e µ+σ C’è una probabilità pari al 95% di essere compresi tra µ2σ e µ+2σ Area colorata= =0.997 C’è una probabilità pari al 99.7% di essere compresi tra µ3σ e µ+3σ Distribuzione Normale Questa regola è esattamente vera per una distribuzione normale. E’ vera, con buona approssimazione, per le lunghezze dei germogli che sono approx. normali. La distribuzione normale I software statistici calcolano l’area sotto la curva fino al punto x, ossia la proporzione di osservazioni che assumono valori ≤ x. Occorre precisare media e deviazione standard della normale considerata. Area = = probabilità che un’unità scelta a caso abbia un valore ≤ x La standardizzazione Standardizzazione e valori z Se x è un’osservazione da una distribuzione che ha media µ e deviazione standard σ, il valore standardizzato di x è Un valore standardizzato viene spesso chiamato valore z. La standardizzazione • La stardardizzazione trasforma la distribuzione iniziale in una con media nulla e deviazione standard unitaria. • Se x > µ z è positivo • Se x < µ z è negativo Le unità standard • Ad esempio se X ~ N (µ = 20, σ = 4) Trovare il valore z corrispondente a 1) x = 28 z = 2 ( 28 è di 2 dev. st. maggiore della media 20 ) 2) x = 16 z = -1 ( 16 è di 1 dev. st minore della media 20 ) 3) x = 30 z = 2.5 4) x = 13 z=? • Supponiamo che X ~ N (µ = 10, σ = 4) Trovare il valore z corrispondente a x = 28 z = 4.5 ( 28 è di 4.5 dev. st. maggiore della media 10 ) • Supponiamo che X ~ N (µ = 20, σ = 2) Trovare il valore z corrispondente a x = 28 z = 4 ( 28 è di 4 dev. st. maggiore della media 20 ) Le unità standard 1) X ~ N ( µ = 100, σ = 12 ) Trovare il valore z corrispondente a x = 128 z = (128-100)/12 = 2.333 (128 è maggiore della media di 2.3 dev. st.) Se si standardizza una variabile normale si ottiene una nuova variabile con distribuzione N (0,1). La distribuzione normale standard Z ~ N ( 0,1) Le unità standard • Ad esempio se X ~ N (µ = 20, σ = 4) Trovare il valore x corrispondente a z 1) z = 2.3 x è maggiore della media di 2.3 dev st. x = 20 + (2.3 x 4) = 29.2 2) z = - 1.4 x è minore della media di 1.4 dev. st. x = 20 – (1.4 x 4) = 14.4 La tavola della Normale standard Le Tavole sono tabelle che riportano le aree sotto la curva Normale standard. In corrispondenza di ogni valore z viene riportata l’area sotto la curva alla sinistra di z. La tavola della Normale standard L’area sotto la curva alla sinistra di z corrisponde alla frequenza relativa (proporzione) cumulata nel punto z. proporzione di osservazioni minori di 2.33 Quale proporzione di osservazioni di una variabile Z assume un valore minore di 2.33? Ossia qual è la frequenza relativa di Z < 2.33? Se si conosce z, si può trovare l’area Se si conosce l’area, si può trovare z Tabelle • Nella prossima slide una tabella per la distribuzione normale standard, cioe’ a media nulla e deviazione standard unitaria. Per vari valori di z la frequenza cumulata in z . Si parte da z=0 dove, per la simmetria, tale frequenza e’ 0.5 z 0.0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 .00 .5000 .5398 .5793 .6179 .6554 .6915 .7257 .7580 .7881 .8159 .8413 .8643 .8849 .9032 .9192 .9332 .9452 .9554 .9641 STANDARD NORMAL PROBABILIT IES (p.2) .07 .06 .05 .04 .03 .02 .01 .5040 .5080 .5120 .5160 .5199 .5239 .5279 .5438 .5478 .5517 .5557 .5596 .5636 .5675 .5832 .5871 .5910 .5948 .5987 .6026 .6064 .6217 .6255 .6293 .6331 .6368 .6406 .6443 .6591 .6628 .6664 .6700 .6736 .6772 .6808 .6950 .6985 .7019 .7054 .7088 .7123 .7157 .7291 .7324 .7357 .7389 .7422 .7454 .7486 .7611 .7642 .7673 .7704 .7734 .7764 .7794 .7910 .7939 .7967 .7995 .8023 .8051 .8078 .8186 .8212 .8238 .8264 .8289 .8315 .8340 .8438 .8461 .8485 .8508 .8531 .8554 .8577 .8665 .8686 .8708 .8729 .8749 .8770 .8790 .8869 .8888 .8907 .8925 .8944 .8962 .8980 .9049 .9066 .9082 .9099 .9115 .9131 .9147 .9207 .9222 .9236 .9251 .9265 .9279 .9292 .9345 .9357 .9370 .9382 .9394 .9406 .9418 .9463 .9474 .9484 .9495 .9505 .9515 .9525 .9564 .9573 .9582 .9591 .9599 .9608 .9616 .9649 .9656 .9664 .9671 .9678 .9686 .9693 .08 .5319 .5714 .6103 .6480 .6844 .7190 .7517 .7823 .8106 .8365 .8599 .8810 .8997 .9162 .9306 .9429 .9535 .9625 .9699 .09 .5359 .5753 .6141 .6517 .6879 .7224 .7549 .7852 .8133 .8389 .8621 .8830 .9015 .9177 .9319 .9441 .9545 .9633 .9706 Area a sinistra di z = 1.47 z 1.3 1.4 1.5 .00 .9192 TABLE A STANDARD NORMAL PROBABILITIES (p.2) .01 .02 .03 .04 .05 .06 .07 .9207 .9222 .9236 .9251 .9265 .9279 .9292 Tabelle on line: http://econ.lse.ac.uk/ie/iecourse/ ec220course_statstables0203.pdf .08 .09 .9306 .9319 -z +z Quali sono gli estremi dell’intervallo che contiene il 95% dei valori centrali? Cosa si può dire in tal caso delle code della distribuzione? La distribuzione normale • Esempio. La distribuzione del livello di colesterolo in un’ampia fascia di popolazione della stessa età e dello stesso sesso è approssimativamente normale. Per i ragazzi di 14 anni la media è µ = 170mg di colesterolo per decilitro di sangue (mg/dl) e la dev. st. è σ = 30mg/dl. I livelli sopra 240mg/dl richiedono attenzione medica. • Quale percentuale di ragazzi di 14 anni ha più di 240mg/dl di colesterolo? • 1) Scriviamo il problema. Sia x il livello di colesterolo nel sangue. x ~ N(170,30). Bisogna trovare la percentuale di ragazzi con x>240. • 2) Standardizziamo. x > 240 x-170 > 240-170 30 30 z > 2.33 • 3) Usiamo le tavole. P(z < 2.33)= 0.9901. Poichè 1-0.9901=0.0099 diciamo che circa l’1% dei ragazzi ha un livello di colesterolo superiore a 240mg/dl Come si valuta la “normalità” di una distribuzione di dati? • Come possiamo giudicare se i dati provengono da una distribuzione che può essere approssimata con una normale? • Gli istogrammi, i diagrammi ramo-foglia e alcuni indici possono rivelare caratteristiche tipicamente non normali: outlier, asimmetria, interruzioni dei valori (gap), clusters. • Se i grafici appaiono abbastanza simmetrici e unimodali occorre un metodo più sensibile, che possa rivelare l’adeguatezza del modello normale (simmetria, outlier, peso delle code). Plot dei quantili normali: metodo grafico di controllo della normalità dei dati • Ordinare i dati osservati in ordine crescente, e calcolare i percentili campionari. • Esempio: la più piccola osservazione in un insieme di 20 è il quinto percentile (5%), l’osservazione successiva è il 10-mo percentile (10%), …. • Trovare i valori z corrispondenti (che corrispondono agli stessi percentili): z = -1.645 è il quinto percentile della distribuzione normale standard, z = -1.282 è il 10-mo percentile, …. Plot dei quantili normali • Tracciare un grafico riportando l’osservazione x sull’asse orizzontale e il valore z corrispondente sull’asse verticale. • Se i punti del grafico si dispongono vicino a una retta, la distribuzione dei dati è vicina a una distribuzione normale. • Usare un computer Lunghezze dei germogli in un campione di 20 Valori ordinati 5°percentile Produzione annuale di latte (libbre x 100) di 100 vacche Jersey di 2 anni (Sokal, Rohlf p.104) Histogram of latte prodotto (libbrex100) Normal 30 Mean StDev N 25 Percent 20 15 10 5 0 40 50 60 70 80 90 latte prodotto (libbrex100) 100 66,68 11,33 100 53 54 55 56 56 57 58 58 61 65 69 70 74 82 89 98 Sia n=5 la prima osservazione corrisponde al 20mo percentile z1 20 z2 40 z3 60 z4 80 z5 100 L’area sotto la curva normale standard è stata divisa in 5 parti uguali ciascuna con area uguale a 1/5. I punti zi dividono a metà ciascuna delle 5 parti. z1 corrisponde al 10mo percentile, z2 corrisponde al 30mo percentile ecc. • Per un insieme di n = 5 dati normalmente distribuiti ci aspettiamo che corrispondano al 10mo, 30mo, 50mo, 70mo, 90mo percentile, ossia percentile di xi = (i - 0.5)/n Alcuni autori hanno scelto formule leggermente diverse per calcolare il percentile di xi ottenendo risultati leggermente diversi. Ma si ottengono plot essenzialmente uguali. La variabilità naturale dei dati causa le fluttuazioni dei dati intorno alla retta I dati presentano una lunga coda a sinistra I dati presentano una lunga coda a destra Code corte rispetto alla normale, ossia varianza minore rispetto a una normale Code lunghe rispetto alla normale, ossia varianza maggiore rispetto a una normale Modelli matematici • Le distribuzioni di probabilità (con le loro formule) sono modelli matematici adatti a descrivere molti fenomeni naturali. • Sono distribuzioni di frequenze teoriche per le popolazioni che forniscono una rappresentazione idealizzata dei fenomeni stessi. Riportano un’immagina compatta del modello complessivo dei dati, prescindendo da irregolarità minori. • E’ possibile incontrare distribuzioni di probabilità, generate empiricamente, che non possono essere descritte dai modelli noti. L’analisi dei dati con una variabile fare un grafico dei dati interpretare ciò che si vede: forma, centro, dispersione, outlier riassunto numerico? x , s, sommario a 5 numeri modello matematico? quale distribuzione? Riassunto • Le distribuzioni normali sono rappresentate da una famiglia speciale di curve di densità simmetriche a forma di campana, chiamate curve normali. • La media µ e la deviazione standard σ specificano completamente una distribuzione normale N (µ, σ). • La standardizzazione trasforma un valore x nel corrispondente valore z = (x- µ)/ σ. • Tutte le distribuzioni normali sono identiche quando le osservazioni sono trasformate in scala standardizzata. • Tutte le distribuzioni normali soddisfano la formula 68-95-99.7. • I plot dei quantili normali permettono di valutare “la normalità” di una distribuzione di dati. Relazioni tra 2 variabili quantitative • Esempio: un modello di comportamento studiato dagli ecologi mette in relazione la taglia delle specie carnivore ( massa corporea in kg) con il numero di carnivori della stessa specie che vivono in una data area (abbondanza della specie). Più precisamente occorre calcolare quanti carnivori della stessa specie sono presenti ogni 10000 Kg di prede nell’area. La tabella riporta i dati relativi a 25 specie di carnivori. Il modello prevede che l’abbondanza della specie (variabile di risposta) vari in funzione della massa corporea (variabile esplicativa). E’ stata effettuata una trasformazione logaritmica su entrambe le variabili. Specie Massa x corporea Abbondanza Specie y donnola 0.14 Kg 0.16 0.55 1.3 1656.49 406.66 514.84 31.84 lupo etiope 2.02 2.16 3.19 15.96 145.94 21.63 lupo volpe rossa 4.6 32.21 lince rossa 10.0 lince canadese 11.2 13.0 ermellino mangusta martora volpino volpe ( Manica) volpe artica tasso coyote Massa x corporea Abbon danza y 14.5 Kg 20.0 25.0 25.0 2.70 0.46 1.61 0.81 46.0 46.5 50.0 0.62 6.17 2.29 puma 51.9 0.94 9.75 iena 58.6 0.68 4.79 7.35 leone 142.0 181.0 3.40 0.33 Lince asiatica cane selvaggio dhole leopardo ghepardo tigre orso polare Come si esplora una relazione tra due o più variabili quantitative? Rappresentare graficamente i dati Descrivere gli andamenti generali e le eventuali deviazioni da tali andamenti Se l’andamento generale è piuttosto regolare, utilizzare un modello (matematico, statistico) per descrivere tale andamento Diagramma di dispersione Come si interpreta un diagramma di dispersione • Cercare l’andamento generale (trend) • L’andamento generale si descrive attraverso la forma, la direzione e la forza della relazione • Attenzione agli outlier • I carnivori più grandi sono meno abbondanti. • Associazione negativa moderatamente forte (r = -0.9124) • La forma dell’associazione è lineare. • Animali che vivono in parti del mondo diverse tendono a seguire un modello comportamentale analogo e piuttosto semplice. • Potremmo usare questo modello lineare (a linea retta) per predire l’abbondanza di altre specie carnivore conoscendo la massa corporea. A occhio non è possibile giudicare quanto una relazione lineare sia forte. necessario un indice numerico Correlazione La correlazione misura la direzione e la forza della relazione lineare fra due variabili quantitative. La correlazione è solitamente indicata con r. Supponiamo di essere in possesso di n osservazioni riguardanti le variabili x e y. I valori per la prima unità sono x1 e y1, i valori per la seconda unità sono x2 e y2 e così via. Le medie e le deviazioni standard delle due variabili sono ¯x e sx per i valori x e ¯y e sy per i valori y. Il coefficiente di correlazione r fra x e y è dato da -1≤ r ≤ 1 Attenzione all’uso della correlazione • 1) La relazione tra le 2 variabili deve essere rettilinea (lineare) non curvilinea • 2) Non si può concludere che poiché 2 variabili sono correlate in modo significativo, una è necessariamente la causa dell’altra. Un fattore nascosto può essere la causa della variabilità delle 2 variabili. • 3) Se r=0 (correlazione lineare non significativa) può esistere una relazione non lineare tra le variabili. • 4) La correlazione non è una misura robusta. Cosa rivela un diagramma di dispersione? Trend lineare con una dispersione moderata e costante lungo la linea di tendenza Cosa rivela un diagramma di dispersione? Trend non lineare con poca dispersione dei dati intorno alla curva Relazione forte Trend non lineare con dispersione non costante intorno alla curva Relazione debole A e B sono outlier Dopo un controllo B si è rivelato un errore mentre A è sembrato un valore possibile Regressione lineare • Retta di regressione. Modello statistico che descrive la relazione lineare tra due variabili quantitative • Una retta di regressione: • descrive come cambia (linearmente) una variabile di risposta y quando cambia la variabile esplicativa x, • spesso viene usata per prevedere nuovi valori di y da nuovi valori di x, • determina quanta parte della variabilità (incertezza) di y può essere spiegata dalla relazione lineare con x, e quanta di questa variabilità resta non spiegata. • Esempio: le colonie degli uccelli. Alcuni biologi hanno osservato per 2 anni consecutivi 13 colonie di sparvieri. Nel secondo anno in ogni colonia è stata rilevata sia la percentuale di esemplari ritornati (v. esplicativa), sia il numero di nuovi esemplari (v. di risposta). Percentuale che ritorna x Nuovi adulti y Percentuale che ritorna x Nuovi adulti y 74 66 81 52 73 62 52 5 6 8 11 12 15 16 45 62 46 60 46 38 17 18 18 19 20 20 Le colonie degli uccelli • Per gli uccelli che hanno vita breve, generalmente l’associazione tra queste variabili è positiva: le variazioni climatiche e le provviste di cibo alternano l’arrivo e la partenza delle popolazioni di uccelli nuovi e vecchi. • Diverso è il rapporto per gli uccelli che vivono a lungo: l’associazione è negativa dato che gli uccelli che ritornano pretendono i loro territori nella colonia e non lasciano spazio ai nuovi arrivati. r=0.7485 residuo residuo residuo residuo La retta di regressione dei minimi quadrati • La retta di regressione dei minimi quadrati • La retta di regressione di y su x trovata con il metodo dei minimi quadrati è la linea retta che rende minima la somma dei quadrati delle distanze verticali tra i punti osservati e la retta stessa. Tali distanze sono dette anche residui o errori di previsione. Retta di regressione dei minimi quadrati: formule Supponiamo di avere dei dati su una variabile esplicativa x e su una variabile di risposta y per n unità. In base ai dati, ricaviamo le medie ¯x e ¯y e le deviazioni standard sx e sy delle due variabili e la loro correlazione r. La retta di regressione dei minimi quadrati è la linea con coefficiente angolare e intercetta L’espressione del coefficiente angolare suggerisce che lungo la retta, una variazione di una deviazione standard in x corrisponde ad una variazione di r deviazioni standard in y. La retta di regressione • La retta di regressione per l’esempio è: ŷ = 31.9 – 0.3040x ŷ =13.69 ad es. per x = 60 • Il coefficiente angolare misura quanto cambia ŷ quando x aumenta di 1 e dipende dalle unità di misura di x e y. • Nell’esempio, b=-0.3040 ci dice che per ogni punto percentuale in più di “rientri” è possibile prevedere circa 0.3 nuovi esemplari in meno. • L’intercetta è il valore di ŷ quando x=0. • Nell’esempio, x=0 equivale alla scomparsa della colonia, perché nessun esemplare ritorna, perciò il valore ŷ =31.9 non ha significato. • Si possono fare previsioni con la retta. • Nell’esempio, si può prevedere il numero di nuovi esemplari quando si ha il 60% di “rientri”. Si avrà ŷ = 13.69 che è un valore “in media” quando si considerano più colonie con il 60% dei rientri. ŷ Residui Il residuo è la differenza fra un valore osservato della variabile di risposta e il valore previsto dalla retta di regressione. Vale a dire residuo = y osservato-y previsto = y - ŷ La somma dei residui dei minimi quadrati è pari a zero e perciò la loro media è sempre zero Grafico dei residui Un grafico dei residui è un diagramma a dispersione in cui i residui della regressione vengono rappresentati rispetto alla variabile esplicativa. I grafici dei residui aiutano a valutare l’adattamento ai dati della retta di regressione. Grafico dei residui Posizionando la retta di regressione orizzontalmente, il grafico permette di valutare meglio le deviazioni dei punti dalla retta. Sarà più facile notare osservazioni anomale o comportamenti Devianza spiegata e totale • ESS= Varianza dei dati acquisiti dalla retta di regressione rispetto alla media • TSS= vera varianza dei dati Variabilità della y spiegata e non spiegata dal modello x,y deviazio ne tot. y - y¯ deviazione non spiegata y - y^ x,y^ deviazione spiegata y^ - y¯ x,y¯ media di y retta di regressione Come si valuta la bontà del modello? • Per valutare la bontà del modello si può considerare r2 • r2 è la proporzione di variabilità dei valori di y spiegata dal modello di regressione di y su x. variabilità spiegata r2 = ------------------------- = coefficiente di determinazione variabilità totale Nell’esempio, r2 = 0.5603, ossia circa il 56% della variabilità dei nuovi esemplari è spiegata tramite la relazione lineare con la percentuale dei rientri. Osservando la figura, si vede che il numero di nuovi esemplari che si aggiungono alla colonia varia da 5 a 20 . Parte di questa variabilità di y è spiegata dal fatto che la percentuale x dei “rientri” varia dal 38% all’81%. r2 varia tra 0 e 1. r2 prossimo a 1 buon adattamento della retta di regressione ai dati osservati. r2 prossimo a 0 cattivo adattamento della retta di regressione ai dati osservati. • Ma esiste anche una certa variabilità al di sopra e al di sotto della retta che non può essere spiegata dalla relazione lineare tra x e y. • Nell’esempio: r = - 0.7485 e r2 = 0.5603. 44% della variabilità totale è la variabilità interna delle colonie che non è spiegabile dalla relazione lineare. • Nell’esempio dei carnivori ( r = -0.9124, r2 = 0.8325). • Più dell’83% della variabilità nell’abbondanza dei carnivori è spiegata dal modello lineare. • Solo il 17% è la variabilità fra le specie con la stessa massa. • r2 non è il fattore più importante per valutare la bontà del modello. Si possono osservare valori di r2 vicini a 1 in regressioni in cui l’analisi dei residui mostra l’inadeguatezza del modello. Osservazioni influenti • Outlier e osservazioni influenti nella regressione • Un outlier è un’osservazione che non segue il modello generale assunto dalla maggior parte delle osservazioni. I punti che, guardando un diagramma di dispersione, possiamo considerare outlier in direzione di y, hanno residui elevati. • Un’osservazione è influente se, eliminandola, cambierebbe profondamente il risultato. I punti che, in un diagramma di dispersione, possiamo considerare outlier in direzione della x sono spesso punti influenti nella determinazione della retta di regressione dei minimi quadrati. Attenzione all’estrapolazione • Estrapolazione • L’estrapolazione è l’utilizzo della retta di regressione per fare previsioni al di fuori dell’intervallo di valori, della variabile esplicativa x, utilizzati per ottenere la linea. Previsioni di questo tipo sono spesso piuttosto imprecise. Attenzione alla variabile nascosta Variabile nascosta Una variabile nascosta è una variabile che ha un effetto importante sulla relazione fra le variabili analizzate, ma che non è stata presa in considerazione nello studio. La correlazione e la regressione possono essere ingannevoli se si ignorano variabili nascoste significative. Le associazioni non implicano rapporti di causa ed effetto • Le associazioni non implicano causa/effetto • Un’associazione fra una variabile esplicativa x e una di risposta y, anche se molto forte, non comporta necessariamente che y venga modificata ad opera di x. • Esempio: esiste un’alta correlazione positiva tra il numero di televisori per persona x e la vita media y per diverse nazioni del mondo: nelle nazioni con molti televisori si vive più a lungo (la ricchezza di una nazione può essere una variabile nascosta). • Correlazione spuria. Non c’è rapporto causa/effetto. • In generale è consigliabile essere cauti nell’affermare che esiste una relazione causa-effetto fra 2 variabili, solo perché sono associate fortemente. • Una forte correlazione non implica necessariamente un rapporto di causalità. • Il modo migliore per valutare gli effetti di x su y è attraverso un esperimento controllato in cui modificando x si mantengono le variabili nascoste sotto controllo.