Università degli studi di Padova Dipartimento Territorio e Sistemi Agro-Forestali Corso di laurea in Tecnologie Forestali ed Ambientali ELABORAZIONE ED ANALISI STATISTICA DEI DATI Sergio Rossi Esercitazioni di Ecologia Forestale Anno Accademico 2005-2006 Elaborazione dei dati Perché? 9 Per organizzare i dati raccolti 9 Per rappresentare i dati raccolti 9 Per capire il mondo che ci circonda Come? 9 9 9 9 A mano Con la calcolatrice Mediante foglio elettronico EXCEL Mediante programmi specifici La statistica La statistica si occupa di raccogliere, classificare, sintetizzare ed analizzare dati di tipo quantitativo per poi trarre delle conclusioni e/o generalizzazioni Plurisettorialità della statistica Economia aziendale Ecologia forestale ANALISI STATISTICA Anatomia umana Psicologia criminale Perché usare la statistica? 9Descrivere un fenomeno nella sua interezza 9Organizzare e pianificare gli esperimenti 9Verificare delle ipotesi I limiti della statistica L’ipotesi oggetto di studio viene accettata o rifiutata entro gradi di affidabilità noti cioè valutando quali sono le probabilità che i risultati dello studio siano oggetto del caso I due aspetti della statistica STATISTICA DESCRITTIVA (analisi esplorativa dei dati) di tipo statico, basato sull'osservazione di dati osservati STATISTICA INFERENZIALE, di tipo dinamico, consistente nell'operare stime statistiche collegate al concetto di rischio assunto (o, se si preferisce, a quello di grado di affidabilità scelto). Le principali fasi di lavoro Fase di preparazione e di raccolta dati Fase di catalogazione e di analisi Fase di concettualizzazione Come si procede? Formulazione di un’ipotesi Programmazione dell’esperimento Predisposizione dell’esperimento Raccolta dei dati Catalogazione dei dati Elaborazione dei dati Comprensione ed interpretazione dei risultati Accettazione o rifiuto dell’ipotesi Un esempio pratico Formulazione di un’ipotesi Le foglie nei rami di sole hanno dimensioni maggiori di quelle dei rami di ombra Programmazione dell’esperimento Misurare la lunghezza degli aghi su rami esposti al sole e su rami in ombra Predisposizione dell’esperimento Individuare una o più piante e raccogliere i rami Raccolta dei dati Misurare con un calibro la lunghezza di tutti gli aghi Catalogazione dei dati Trascrivere ed organizzare i dati raccolti su un foglio di calcolo Elaborazione dei dati Calcolare gli indici statistici ed eseguire i test Comprensione ed interpretazione dei risultati Interpretare i risultati dei test statistici e verificare le significatività ottenute (cioè il grado di affidabilità dei risultati) Accettazione o rifiuto dell’ipotesi di partenza Dati Natura: qualitativa, quantitativa Quantificazione: enumerazione, misura Metodo di raccolta: censimento, campionamento Popolazione = insieme di elementi che condividono una o più caratteristiche comuni Es: ¾insieme dei diametri delle piante di abete rosso di 15 anni della stazione di San Vito ¾insieme delle lunghezze degli aghi delle piante di pino silvestre della stazione di Col de la Roa Lo scopo della statistica è descrivere nel modo più appropriato la popolazione mediante l’osservazione o la misura di una parte della popolazione. Campione = una piccola frazione di una popolazione le cui caratteristiche si avvicinano a quelle della popolazione 9Il massimo avvicinamento si ha quando il campione è casuale, cioè quando la probabilità che un elemento venga scelto per far parte del campione è uguale per tutti gli elementi della popolazione 9L’avvicinamento è tanto maggiore quanto maggiore è la dimensione del campione Variabili ed osservazioni VARIABILI = tutte quelle caratteristiche che mostrano una variabilità all’interno di una popolazione OSSERVAZIONI = ciascuna delle misurazioni o conteggi di una variabile Tipi di variabili CATEGORICHE (afferiscono a categorie, es: specie, sito) DISCRETE possono assumere solo determinati valori (numero di aghi lungo un internodo) NUMERICHE CONTINUE possono assumere tutti i valori compresi all’interno di un determinato intervallo (lunghezza degli aghi) Matrici variabile 1 variabile 2 osservazione 1 osservazione 2 osservazione 3 larice pino silvestre 32 18 35 16 29 12 32 15 Catalogazione dei dati Classificazione dei dati grezzi in gruppi omogenei 2 SPECIE (pino silvestre, abete rosso) 2 VARIABILI (aghi, getti) 4 fogli EXCEL 1) Pino aghi 2) Pino getti 3) Abete aghi 4) Abete getti Trascrizione dei dati per gruppi Col de la Roa (R1) A B C D San Vito (R2) E Col de la Roa A B C San Vito A B C D E A B C D E D E Getti principali e secondari 2005 2004 2003 Principale Secondario 2005 Secondario 2004 Secondario 2003 Tabelle di frequenza Lancio un dado 15 volte ed ottengo i seguenti risultati (variabile discreta): 6, 2, 2, 3, 5, 1, 2, 6, 3, 3, 4, 2, 5, 1, 5 risultato frequenza 1 2 2 4 3 3 4 1 5 3 6 2 La frequenza è il numero di volte con cui si presenta un certo risultato Istogrammi 1 2 2 3 3 7 4 8 5 13 6 15 7 11 8 7 9 6 10 2 11 1 frequenza Altezza frequenza (m) 16 14 12 10 8 6 4 2 0 1 2 3 4 5 6 7 8 variabile misurata Classe di altezza! 9 10 11 Numero di classi Il numero delle classi va scelto con molta attenzione ! Regola pratica: se ho n misure, il numero delle classi sarà: n I principali indici statistici Per sintetizzare i dati rilevati o le misure effettuate Media Indici di posizione Mediana Moda Scarto quadratico medio Indici di dispersione Indici di forma Varianza Intervallo di variazione (range) Coefficiente di asimmetria (Skewness) Coefficiente di curtosi Indici di posizione Media = descrive la tendenza centrale di una distribuzione di valori e corrisponde alla somma di tutti i valori diviso il numero dei valori stessi Moda = il valore con la frequenza più alta cioè quello in cui cadono la maggior parte delle osservazioni MODA frequenza MEDIA 16 14 12 10 8 6 4 2 0 1 2 3 4 5 6 7 8 variabile misurata 9 10 11 La media Gli obiettivi che ci si prefigge nel calcolo di una media sono sostanzialmente due: 1) sostituire a più dati rilevati un solo numero che dia una efficace rappresentazione del fenomeno dato; 2) esprimere l’ordine di grandezza o tendenza centrale dell’insieme dei dati relativi a un fenomeno. Tale ordine di grandezza può a volte sfuggire perché i dati sono spesso molto differenti fra loro. Intervallo di variazione (range) Indica quanto ampia è la distribuzione entro la quale sono comprese le misurazioni fatte range = X max − X min Range minore 16 16 14 12 14 12 frequenza frequenza Range maggiore 10 8 6 10 8 6 4 2 4 2 0 0 1 2 3 4 5 6 7 8 variabile misurata 9 10 11 1 2 3 4 5 6 7 8 variabile misurata 9 10 11 Deviazione standard (STD) È la misura della variazione attorno ad un valore centrale di un campione (la media) ed indica l’entità della dispersione dei dati o la disuguaglianza fra i dati STD minore 16 16 14 12 14 12 frequenza frequenza STD maggiore 10 8 6 10 8 6 4 2 4 2 0 0 1 2 3 4 5 6 7 8 variabile misurata 9 10 11 1 2 3 4 5 6 7 8 variabile misurata 9 10 11 Varianza È il quadrato della deviazione standard var ianza = STD 2 Rappresentazione grafica Peso dei giocatori (Kg) 120 100 80 60 40 20 0 calcio football americano Indice di asimmetria Indica il grado di asimmetria della distribuzione Distribuzione simmetrica Skewness=0 Coda verso sinistra Skewness<0 16 16 14 14 14 12 12 12 10 10 10 8 frequenza 16 frequenza frequenza Coda verso destra Skewness>0 8 8 6 6 6 4 4 4 2 2 2 0 0 0 1 2 3 4 5 6 7 8 variabile misurata 9 10 11 1 2 3 4 5 6 7 8 variabile misurata 9 10 11 1 2 3 4 5 6 7 8 variabile misurata 9 10 11 Curtosi Indica il grado di appiattimento della distribuzione ed è una misura del peso relativo delle code della distribuzione rispetto alla parte centrale Curva Gaussiana curtosi=0 Leptocurtosi Curva filata Curtosi>0 16 16 14 14 14 12 12 12 10 10 10 8 frequenza 16 frequenza frequenza Platicurtosi Curva appiattita curtosi<0 8 8 6 6 6 4 4 4 2 2 2 0 0 1 2 3 4 5 6 7 8 variabile misurata 9 10 11 0 1 2 3 4 5 6 7 8 variabile misurata 9 10 11 1 2 3 4 5 6 7 8 variabile misurata 9 10 11 Bibliografia Fowler J, Cohen L (1993) Statistica per ornitologi e naturalisti Muzzio Editore, 240 pp Fowler J, Cohen L, Jarvis P (1998) Practical statistics for field biology John Wiley & Sons, 255 pp L’inferenza statistica Analizzare e capire i fenomeni biologici attraverso la formulazione di ipotesi SEMPLCI e CHIARE Più le ipotesi sono semplici e più è facile capire ed interpretare i risultati ottenuti LE DIFFERENZE OSSERVATE FRA I CAMPIONI RACCOLTI NELLE DIVERSE POPOLAZIONI SONO FRUTTO DEL CASO O SONO STATISTICAMENTE SIGNIFICATIVE? In pratica I due campioni sono statisticamente differenti? La media delle lunghezze degli aghi raccolti sui rami esposti a nord è statisticamente differente da quella degli aghi raccolti sui rami esposti a sud? Il confronto statistico: test t Devo confrontare due campioni presi da due diverse popolazioni PRESUPPOSTI Normalità dei dati OPZIONI Verifica della uguaglianza delle varianze Tipo di test Code L’ipotesi nulla in statistica FREQUENZA Ipotesi nulla (H0) = non esiste alcuna differenza fra i campioni VARIABILE Confermare o rifiutare l’ipotesi nulla? Probabilità Per un certo evento, la probabilità che esso si verifichi è il rapporto fra il numero dei casi favorevoli ed il numero dei casi possibili Espressa come percentuale Espressa come frazione di 1 0-100% 0-1 es: 30% 5% es: 0.3 0.05 Significatività statistica Il risultato di un test statistico (STATISTICA DI UN TEST) deve venire confrontato con dei valori di probabilità già calcolati e tabulati per verificare la significatività statistica del test (p) p è compreso fra 0 e 1 per p > 0.05 risultato non significativo (viene CONFERMATA l’ipotesi nulla; i due campioni NON SONO differenti) per p < 0.05 risultato significativo (viene RIFIUTATA l’ipotesi nulla; i due campioni SONO statisticamente differenti) In pratica … FREQUENZA ⇒ p>0.05, confermo l’ipotesi nulla VARIABILE FREQUENZA ⇒ p<0.05, rifiuto l’ipotesi nulla VARIABILE Livello di significatività Livello di significatività pari a 0.05? 95 volte su 100 la mia decisione sarà corretta 5 volte su 100 rifiuto l’ipotesi nulla anche se questa è vera Normalità dei dati test t ? di tipo parametrico Distribuzione normale dei dati I metodi non parametrici prevedono piccoli campioni! Test ad una o due code Test a due code Test a una coda Ipotesi: i campioni non sono uguali Ipotizza una precisa “direzionalità” verso la quale verificare l’ipotesi H0. Test meno rigoroso; è più facile incappare in errori Tipo di test Test t per campioni indipendenti Non esiste alcuna relazione fra i due campioni raccolti; le serie in esame sono indipendenti Test t per dati appaiati o accoppiati I dati nei due campioni sono strettamente collegati; le serie di dati non sono indipendenti FREQUENZA FREQUENZA Omogeneità delle varianze VARIABILE VARIABILE Test F Varianza1 F= Varianza2 Se le varianze sono identiche F=1 Più le varianze sono diverse e più il valore di F si allontana da 1 La distribuzione di F è stata tabulata: è una famiglia di distribuzioni, a seconda del numero di gradi di libertà a numeratore e denominatore Come procedere Verificare la normalità delle due distribuzioni Distribuzione normale Test per dati appaiati Distribuzione non normale Test non parametrico Verificare la omogeneità delle varianze Varianze omogenee Varianze non omogenee Test a 1 coda Test a 1 coda Test a 2 code Test a 2 code Bibliografia Fowler J, Cohen L (1993) Statistica per ornitologi e naturalisti Muzzio Editore, 240 pp