Modelli Statistici per l’Ecologia Monica Musio Master in Comunicazione della Scienza Cagliari 24 febbraio 2009 L’universo è un grandissimo libro che continuamente ci sta aperto innanzi agli occhi …, ma non si può intendere se prima non s’impara a intender la lingua, e conoscer i caratteri, ne’ quali è scritto. Egli è scritto in lingua matematica, e i caratteri sono triangoli, cerchi, ed altre figure geometriche, senza i quali mezzi è impossibile a intenderne umanamente parola. Galileo Galilei (1564 - 1642) Le scienze non tentano di spiegare, nemmeno tentano di interpretare; le scienze creano soprattutto dei modelli. Per modello si intende una costruzione matematica che, con l'aggiunta di determinate interpretazioni verbali, descrive i fenomeni osservati. La giustificazione di una tale costruzione matematica sta esclusivamente e precisamente nel fatto che ci si aspetta che funzioni. John von Neumann (1903-1957) Realtà Realtà e percezione Paradigma realtà realtà modelli modelli Realtà Realtà Percezione Idealizzazione Modelli Richiami sui modelli matematici Partiamo dal Calcolo delle Probabilità… …e dalla Statistica – Cos’è l’Ecologia ? – Modelli statistici: • Applicazione: – la foresta di Baden-Württemberg Modelli matematici • • • • Un modello matematico è la rappresentazione formale di un fenomeno. Non esiste una via univoca dalla realtà alla matematica: il fenomeno specifico non determina la “sua” rappresentazione matematica; Il matematico traduce in formule idee e conoscenze relative al fenomeno percepito; Schematicamente abbiamo due tipi di modelli: – – deterministici; probabilistici e statistici. Modelli matematici • Modelli deterministici: – processi in cui l'evoluzione del sistema è determinata in modo univoco dallo stato iniziale del sistema stesso proprietà comunemente ammessa per i sistemi meccanici macroscopici; • In genere si sceglie un modello probabilistico/statistico se: la complessità del sistema è tale per cui non è possibile applicare uno schema deterministico; non si conoscono le leggi che governano il funzionamento del sistema. Modelli matematici Il confine tra i due modelli non è così netto. Si pensi al semplice esempio di un tavolo da biliardo: • • il moto di una palla può essere descritto secondo un modello deterministico: se conosco la velocità, il punto e la direzione in cui la colpisco, attraverso semplici leggi fisiche posso prevederne la traiettoria. Modelli matematici – Se invece sul tavolo ho molte palline, allora: • • • Aumenta la complessità del sistema e non riesco più semplicemente a descriverne le traiettorie; alcuni fattori fondamentali diventano incontrollabili; Utilizzo un modello probabilistico. Non esiste alcuna differenza intrinseca a-priori tra fattori aleatori e fattori deterministici ... – perché ogni elemento aleatorio resta tale finchè le nostre conoscenze al suo riguardo non sono cresciute a sufficienza. Esempio: dove colpirà l`arciere ? Problema: prevedere il punto di impatto della freccia sul bersaglio. – Non è possibile usare un modello deterministico in quanto troppe sono le variabili in gioco (condizioni psico-fisiche del lanciatore, direzione del vento, distanza del bersaglio etc...). Esempio: dove colpirà l`arciere ? – Se però ci rifacciamo all`esperienza passata, ossia se consideriamo una successione sufficientemente lunga di risultati di lanci precedenti, possiamo costruire un modello statistico che ci consenta di prevedere, con una certa probabilità, l`impatto. Caso e Probabilità – Il caso ha sempre affascinato l’umanità. Secondo la mitologia greca, il mondo iniziò quando I tre fratelli Zeus, Poseidone e Ade si giocarono l’Universo a dadi. • I greci non credevano esistesse una struttura negli eventi del caso. Vedevano il caso come l’assenza assoluta di ordine. – “E’ in tutta evidenze ugualmente folle accettare un ragionamento probabile da un matematico e richiedere una dimostrazione ad un retorico”. Aristotele Calcolo delle Probabilità • 1654 nascita del Calcolo delle Probabilità in seguito ad uno scambio epistolare tra due celebri matematici francesi Blaise Pascal e Pierre de Fermat; • Problema dei punti: in che modo due giocatori dovrebbero dividersi la posta se fosse necessario abbandonare il gioco prima del termine della partita ? Calcolo delle Probabilità Prima del Medioevo si pensava che gli eventi che non fossero in qualche modo predeterministici sfuggissero ad ogni possibilità di analisi razionale. • Con la nascita del calcolo delle probabilità nasce anche la nostra moderna visione del futuro: – non è più visto come qualcosa di completamente imprevedibile, ma si è in grado di “pianificarlo”. – La capacità di calcolare le probabilità trasformò la pratica della statistica: dalla mera raccolta di dati si passò all’uso di quest’ultimi per tracciare inferenze e prendere decisioni. Statistica Descrittiva Inferenziale Descrivere e sintetizzare l’informazione di un insieme di dati Estendere da un campione proprietà riguardanti la popolazione di provenienza Calcolo delle Probabilità Inferenza statistica = (Probabilità)-1 • Calcolo delle Probabilità: – nota la distribuzione di probabilità che regola un fenomeno prevedere il risultato di un esperimento; – Il calcolo delle probabilità è una disciplina matematica. • Statistica inferenziale: – partendo da un campione osservato, supposto generato da una certa distribuzione di probabilità non nota, trarre informazioni su tale distribuzione. Inferenza statistica = (Probabilità)-1 • Dedurre il futuro sulla base del passato costituisce il problema filosofico insolubile dell’INDUZIONE. INDUZIONE • Dunque… La statistica è impossibile ! – e questo riflette il fatto che esistano numerose e diverse scuole di pensiero su come condurre l’inferenza statistica. Ci sono tre generi di bugie: le bugie, le maledette bugie e le statistiche. Benjamin Disraeli Il meteorologo non sbaglia mai. Se c’è l’80 % di probabilità di pioggia, e non piove, vuol dire che siamo nel 20 %. Saul Barron La statistica: l’unica scienza che permette a esperti diversi, usando gli stessi numeri, di trarne diverse conclusioni. Evan Esar Le statistiche sono come i bikini. Ciò che rivelano è suggestivo, ma ciò che nascondono è più importante. Aaron Levenstein Quando le regole della matematica si riferiscono alla realtà non sono certe – e quando sono certe non si riferiscono alla realtà. Albert Einstein Esempio dell` urna: X=numero di palline rosse estratte in n estrazioni con reimmissione; p(X=x)=Cn,xθx(1- θ)n-x –se non si conosce θ tale modello non può essere usato per la predizione; La statistica inferenziale stabilisce come usare l`informazione contenuta in un campione di dati osservati per stimare tale valore. Modello statistico (Χ, p(x,θ), Θ) • X è la variabile casuale di interesse per la quale si ipotizza la distribuzione di probabilità p(x,θ); • θ parametro incognito. Modello delle prove ripetute: X1,…,Xn variabili di campione i.i.d. con distribuzione p(x,θ); tali variabili vengono usate per “stimare” il parametro incognito θ. Modelli statistici: regressione • Consideriamo due variabili, per esempio il diametro (X) e il volume (Y) di un albero (misurato dopo l’abbattimento) ; – supponiamo di avere a disposizione n coppie di dati (x1,y1),… (xn,yn); • • ci interessa specificare un modello che spieghi il volume (variabile risposta) come funzione del diametro (variabile di previsione, o regressore). Esiste una funzione f() tale che Y=f(X) ? Modello di regressione • Qual’è il legame matematico tra Y e X? In altre parole, in quale legame funzionale, se esiste, (ad esempio, lineare o non lineare) stanno le due variabili studiate? • Iniziamo con rappresentare graficamente i dati: Y=aX+b E’ evidente una forte relazione sostanzialmente di tipo lineare Modello di regressione lineare • Y=aX+b • Individuati a e b possiamo quindi stimare il valore di Y in corrispondenza di xi; • Indichiamo tale valore con ŷi (valore teorico); • ŷi sarà in generale diverso dal valore osservato yi . L’errore che commettiamo è: εi= |yi - ŷi|; Modello di regressione • • • εi errori casuali cioè variabili casuali che rappresentano la deviazione della risposta dal modello di regressione. Si ipotizza un modello probabilistico per la distribuzione degli errori, solitamente si considera il modello normale: ε ~ N(µ, σ2) I parametri µ e σ2 sono incogniti: per poter conoscere completamente il modello li stimiamo ossia facciamo inferenza. Modello di regressione • Possibili estensioni della regressione lineare semplice: – – k variabili esplicative (diametro, età, specie, stato sociale,…); relazione tra variabili di tipo più complesso di quella lineare. • Il modello lineare presuppone che le osservazioni siano indipendenti. • Questa assunzione è violata nella maggior parte delle applicazioni ecologiche: le osservazioni sono infatti spesso correlate spazialmente e temporalmente. Vari tipi di dati Spaziali • Dati puntuali – dati che hanno una localizzazione puntuale come gli alberi in una foresta o i nidi di uccelli in un albero. • Dati Continui –dati i cui valori cambiano nello spazio come il gradiente delle precipitazioni o la temperatura. • Dati di area – I dati possono essere separati in zone che differiscono per intensità come la densità del numero di specie in una certa area. Esempi dei tre tipi di dati spaziali Dati puntuali Dati di area Processi continui Come modellizare tali dati ? • Si assume che il legame tra i dati sia funzione della loro mutua distanza: osservazioni effettuate su punti vicini presentano una minore variabilità rispetto ad osservazioni distanti. • Stimare la relazione spaziale tra i dati per prevedere il valore assunto da una variabile in una posizione non campionata in base a dei dati rilevati su punti vicini. • Vari metodi a seconda della natura dei dati: • • Il valore incognito in un punto viene calcolato con una media pesata dei valori noti, dove il peso dipende dalla distanza (kriging); usare una funzione sufficientemente regolare delle coordinate geografiche (interpolazione spaziale). Cos’è l’ Ecologia ? • Il termine ecologia fu introdotto dal biologo tedesco Ernst Haeckel nel 1866 – deriva dal greco oikos, cioè casa, ambiente in cui vivere. – L'ecologia, in termini generali, si occupa dell'interazione tra gli organismi e il loro ambiente nel più ampio senso possibile. • Ecologia= scienza dell’ambiente Cos’è l’ Ecologia ? • Charles Krebs (USA, 1972): ``Ecologia è lo studio scientifico delle interazioni che determinano la distribuzione e l'abbondanza degli organismi''. • L’ecologia integra varie discipline: – Chimica – Fisica – Geologia – Biologia Cos’è l’ Ecologia ? • Un sistema ecologico è un sistema complesso. • In generale i fenomeni fisici e chimici possono essere spiegati da modelli deterministici. • Questo principio è raramente valido in ecologia: si ricorre allora a modelli di tipo statistico. La Foresta come Ecosistema Atmosfera Suolo Piogge acide e foreste in Europa • Deterioramento delle foreste osservato in Europa dal . 1970. La foresta nera particolarmente colpita. • Iniziano varie campagne di monitoraggio; • Principali fattori responsabili del deterioramento sono: deposito di sostanze inquinanti attraverso l’aria e la pioggia; cambiamenti climatici; influenze biotiche (pesti, attacchi di funghi o insetti). La defoliazione degli alberi è un buon indicatore dei cambiamenti dell’ecosistema Foresta di Baden Württemberg • Cause: immissioni industriali – Caratteristiche geochimche del suolo; – Acidificazione del suolo; – Spazzano via i macro nutrienti alcalini (Magnesio, Calcio e Potassio): – Defoliazione/ deterioramento degli alberi; ingiallimento delle chiome • Foresta nera: suolo naturalmente acido (granito) reazione più veloce; • Alpi bavaresi: suolo naturalmente alcalino (calcare) reazione più lenta. Foresta di Baden Württemberg • Cause:cambiamenti climatici – Determinano, a breve termine, uno stress sugli alberi; – rendono la foresta più vulnerabile e soggetta ad attacchi di pesti, insetti e funghi; – defoliazione/ deterioramento degli alberi; ingiallimento delle chiome. • Testare diverse ipotesi sul processo che causa il deterioramento della foresta: • • Piogge acide condizioni del suolo macro nutrienti deterioramento della chioma Clima estremo aumento pesti ingiallimento della chioma Foresta di Baden Württemberg • Obiettivo: costruire un modello che spieghi lo stato di salute/deterioramento della foresta in funzione di: • variabili caratteristiche dell’albero (età, diametro, specie, stato sociale); • variabili del suolo (geologia, tipo di suolo, altitudine, coordinate geografiche, elementi nutritivi, …); • fattori biotici (pesti, attacchi di funghi insetti, ect); • variabili climatiche (precipitazione, temperatura, evaporazione); • Coordinate geografiche (longitudine, latitudine), orografia, variabili temporali (anno). Foresta di Baden Württemberg • Allo scopo di: • Fare previsioni (prevedere lo stato della foresta in anni futuri o in zone non campionate). • Migliorare il programma di monitoraggio: sono tutte le variabili campionate necessarie? Informazioni sui dati • La foresta è stata divisa in una griglia, con diversa risoluzione spaziale a seconda dell’anno (4x4, 8x8, 16x16); • In ogni maglia approssimativamente 24 alberi sono stati campionati; • Alcune di queste maglie fanno parte del programma Europeo Livello I; • I dati analizzati sono 146898. Disegno sperimentale Ripartizione spaziale degli alberi a seconda del loro stato di salute Ripartizione spaziale degli alberi rispetto alla specie Requisiti del modello Il modello deve essere in grado di includere: • Possibili effetti non lineari per variabili di tipo continuo (l’età, volume, temperatura, evaporazione); • Iterazioni tra variabili ( specie-età, specie-altitudine, temperatura-posizione geografica…); • Correlazione spaziale e spazio-temporale tra i dati; • Inglobare informazioni provenienti da varie campagne di monitoraggio che possono avere diversa risoluzione spazio-temporale. Il modello • Yit= defoliazione media degli alberi nella griglia i • nell’anno t , i = 1, ..., 1474, t= 1, ..., 22. Yit = f(long, lat, anno)+g(età)+h(altitud)+l(Pr)+errore • Gli errori si suppongono correlati spazialmente e temporalmente: • Si tiene conto del fatto che la defoliazione sia funzione dalla regione e dalla posizione geografica dell’albero; • Si tiene conto del fatto che la defoliazione nell’anno i-esimo è fortemente legate a quella nell’anno i-1. Output del modello Stima dell’effetto dell’età Output del modello Stima dell’effetto della precipitazione Output del modello Stima dell’effetto dell’altitudine. Output del modello Stima dell’effetto del tempo Output del modello Previsione temporale della defoliazione. Output del modello Previsione temporale della defoliazione. Conclusioni • L’ecosistema della foresta è danneggiato: a partire dal 2003 aumenta in maniera significativa la defoliazione; • Le mappe di previsione spaziale producono indicazioni su un probabile processo: – Inizialmente: inquinamento (le aree con un suolo povero di risorse sono state colpite per prime). – Recentemente: condizioni climatiche estreme. – Effetto cumulato. Domande … commenti