Modelli Statistici per
l’Ecologia
Monica Musio
Master in Comunicazione della Scienza
Cagliari 24 febbraio 2009
L’universo è un grandissimo libro che continuamente
ci sta aperto innanzi agli occhi …, ma non si può
intendere se prima non s’impara a intender la lingua, e
conoscer i caratteri, ne’ quali è scritto. Egli è scritto in
lingua matematica, e i caratteri sono triangoli, cerchi,
ed altre figure geometriche, senza i quali mezzi è
impossibile a intenderne umanamente parola.
Galileo Galilei (1564 - 1642)
Le scienze non tentano di spiegare, nemmeno tentano
di interpretare; le scienze creano soprattutto dei
modelli. Per modello si intende una costruzione
matematica che, con l'aggiunta di determinate
interpretazioni verbali, descrive i fenomeni osservati.
La giustificazione di una tale costruzione matematica
sta esclusivamente e precisamente nel fatto che ci si
aspetta che funzioni.
John von Neumann (1903-1957)
Realtà
Realtà e percezione
Paradigma realtà
realtà modelli
modelli
Realtà
Realtà
Percezione
Idealizzazione
Modelli
Richiami sui modelli
matematici
Partiamo dal Calcolo delle
Probabilità…
…e dalla Statistica
– Cos’è l’Ecologia ?
– Modelli statistici:
• Applicazione:
– la foresta di
Baden-Württemberg
Modelli matematici
•
•
•
•
Un modello matematico è la rappresentazione
formale di un fenomeno.
Non esiste una via univoca dalla realtà alla
matematica: il fenomeno specifico non determina la
“sua” rappresentazione matematica;
Il matematico traduce in formule idee e conoscenze
relative al fenomeno percepito;
Schematicamente abbiamo due tipi di modelli:
–
–
deterministici;
probabilistici e statistici.
Modelli matematici
•
Modelli deterministici:
– processi in cui l'evoluzione del sistema è
determinata in modo univoco dallo stato iniziale del
sistema stesso
proprietà comunemente ammessa per i sistemi meccanici
macroscopici;
•
In genere si sceglie un modello
probabilistico/statistico se:
la complessità del sistema è tale per cui non è possibile
applicare uno schema deterministico;
non si conoscono le leggi che governano il funzionamento del
sistema.
Modelli matematici
Il confine tra i due modelli
non è così netto. Si pensi
al semplice esempio di un
tavolo da biliardo:
•
•
il moto di una palla può essere descritto secondo un
modello deterministico:
se conosco la velocità, il punto e la direzione in cui la
colpisco, attraverso semplici leggi fisiche posso
prevederne la traiettoria.
Modelli matematici
– Se invece sul tavolo ho molte palline, allora:
•
•
•
Aumenta la complessità del sistema e non riesco
più semplicemente a descriverne le traiettorie;
alcuni fattori fondamentali diventano
incontrollabili;
Utilizzo un modello probabilistico.
Non esiste alcuna differenza intrinseca a-priori tra
fattori aleatori e fattori deterministici ...
– perché ogni elemento aleatorio resta tale finchè le
nostre conoscenze al suo riguardo non sono
cresciute a sufficienza.
Esempio:
dove colpirà
l`arciere ?
Problema: prevedere il
punto di impatto della
freccia sul bersaglio.
– Non è possibile usare un modello deterministico
in quanto troppe sono le variabili in gioco
(condizioni psico-fisiche del lanciatore, direzione
del vento, distanza del bersaglio etc...).
Esempio: dove colpirà l`arciere ?
– Se però ci rifacciamo all`esperienza passata, ossia se
consideriamo una successione sufficientemente lunga
di risultati di lanci precedenti, possiamo costruire un
modello statistico che ci consenta di prevedere, con una
certa probabilità, l`impatto.
Caso e Probabilità
– Il caso ha sempre affascinato l’umanità. Secondo la
mitologia greca, il mondo iniziò quando I tre fratelli
Zeus, Poseidone e Ade si giocarono l’Universo a
dadi.
• I greci non credevano esistesse una struttura
negli eventi del caso. Vedevano il caso come
l’assenza assoluta di ordine.
– “E’ in tutta evidenze ugualmente folle accettare un
ragionamento probabile da un matematico e richiedere
una dimostrazione ad un retorico”.
Aristotele
Calcolo delle Probabilità
• 1654 nascita del Calcolo delle
Probabilità in seguito ad uno scambio
epistolare tra due celebri matematici
francesi Blaise Pascal e Pierre de
Fermat;
• Problema dei punti: in che modo due
giocatori dovrebbero dividersi la posta se
fosse necessario abbandonare il gioco
prima del termine della partita ?
Calcolo delle Probabilità
Prima del Medioevo si pensava che gli eventi che non
fossero in qualche modo predeterministici sfuggissero ad
ogni possibilità di analisi razionale.
• Con la nascita del calcolo delle probabilità nasce
anche la nostra moderna visione del futuro:
– non è più visto come qualcosa di completamente imprevedibile,
ma si è in grado di “pianificarlo”.
– La capacità di calcolare le probabilità trasformò la pratica della
statistica: dalla mera raccolta di dati si passò all’uso di
quest’ultimi per tracciare inferenze e prendere decisioni.
Statistica
Descrittiva
Inferenziale
Descrivere e sintetizzare
l’informazione
di un insieme di dati
Estendere da un campione
proprietà riguardanti la
popolazione di provenienza
Calcolo delle Probabilità
Inferenza statistica
=
(Probabilità)-1
• Calcolo delle Probabilità:
– nota la distribuzione di probabilità che regola un
fenomeno prevedere il risultato di un esperimento;
– Il calcolo delle probabilità è una disciplina matematica.
• Statistica inferenziale:
– partendo da un campione osservato, supposto generato
da una certa distribuzione di probabilità non nota, trarre
informazioni su tale distribuzione.
Inferenza statistica
=
(Probabilità)-1
• Dedurre il futuro sulla base del passato costituisce
il problema filosofico insolubile dell’INDUZIONE.
INDUZIONE
• Dunque… La statistica è impossibile !
– e questo riflette il fatto che esistano numerose e diverse
scuole di pensiero su come condurre l’inferenza
statistica.
Ci sono tre generi di bugie:
le bugie, le maledette bugie e
le statistiche.
Benjamin Disraeli
Il meteorologo non sbaglia mai. Se c’è l’80 % di probabilità di pioggia, e non
piove, vuol dire che siamo nel 20 %.
Saul Barron
La statistica: l’unica scienza che permette a esperti diversi, usando gli stessi
numeri, di trarne diverse conclusioni.
Evan Esar
Le statistiche sono come i bikini. Ciò che rivelano è suggestivo, ma ciò che
nascondono è più importante.
Aaron Levenstein
Quando le regole della matematica si riferiscono alla realtà non sono certe
– e quando sono certe non si riferiscono alla realtà.
Albert Einstein
Esempio dell` urna: X=numero di palline rosse
estratte in n estrazioni con reimmissione;
p(X=x)=Cn,xθx(1- θ)n-x
–se non si conosce θ tale modello non può essere usato per
la predizione;
La statistica inferenziale stabilisce come usare
l`informazione contenuta in un campione di dati
osservati per stimare tale valore.
Modello statistico
(Χ, p(x,θ), Θ)
• X è la variabile casuale di interesse per la quale si
ipotizza la distribuzione di probabilità p(x,θ);
• θ parametro incognito.
Modello delle prove ripetute: X1,…,Xn variabili di
campione i.i.d. con distribuzione p(x,θ); tali variabili
vengono usate per “stimare” il parametro incognito θ.
Modelli statistici:
regressione
•
Consideriamo due variabili, per esempio il
diametro (X) e il volume (Y) di un albero
(misurato dopo l’abbattimento) ;
– supponiamo di avere a disposizione n coppie di dati
(x1,y1),… (xn,yn);
•
•
ci interessa specificare un modello che
spieghi il volume (variabile risposta) come
funzione del diametro (variabile di previsione, o
regressore).
Esiste una funzione f() tale che Y=f(X) ?
Modello di regressione
•
Qual’è il legame matematico tra Y e X? In altre
parole, in quale legame funzionale, se esiste,
(ad esempio, lineare o non lineare) stanno le
due variabili studiate?
•
Iniziamo con rappresentare graficamente i dati:
Y=aX+b
E’ evidente una forte relazione sostanzialmente di tipo lineare
Modello di regressione
lineare
• Y=aX+b
• Individuati a e b possiamo quindi stimare
il valore di Y in corrispondenza di xi;
• Indichiamo tale valore con ŷi (valore
teorico);
• ŷi sarà in generale diverso dal valore
osservato yi . L’errore che commettiamo
è: εi= |yi - ŷi|;
Modello di regressione
•
•
•
εi errori casuali cioè variabili casuali che
rappresentano la deviazione della risposta dal
modello di regressione.
Si ipotizza un modello probabilistico per la
distribuzione degli errori, solitamente si
considera il modello normale:
ε ~ N(µ, σ2)
I parametri µ e σ2 sono incogniti: per poter
conoscere completamente il modello li
stimiamo ossia facciamo inferenza.
Modello di regressione
•
Possibili estensioni della regressione lineare
semplice:
–
–
k variabili esplicative (diametro, età, specie, stato sociale,…);
relazione tra variabili di tipo più complesso di quella lineare.
•
Il modello lineare presuppone che le
osservazioni siano indipendenti.
•
Questa assunzione è violata nella maggior parte delle
applicazioni ecologiche: le osservazioni sono infatti
spesso correlate spazialmente e temporalmente.
Vari tipi di dati
Spaziali
• Dati puntuali – dati che hanno una
localizzazione puntuale come gli alberi in una
foresta o i nidi di uccelli in un albero.
• Dati Continui –dati i cui valori cambiano nello
spazio come il gradiente delle precipitazioni o
la temperatura.
• Dati di area – I dati possono essere separati in
zone che differiscono per intensità come la
densità del numero di specie in una certa area.
Esempi dei tre tipi di dati
spaziali
Dati puntuali
Dati di area
Processi continui
Come modellizare
tali dati ?
• Si assume che il legame tra i dati sia funzione della loro mutua
distanza: osservazioni effettuate su punti vicini presentano una
minore variabilità rispetto ad osservazioni distanti.
• Stimare la relazione spaziale tra i dati per prevedere il valore
assunto da una variabile in una posizione non campionata in base a
dei dati rilevati su punti vicini.
• Vari metodi a seconda della natura dei dati:
•
•
Il valore incognito in un punto viene calcolato con una media pesata dei
valori noti, dove il peso dipende dalla distanza (kriging);
usare una funzione sufficientemente regolare delle coordinate geografiche
(interpolazione spaziale).
Cos’è l’ Ecologia ?
• Il termine ecologia fu introdotto dal
biologo tedesco Ernst Haeckel nel 1866
– deriva dal greco oikos, cioè casa, ambiente
in cui vivere.
– L'ecologia, in termini generali, si occupa
dell'interazione tra gli organismi e il loro
ambiente nel più ampio senso possibile.
• Ecologia= scienza dell’ambiente
Cos’è l’ Ecologia ?
•
Charles Krebs (USA, 1972): ``Ecologia è lo
studio scientifico delle interazioni che
determinano la distribuzione e l'abbondanza
degli organismi''.
• L’ecologia integra varie discipline:
– Chimica
– Fisica
– Geologia
– Biologia
Cos’è l’ Ecologia ?
• Un sistema ecologico è un sistema
complesso.
• In generale i fenomeni fisici e chimici
possono essere spiegati da modelli
deterministici.
• Questo principio è raramente valido in
ecologia: si ricorre allora a modelli di
tipo statistico.
La Foresta come Ecosistema
Atmosfera
Suolo
Piogge acide e foreste in Europa
• Deterioramento delle foreste osservato in Europa
dal
. 1970. La foresta nera particolarmente colpita.
• Iniziano varie campagne di monitoraggio;
• Principali fattori responsabili
del deterioramento sono:
deposito di sostanze inquinanti
attraverso l’aria e la pioggia;
cambiamenti climatici;
influenze biotiche (pesti, attacchi
di funghi o insetti).
La defoliazione degli alberi è
un buon indicatore dei
cambiamenti dell’ecosistema
Foresta di Baden
Württemberg
• Cause: immissioni industriali
– Caratteristiche geochimche del
suolo;
– Acidificazione del suolo;
– Spazzano via i macro nutrienti
alcalini (Magnesio, Calcio e
Potassio):
– Defoliazione/ deterioramento degli
alberi; ingiallimento delle chiome
• Foresta nera: suolo
naturalmente acido (granito)
reazione più veloce;
• Alpi bavaresi: suolo
naturalmente alcalino (calcare)
reazione più lenta.
Foresta di Baden
Württemberg
• Cause:cambiamenti climatici
– Determinano, a breve termine, uno
stress sugli alberi;
– rendono la foresta più vulnerabile e
soggetta ad attacchi di pesti, insetti
e funghi;
– defoliazione/ deterioramento degli
alberi; ingiallimento delle chiome.
• Testare diverse ipotesi sul processo
che causa il deterioramento della
foresta:
•
•
Piogge acide condizioni del suolo macro nutrienti deterioramento della
chioma
Clima estremo aumento pesti ingiallimento della chioma
Foresta di Baden
Württemberg
• Obiettivo: costruire un modello che
spieghi lo stato di salute/deterioramento
della foresta in funzione di:
• variabili caratteristiche dell’albero (età,
diametro, specie, stato sociale);
• variabili del suolo (geologia, tipo di
suolo, altitudine, coordinate
geografiche, elementi nutritivi, …);
• fattori biotici (pesti, attacchi di funghi
insetti, ect);
• variabili climatiche (precipitazione,
temperatura, evaporazione);
• Coordinate geografiche (longitudine,
latitudine), orografia, variabili temporali
(anno).
Foresta di Baden
Württemberg
• Allo scopo di:
• Fare previsioni (prevedere
lo stato della foresta in anni
futuri o in zone non
campionate).
• Migliorare il programma di
monitoraggio: sono tutte le
variabili campionate
necessarie?
Informazioni sui dati
• La foresta è stata divisa in una griglia, con
diversa risoluzione spaziale a seconda
dell’anno (4x4, 8x8, 16x16);
• In ogni maglia approssimativamente 24 alberi
sono stati campionati;
• Alcune di queste maglie fanno parte del
programma Europeo Livello I;
• I dati analizzati sono 146898.
Disegno sperimentale
Ripartizione spaziale degli alberi
a seconda del loro stato di salute
Ripartizione spaziale degli alberi
rispetto alla specie
Requisiti del modello
Il modello deve essere in grado di includere:
• Possibili effetti non lineari per variabili di tipo continuo
(l’età, volume, temperatura, evaporazione);
• Iterazioni tra variabili ( specie-età, specie-altitudine,
temperatura-posizione geografica…);
• Correlazione spaziale e spazio-temporale tra i dati;
• Inglobare informazioni provenienti da varie campagne
di monitoraggio che possono avere diversa
risoluzione spazio-temporale.
Il modello
• Yit= defoliazione media degli alberi nella griglia i
• nell’anno t , i = 1, ..., 1474, t= 1, ..., 22.
Yit = f(long, lat, anno)+g(età)+h(altitud)+l(Pr)+errore
• Gli errori si suppongono correlati spazialmente e
temporalmente:
• Si tiene conto del fatto che la defoliazione sia funzione dalla
regione e dalla posizione geografica dell’albero;
• Si tiene conto del fatto che la defoliazione nell’anno i-esimo è
fortemente legate a quella nell’anno i-1.
Output del modello
Stima dell’effetto dell’età
Output del modello
Stima dell’effetto della precipitazione
Output del modello
Stima dell’effetto dell’altitudine.
Output del modello
Stima dell’effetto del tempo
Output del modello
Previsione temporale della defoliazione.
Output del modello
Previsione temporale della defoliazione.
Conclusioni
• L’ecosistema della foresta è danneggiato: a partire
dal 2003 aumenta in maniera significativa la
defoliazione;
• Le mappe di previsione spaziale producono
indicazioni su un probabile processo:
– Inizialmente: inquinamento (le aree con un suolo povero di
risorse sono state colpite per prime).
– Recentemente: condizioni climatiche estreme.
– Effetto cumulato.
Domande … commenti