Analisi dei risultati
Dott. Geol. Enrico Alberico
"Certo, certissimo, anzi probabile."
E. Flaiano
Analisi dei risultati
Risultati ottenuti
Il "Progetto" ha consentito di ottenere:
317 analisi di terreni agricoli
187 analisi di sedimenti e terreni limitrofi alle rogge
Il numero di variabili, per ogni analisi, è di 58 (8 Metalli, 33
congeneri di PCB, 7 congeneri di Diossine e 10 congeneri di
Furani)
A questi dati, si possono aggiungere i 58 campioni di terreni
agricoli prelevati nel 2006 che, per tipologia di analiti e per
completezza dei valori sono confrontabili a quanto effettuato
nel 2014-2015
2
Analisi dei risultati
Risultati ottenuti (segue)
In totale:
504 analisi nuove + 58 analisi storiche
562 analisi, ognuna avente 58 analiti
32.596 valori
identificabili da nome punto di prelievo e analita
Inoltre, sono state acquisite 530 analisi relative alle
campagne d’indagine 2002, 2003, 2004 e 2005
Tali analisi, purtroppo, non hanno la completezza dei dati
delle successive campagne.
3
Che fare?
Archivio
Tutti i dati sono
archiviati per futuri
lavori
Database
32.596
dati
Dott. Rocco
Bortoletto
Data mining
Statistica
Analisi sui singoli
analiti per individuare
trend (già eseguita)
Data mining
"Se torturi i numeri abbastanza a lungo, confesseranno qualsiasi cosa."
G. Easterbrook
Data mining
Data mining
Il “data mining” è un processo per estrarre relazioni da
banche dati di grandi dimensioni tramite l'applicazione di
algoritmi che individuano le associazioni tra le informazioni e
le rendono visibili.
La statistica permette di elaborare informazioni generali
riguardo ad una popolazione
Il data mining viene utilizzato per cercare
correlazioni tra più variabili relativamente ai
singoli individui
6
Data mining
Pattern recognition
Può essere tradotto concettualmente con il termine di
“Riconoscimento di configurazioni”
Scopo: individuare (classificare) insiemi o gruppi di pattern
con caratteristiche omogenee (cluster)
Cluster (classe): è l’insieme
di oggetti statistici aventi
proprietà comuni, descritte dai
loro attributi (per es.: classe
degli uomini biondi, cluster dei
segnali cardiaci, classe delle
auto d’epoca, …)
7
L’analisi cluster
"Le statistiche sono come i bikini. Ciò che rivelano è suggestivo, ma ciò
che nascondono è essenziale"
A. Levenstein
Analisi cluster
Analisi cluster
L’analisi cluster è il nome generico attribuito a un insieme di
metodi statistici multivariati orientati ad individuare gruppi
simili in un campione di dati
Nell’analisi cluster non è necessario conoscere a priori la
struttura dei gruppi o le loro proprietà, cosicché essa
rappresenta un attrattivo strumento esplorativo
9
Analisi cluster
Metodi di analisi cluster
Non Supervisionati
Supervisionati
I cluster sono identificati
con procedure statistiche
basati sull’apprendimento
da campioni utilizzando
misure di distanza o di
similarità
Il tipo di cluster e il loro
numero è definito a priori
Tecniche non gerarchiche
Il numero di gruppi è deciso a priori
Tecniche gerarchiche
Possono essere divisive o associative dove la
fusione/divisione tra gruppi avviene a diversi
livelli dando luogo a una struttura ad albero
(dendrogramma)
10
Analisi cluster
Cluster gerarchico senza supervisione
Dendrogramma
x2
7*
6*
*5
*
4
*1
*
2 *3
x1
7
6
4
5
1
2
3
Dati
11
Analisi cluster
I dati Caffaro
32.596 valori identificabili da:
nome punto di prelievo
analita
Grado di correlazione tra le
differenti variabili
Analisi cluster
Non
supervisionata
Gerarchica
12
Analisi cluster
I dati Caffaro
2 gruppi principali di variabili
13
I° gruppo:
Mercurio e PCDF
"La statistica: l’unica scienza che permette a esperti diversi, usando gli
stessi numeri, di trarne diverse conclusioni."
E. Esar
I° gruppo
Correlazione Mercurio - Furani
R2 = 42%
R2 = 75%
R2 = 59%
R2 = 74%
R2 = 74%
R2 = 28%
R2 = 80%
R2 = 84%
R2 = 80%
R2 = 83%
Problema: perché vi è una forte correlazione fra Mercurio e
alcuni Furani?
15
I° gruppo
Ciclo produttivo Caffaro
Mercurio: utilizzato esclusivamente dalla Caffaro nel suo
impianto Cloro-Soda per la produzione di NaOH
Anodo:
barre di grafite
Catodo:
letto di mercurio liquido
Utilizzo delle diverse
professionalità di ARPA
16
I° gruppo
Best Available Techniques (BAT)
Pag. 126
Distribuzione % dei composti generati per ogni
“Graphite anodes
used almost
exclusively
for chlorine
before being replaced in
tonnellata
di were
materia
prima
nelle
celleproduction
a mercurio
the 1970s by metal anodes. The graphite anode was composed of various types of particulate
coke mixed with a pitch binder. Some oxygen was liberated at the anodes with the chlorine, and
this oxygen attacked the graphite, forming carbon monoxide and carbon dioxide. This electrode
wear
was the cause of a graphite consumption of approximately 2 kg per tonne of chlorine
Prodotti
finiti
produced from sodium chloride and 3–4 kg per tonne of chlorine produced from potassium
93%
Mix diand
C2Hn
chloride. The graphite residue produced was contaminated with PCDDs/PCDFs
other
1%derived
halogenated organic compounds, such as polychlorinated naphthalenes (PCNs), mainly
from the reaction between chlorine and the pitch binder containing polycyclic aromatic
hydrocarbons (PAHs). Before the 1970s, the spent graphite was usually not incinerated but
dumped in available pits near the site or in unsecured local landfills [ 1, Ullmann's 2006 ],
[ 240, Otto et al. 2006 ], [ 242, Lutz et al. 1991 ]. Table 3.44 lists some examples of
contaminated chlor-alkali sites.
The mixture of PCDD/PCDF congeners found on contaminated chlor-alkali sites shows a
specific pattern dominated by dibenzofurans, which is different to other sources [ 242, Lutz et
al. 1991 ], [ 255, Kannan et al. 1998 ], [ 259, Rappe et al. 1991 ].
Similarly, the pattern of PCN congeners is also specific for contaminated chlor-alkali sites
[ 260, Brack et al. 2003 ], [ 261, Järnberg et al. 1997 ]. When measured in parallel, total PCN
concentrations on contaminated sites usually exceed those of PCBs and PCDDs/PCDFs by up to
one order of magnitude (Table 3.44).
scarti
At PCDD/PCDF-contaminated sites, high levels of mercury in the soil do not Altri
necessarily
inorganici
correspond with high levels of PCDDs/PCDFs, and vice versa. This means that
the mercury
6%
level is not an indicator of the PCDD/PCDF levels [ 243, Stenhammar 2000 ].”
17
I° gruppo
RisultatiAree in cui vi è
correlazione in
peso tra:
La correlazione tra Mercurio e alcune tipologie
di Furani è
riconducibile al processo produttivo della
Hg Caffaro (celle
a mercurio per la produzione di soda con anodi in grafite)
2,3,7,8 TCDF
La presenza nelle medesime maglie di Mercurio e Furani
1,2,3,7,8 PCDF
indica lo stesso processo di diffusione, da rapportare al
trasporto solido tramite le acque superficiali
delle rogge
2,3,4,7,8 PCDF
≈90%
1,2,3,4,7,8 HxCDF
La correlazione Mercurio - Furani è confermata anche nelle
2,3,4,6,7,8
HxCDF
altre zone del SIN precedentemente
indagate,
anche se il
rapporto di correlazione risulta minore
(probabilmente a
1,2,3,4,7,8,9 HpCDF
causa di altre fonti emissive di Furani)
18
II° gruppo:
PCB
"La teoria delle probabilità in fondo non è altro che buon senso ridotto a
calcolo."
S. de Laplace
II° gruppo
Risultati analisi cluster
A
B
C
• L’analisi cluster ha mostrato che 30 dei 33 congeneri
ricercati hanno un comportamento simile,
correlabile anche con alcune tipologie di diossine.
• Ricerca di uno spettro caratteristico (fingerprint)
dei PCB per l’area in esame
• Verifica sperimentale della correttezza dello spettro
ottenuto con dati provenienti da altre aree lombarde
20
II° gruppo
Confronto tra valori
Problema:
• Confronto tra concentrazioni dei PCB
estremamente variabili nei terreni
(da mg/kg a ng/kg) – fattore di
variabilità dell’ordine di 106
Soluzione:
• Utilizzo dei rapporti percentuali dei
singoli congeneri rispetto al totale
per ogni maglia analizzata
Risultato:
• Per ogni maglia, si ha una distribuzione
percentuale dei congeneri rispetto al
totale dei PCB (impronta)
• Si perde il valore assoluto dei PCB
totali e l’eventuale supero delle CSC
21
PCB
PCB52
PCB
52 52
PCB
PCB81
PCB
81**81 *
PCB
PCB99
PCB
99 99
PCB
PCB101
PCB
101101
PCB
PCB105*
PCB
105*
105*
PCB
PCB110
PCB
110110
PCB
PCB114*
PCB
114*
114*
PCB
PCB118*
PCB
118*
118*
Media aree agricole 2014 (190 campioni)
PCB
PCB123*
PCB
123*
123*
PCB
PCB126*
PCB
126*
126*
PCB
PCB128
PCB
128128
PCB
PCB138
PCB
138138
PCB
PCB146
PCB
146146
PCB
PCB149
PCB
149149
PCB
PCB151
PCB
151151
PCB
PCB153
PCB
153153
PCB
PCB156*
PCB
156*
156*
PCB
PCB157*
PCB
157*
157*
Media aree agricole 2015 (127 campioni)
PCB
PCB167*
PCB
167*
167*
PCB
PCB169*
PCB
169*
169*
PCB
PCB170
PCB
170170
PCB
PCB177
PCB
177177
PCB
PCB180
PCB
180180
PCB
PCB183
PCB
183183
PCB
PCB187
PCB
187187
PCB
PCB189*
PCB
189*
189*
PCB
PCB194
PCB
194194
PCB
PCB196+203
PCB
196+203
196+203
22
PCB
PCB209
PCB
209209
Media della
Distribuzione
distribuzione
in peso
% dei
deicongeneri
congeneri
di PCB
Media
%%
distribuzione
PCB
dei PCB nelle aree agicole 2006
2013
2015
PCB
PCB95
PCB
95 95
Il pattern dei PCB nelle nuove aree
PCB
PCB77
PCB
77**77 *
II° gruppo
40%
60%
90%
80%
50%
70%
30%
40%
60%
50%
30%
20%
40%
20%
30%
10%
10%
20%
10%
0%
0%
0%
Media aree agricole 2006 (58 campioni)
PCB
PCB28
PCB
28 28
II° gruppo
Risultati
L’analisi cluster sui terreni agricoli 2006 – 2014 identifica 5
classi differenti per la distribuzione dei PCB; il 96% dei
terreni ricade nelle prime 4 classi
Aree in cui vi è
corrispondenza tra il
Le prime 4 classi hanno una distribuzione simile al valore
fingerprint medio
generale, ciò che cambia è il rapporto tra
i vari congeneri
calcolato
e il valore
rinvenuto
≈96%
L’ultimo gruppo, che corrisponde al 4% delle maglie, ha una
distribuzione dei congeneri nettamente diversa dalle
altre
23
II° gruppo
Il confronto con altri siti
Somiglianza
Verifica del
della
naturaMedia
dei
campioni
appartenenti
2 classi
della
distribuzione
Utilizzo
database
delle
analisi
effettuate
dal alle
laboratorio
Dendrogramma
% dei congeneri di PCB
simili
ai
terreni
Caffaro
ARPA di Brescia relativinelle
ai siti
inquinati
aree
agricole delle provincie di
0.00
Brescia, Mantova, Bergamo e Cremona
60%
85% dei campioni
dei due gruppi (45) sono direttamente
692
analisi in
un periodo
di tempo
di comunali
5 anni (2009
– 2014),
riconducibili
al 50%
SIN
(area delle
scuole
Deledda
–
33.33 comprendono quelle usate per il progetto, per un
che
non
40%
Calvino,
aree agricole
nei pressi della discarica Vallosa, aree
totale
22.836
30% dati
Oto – di
Melara,
Ideal
Standard, ecc…)
20%
Analisi
66.67cluster, per identificare gruppi caratteristici di
10%
15%
dei
campioni
due gruppi (8) non sono direttamente
distribuzione dei dei
PCB.
0%
riconducibili al SIN
(campioni comunque al di sotto delle
Suddivisione
deial692
campioni
inper
26 aree
gruppi,
ognuno per
con iil
C.S.C.
relative
limite
previsto
residenziali
100.00
Campioni
suo
medio dei 33 congeneri
di PCB
PCBfingerprint
totali)
24
Conclusioni
"I numeri precisi sono sempre falsi."
S. Johnson
Conclusioni
Dati di partenza
• Il progetto ha fornito una mole di dati sufficiente per effettuare analisi statistiche ed
elaborazioni complesse (data mining)
• Il data mining è uno strumento adatto per individuare schemi di correlazione
significativi
Analisi cluster
• Riconoscimento di almeno 2 gruppi analitici (Hg – Furani e PCB)
• L’esistenza di 2 gruppi mostra un fenomeno di contaminazione legato a una duplice
sorgente: l’impianto cloro-soda e l’impianto di produzione dei PCB (che si sono tra di
loro sovrapposti per un certo periodo temporale)
• Tranne che per il mercurio, gli altri metalli analizzati non sembrano avere correlazioni
certe con PCB o PCDD-PCDF
Gruppo 1
• L’analisi mostra che la relazione riguarda solo alcune tra i furani analizzati (la
correlazione è in peso e non in t.e.).
• Non vi è correlazione tra Hg e PCDD (che sembrano più legate alla produzione di PCB)
Gruppo 2
• Il gruppo PCB evidenzia che 30 dei 33 congeneri analizzati sono tra loro collegati (i
PCB 28, 52 e 169 sembrano seguire altri schemi di relazione)
• I PCB più caratteristici delle aree analizzate sono, in ordine di presenza: 209, 153,
180, 138, 187, 170, 149 (che insieme costituiscono il 75% del totale)
• La distribuzione % dei PCB evidenzia una specificità dell’area in esame, anche a
confronto con altre aree contaminate lombarde
Sviluppi futuri
Metalli
•L’analisi mostra un certo grado di correlazione tra Zinco e Piombo,
ed in misura minore con Cadmio e Rame. Resta da capire la
sorgente di tali metalli, e se è riconducibile come origine alle attività
stabilimento Caffaro
• Gli altri metalli, in particolare l’arsenico, non mostrano correlazioni
particolari; ciò sembrerebbe indicare una contaminazione diffusa o una
sovrapposizione di effetti
Rapporto PCB - PCDD
•Resta da chiarire il rapporto in peso che si evidenzia tra PCB e PCDD,
anche alla luce del ciclo produttivo dei PCB
•È da verificare la possibile presenza di altre fonti di contaminazione da
PCB (come sembra indicare la correlazione PCB28 – PCB52)
Fingerprint dei PCB della Caffaro
•Il fingerprint emerso dalle analisi condotte ha una buona solidità (85%
di risposta positiva rispetto ad altri campioni della regione)
•Rimane da chiarire il 15% di risposta negativa (trasporto materiale,
ecc…)
Grazie…
Hai capito?
No, copio
e basta.
E tu?
Tu cos’hai
capito?
Che tra poco
c’è la pausa!
Bibliografia
Cluster Analysis - 5th Edition
B. S. Everitt; S. Landau; M. Leese; D. Stahl – J. Wiley and Sons Ltd. Publication
Cluster Analysis for Data Mining and System Identification
J. Abonyi; B. Feil – Birkhäuser Publication
Il trattamento e l’interpretazione dei dati ambientali
G. P. Beretta – Pitagora Editrice Bologna
Data Mining: esplorando le miniere alla ricerca della conoscenza nascosta
G. Zazzaro
Best Avaiable Tecniques – Reference document for the production of chlor-alkali
JRC - European Commission 2014