Analisi dei risultati Dott. Geol. Enrico Alberico "Certo, certissimo, anzi probabile." E. Flaiano Analisi dei risultati Risultati ottenuti Il "Progetto" ha consentito di ottenere: 317 analisi di terreni agricoli 187 analisi di sedimenti e terreni limitrofi alle rogge Il numero di variabili, per ogni analisi, è di 58 (8 Metalli, 33 congeneri di PCB, 7 congeneri di Diossine e 10 congeneri di Furani) A questi dati, si possono aggiungere i 58 campioni di terreni agricoli prelevati nel 2006 che, per tipologia di analiti e per completezza dei valori sono confrontabili a quanto effettuato nel 2014-2015 2 Analisi dei risultati Risultati ottenuti (segue) In totale: 504 analisi nuove + 58 analisi storiche 562 analisi, ognuna avente 58 analiti 32.596 valori identificabili da nome punto di prelievo e analita Inoltre, sono state acquisite 530 analisi relative alle campagne d’indagine 2002, 2003, 2004 e 2005 Tali analisi, purtroppo, non hanno la completezza dei dati delle successive campagne. 3 Che fare? Archivio Tutti i dati sono archiviati per futuri lavori Database 32.596 dati Dott. Rocco Bortoletto Data mining Statistica Analisi sui singoli analiti per individuare trend (già eseguita) Data mining "Se torturi i numeri abbastanza a lungo, confesseranno qualsiasi cosa." G. Easterbrook Data mining Data mining Il “data mining” è un processo per estrarre relazioni da banche dati di grandi dimensioni tramite l'applicazione di algoritmi che individuano le associazioni tra le informazioni e le rendono visibili. La statistica permette di elaborare informazioni generali riguardo ad una popolazione Il data mining viene utilizzato per cercare correlazioni tra più variabili relativamente ai singoli individui 6 Data mining Pattern recognition Può essere tradotto concettualmente con il termine di “Riconoscimento di configurazioni” Scopo: individuare (classificare) insiemi o gruppi di pattern con caratteristiche omogenee (cluster) Cluster (classe): è l’insieme di oggetti statistici aventi proprietà comuni, descritte dai loro attributi (per es.: classe degli uomini biondi, cluster dei segnali cardiaci, classe delle auto d’epoca, …) 7 L’analisi cluster "Le statistiche sono come i bikini. Ciò che rivelano è suggestivo, ma ciò che nascondono è essenziale" A. Levenstein Analisi cluster Analisi cluster L’analisi cluster è il nome generico attribuito a un insieme di metodi statistici multivariati orientati ad individuare gruppi simili in un campione di dati Nell’analisi cluster non è necessario conoscere a priori la struttura dei gruppi o le loro proprietà, cosicché essa rappresenta un attrattivo strumento esplorativo 9 Analisi cluster Metodi di analisi cluster Non Supervisionati Supervisionati I cluster sono identificati con procedure statistiche basati sull’apprendimento da campioni utilizzando misure di distanza o di similarità Il tipo di cluster e il loro numero è definito a priori Tecniche non gerarchiche Il numero di gruppi è deciso a priori Tecniche gerarchiche Possono essere divisive o associative dove la fusione/divisione tra gruppi avviene a diversi livelli dando luogo a una struttura ad albero (dendrogramma) 10 Analisi cluster Cluster gerarchico senza supervisione Dendrogramma x2 7* 6* *5 * 4 *1 * 2 *3 x1 7 6 4 5 1 2 3 Dati 11 Analisi cluster I dati Caffaro 32.596 valori identificabili da: nome punto di prelievo analita Grado di correlazione tra le differenti variabili Analisi cluster Non supervisionata Gerarchica 12 Analisi cluster I dati Caffaro 2 gruppi principali di variabili 13 I° gruppo: Mercurio e PCDF "La statistica: l’unica scienza che permette a esperti diversi, usando gli stessi numeri, di trarne diverse conclusioni." E. Esar I° gruppo Correlazione Mercurio - Furani R2 = 42% R2 = 75% R2 = 59% R2 = 74% R2 = 74% R2 = 28% R2 = 80% R2 = 84% R2 = 80% R2 = 83% Problema: perché vi è una forte correlazione fra Mercurio e alcuni Furani? 15 I° gruppo Ciclo produttivo Caffaro Mercurio: utilizzato esclusivamente dalla Caffaro nel suo impianto Cloro-Soda per la produzione di NaOH Anodo: barre di grafite Catodo: letto di mercurio liquido Utilizzo delle diverse professionalità di ARPA 16 I° gruppo Best Available Techniques (BAT) Pag. 126 Distribuzione % dei composti generati per ogni “Graphite anodes used almost exclusively for chlorine before being replaced in tonnellata di were materia prima nelle celleproduction a mercurio the 1970s by metal anodes. The graphite anode was composed of various types of particulate coke mixed with a pitch binder. Some oxygen was liberated at the anodes with the chlorine, and this oxygen attacked the graphite, forming carbon monoxide and carbon dioxide. This electrode wear was the cause of a graphite consumption of approximately 2 kg per tonne of chlorine Prodotti finiti produced from sodium chloride and 3–4 kg per tonne of chlorine produced from potassium 93% Mix diand C2Hn chloride. The graphite residue produced was contaminated with PCDDs/PCDFs other 1%derived halogenated organic compounds, such as polychlorinated naphthalenes (PCNs), mainly from the reaction between chlorine and the pitch binder containing polycyclic aromatic hydrocarbons (PAHs). Before the 1970s, the spent graphite was usually not incinerated but dumped in available pits near the site or in unsecured local landfills [ 1, Ullmann's 2006 ], [ 240, Otto et al. 2006 ], [ 242, Lutz et al. 1991 ]. Table 3.44 lists some examples of contaminated chlor-alkali sites. The mixture of PCDD/PCDF congeners found on contaminated chlor-alkali sites shows a specific pattern dominated by dibenzofurans, which is different to other sources [ 242, Lutz et al. 1991 ], [ 255, Kannan et al. 1998 ], [ 259, Rappe et al. 1991 ]. Similarly, the pattern of PCN congeners is also specific for contaminated chlor-alkali sites [ 260, Brack et al. 2003 ], [ 261, Järnberg et al. 1997 ]. When measured in parallel, total PCN concentrations on contaminated sites usually exceed those of PCBs and PCDDs/PCDFs by up to one order of magnitude (Table 3.44). scarti At PCDD/PCDF-contaminated sites, high levels of mercury in the soil do not Altri necessarily inorganici correspond with high levels of PCDDs/PCDFs, and vice versa. This means that the mercury 6% level is not an indicator of the PCDD/PCDF levels [ 243, Stenhammar 2000 ].” 17 I° gruppo RisultatiAree in cui vi è correlazione in peso tra: La correlazione tra Mercurio e alcune tipologie di Furani è riconducibile al processo produttivo della Hg Caffaro (celle a mercurio per la produzione di soda con anodi in grafite) 2,3,7,8 TCDF La presenza nelle medesime maglie di Mercurio e Furani 1,2,3,7,8 PCDF indica lo stesso processo di diffusione, da rapportare al trasporto solido tramite le acque superficiali delle rogge 2,3,4,7,8 PCDF ≈90% 1,2,3,4,7,8 HxCDF La correlazione Mercurio - Furani è confermata anche nelle 2,3,4,6,7,8 HxCDF altre zone del SIN precedentemente indagate, anche se il rapporto di correlazione risulta minore (probabilmente a 1,2,3,4,7,8,9 HpCDF causa di altre fonti emissive di Furani) 18 II° gruppo: PCB "La teoria delle probabilità in fondo non è altro che buon senso ridotto a calcolo." S. de Laplace II° gruppo Risultati analisi cluster A B C • L’analisi cluster ha mostrato che 30 dei 33 congeneri ricercati hanno un comportamento simile, correlabile anche con alcune tipologie di diossine. • Ricerca di uno spettro caratteristico (fingerprint) dei PCB per l’area in esame • Verifica sperimentale della correttezza dello spettro ottenuto con dati provenienti da altre aree lombarde 20 II° gruppo Confronto tra valori Problema: • Confronto tra concentrazioni dei PCB estremamente variabili nei terreni (da mg/kg a ng/kg) – fattore di variabilità dell’ordine di 106 Soluzione: • Utilizzo dei rapporti percentuali dei singoli congeneri rispetto al totale per ogni maglia analizzata Risultato: • Per ogni maglia, si ha una distribuzione percentuale dei congeneri rispetto al totale dei PCB (impronta) • Si perde il valore assoluto dei PCB totali e l’eventuale supero delle CSC 21 PCB PCB52 PCB 52 52 PCB PCB81 PCB 81**81 * PCB PCB99 PCB 99 99 PCB PCB101 PCB 101101 PCB PCB105* PCB 105* 105* PCB PCB110 PCB 110110 PCB PCB114* PCB 114* 114* PCB PCB118* PCB 118* 118* Media aree agricole 2014 (190 campioni) PCB PCB123* PCB 123* 123* PCB PCB126* PCB 126* 126* PCB PCB128 PCB 128128 PCB PCB138 PCB 138138 PCB PCB146 PCB 146146 PCB PCB149 PCB 149149 PCB PCB151 PCB 151151 PCB PCB153 PCB 153153 PCB PCB156* PCB 156* 156* PCB PCB157* PCB 157* 157* Media aree agricole 2015 (127 campioni) PCB PCB167* PCB 167* 167* PCB PCB169* PCB 169* 169* PCB PCB170 PCB 170170 PCB PCB177 PCB 177177 PCB PCB180 PCB 180180 PCB PCB183 PCB 183183 PCB PCB187 PCB 187187 PCB PCB189* PCB 189* 189* PCB PCB194 PCB 194194 PCB PCB196+203 PCB 196+203 196+203 22 PCB PCB209 PCB 209209 Media della Distribuzione distribuzione in peso % dei deicongeneri congeneri di PCB Media %% distribuzione PCB dei PCB nelle aree agicole 2006 2013 2015 PCB PCB95 PCB 95 95 Il pattern dei PCB nelle nuove aree PCB PCB77 PCB 77**77 * II° gruppo 40% 60% 90% 80% 50% 70% 30% 40% 60% 50% 30% 20% 40% 20% 30% 10% 10% 20% 10% 0% 0% 0% Media aree agricole 2006 (58 campioni) PCB PCB28 PCB 28 28 II° gruppo Risultati L’analisi cluster sui terreni agricoli 2006 – 2014 identifica 5 classi differenti per la distribuzione dei PCB; il 96% dei terreni ricade nelle prime 4 classi Aree in cui vi è corrispondenza tra il Le prime 4 classi hanno una distribuzione simile al valore fingerprint medio generale, ciò che cambia è il rapporto tra i vari congeneri calcolato e il valore rinvenuto ≈96% L’ultimo gruppo, che corrisponde al 4% delle maglie, ha una distribuzione dei congeneri nettamente diversa dalle altre 23 II° gruppo Il confronto con altri siti Somiglianza Verifica del della naturaMedia dei campioni appartenenti 2 classi della distribuzione Utilizzo database delle analisi effettuate dal alle laboratorio Dendrogramma % dei congeneri di PCB simili ai terreni Caffaro ARPA di Brescia relativinelle ai siti inquinati aree agricole delle provincie di 0.00 Brescia, Mantova, Bergamo e Cremona 60% 85% dei campioni dei due gruppi (45) sono direttamente 692 analisi in un periodo di tempo di comunali 5 anni (2009 – 2014), riconducibili al 50% SIN (area delle scuole Deledda – 33.33 comprendono quelle usate per il progetto, per un che non 40% Calvino, aree agricole nei pressi della discarica Vallosa, aree totale 22.836 30% dati Oto – di Melara, Ideal Standard, ecc…) 20% Analisi 66.67cluster, per identificare gruppi caratteristici di 10% 15% dei campioni due gruppi (8) non sono direttamente distribuzione dei dei PCB. 0% riconducibili al SIN (campioni comunque al di sotto delle Suddivisione deial692 campioni inper 26 aree gruppi, ognuno per con iil C.S.C. relative limite previsto residenziali 100.00 Campioni suo medio dei 33 congeneri di PCB PCBfingerprint totali) 24 Conclusioni "I numeri precisi sono sempre falsi." S. Johnson Conclusioni Dati di partenza • Il progetto ha fornito una mole di dati sufficiente per effettuare analisi statistiche ed elaborazioni complesse (data mining) • Il data mining è uno strumento adatto per individuare schemi di correlazione significativi Analisi cluster • Riconoscimento di almeno 2 gruppi analitici (Hg – Furani e PCB) • L’esistenza di 2 gruppi mostra un fenomeno di contaminazione legato a una duplice sorgente: l’impianto cloro-soda e l’impianto di produzione dei PCB (che si sono tra di loro sovrapposti per un certo periodo temporale) • Tranne che per il mercurio, gli altri metalli analizzati non sembrano avere correlazioni certe con PCB o PCDD-PCDF Gruppo 1 • L’analisi mostra che la relazione riguarda solo alcune tra i furani analizzati (la correlazione è in peso e non in t.e.). • Non vi è correlazione tra Hg e PCDD (che sembrano più legate alla produzione di PCB) Gruppo 2 • Il gruppo PCB evidenzia che 30 dei 33 congeneri analizzati sono tra loro collegati (i PCB 28, 52 e 169 sembrano seguire altri schemi di relazione) • I PCB più caratteristici delle aree analizzate sono, in ordine di presenza: 209, 153, 180, 138, 187, 170, 149 (che insieme costituiscono il 75% del totale) • La distribuzione % dei PCB evidenzia una specificità dell’area in esame, anche a confronto con altre aree contaminate lombarde Sviluppi futuri Metalli •L’analisi mostra un certo grado di correlazione tra Zinco e Piombo, ed in misura minore con Cadmio e Rame. Resta da capire la sorgente di tali metalli, e se è riconducibile come origine alle attività stabilimento Caffaro • Gli altri metalli, in particolare l’arsenico, non mostrano correlazioni particolari; ciò sembrerebbe indicare una contaminazione diffusa o una sovrapposizione di effetti Rapporto PCB - PCDD •Resta da chiarire il rapporto in peso che si evidenzia tra PCB e PCDD, anche alla luce del ciclo produttivo dei PCB •È da verificare la possibile presenza di altre fonti di contaminazione da PCB (come sembra indicare la correlazione PCB28 – PCB52) Fingerprint dei PCB della Caffaro •Il fingerprint emerso dalle analisi condotte ha una buona solidità (85% di risposta positiva rispetto ad altri campioni della regione) •Rimane da chiarire il 15% di risposta negativa (trasporto materiale, ecc…) Grazie… Hai capito? No, copio e basta. E tu? Tu cos’hai capito? Che tra poco c’è la pausa! Bibliografia Cluster Analysis - 5th Edition B. S. Everitt; S. Landau; M. Leese; D. Stahl – J. Wiley and Sons Ltd. Publication Cluster Analysis for Data Mining and System Identification J. Abonyi; B. Feil – Birkhäuser Publication Il trattamento e l’interpretazione dei dati ambientali G. P. Beretta – Pitagora Editrice Bologna Data Mining: esplorando le miniere alla ricerca della conoscenza nascosta G. Zazzaro Best Avaiable Tecniques – Reference document for the production of chlor-alkali JRC - European Commission 2014