TUMORI INFANTILI, FATTORI DI RISCHIO E MODELLI
DI INDAGINE PER LA VALUTAZIONE DI CLUSTER
SPAZIO-TEMPORALI
CAPITOLO 10
L’analisi statistica dei cluster in epidemiologia
Cluster statistical analysis in epidemiology
Patrizia Schifano, Michela Leone, Paola Michelozzi
Dipartimento di epidemiologia del Servizio sanitario regionale, ASL Roma 1, Regione Lazio, Roma
Corrispondenza: Patrizia Schifano; [email protected]
RIASSUNTO
L’analisi statistica rappresenta un punto critico nello studio
dei cluster, poiché non esiste una metodologia in grado di
tenere conto di tutti gli aspetti di un ambito così complesso.
Proprio per questo è importante definire un approccio di analisi standardizzato che possa essere utilizzato quando è necessario rispondere all’allarme della popolazione di fronte a
un sospetto cluster di malattia.
In questo lavoro si propone una possibile strategia di analisi
statistica di cluster e se ne discutono le principali limitazioni e
i punti di forza. A questo scopo si porta come esempio l’analisi
spaziale di cluster dei casi di leucemia linfoide acuta (LLA) diagnosticati tra il 2000 e il 2011 nei bambini residenti a Roma.
I casi sono stati selezionati attraverso il record linkage di tre
database sanitari correnti che sono stati georeferenziati a tre
diversi livelli di aggregazione spaziale: i distretti (D), le zone
urbanistiche (ZUR) e le sezioni di censimento (SC). Sono stati calcolati i rapporti standardizzati di incidenza (SIR) per le
ZUR, utilizzando come riferimento il tasso medio di incidenza di LLA di Roma, e si è poi applicato il modello di smoothing di Besag-York-Mollie (BYM). Si è utilizzato il test di Tango per testare la tendenza generale al clustering e i test di
Besag e Newell e di Kulldorf e Nagarwalla per verificare la
presenza di cluster localizzati. Entrambe le analisi sono state
condotte sia per l’intera area del comune di Roma, utilizzando le ZUR come unità areali, sia per alcuni distretti, utilizzando le SC come unità.
Sono stati identificati 194 casi di LLA nella fascia di età 0-14
anni (incidence rate – IR: 43,7x1.000.000). I SIR variavano
tra 0,00 e 18,1 tra le diverse ZUR e, dopo l’applicazione dello smoothing, si è riscontrato un eccesso significativo di casi
solo in 3 distretti. Nell’analisi sull’intera area di Roma non si
è identificata una tendenza al clustering, (p-value di Tango:
0,08) mentre entrambi i test per il clustering localizzato sono
risultati significativi in uno dei tre cluster con i SIR più alti. Infine, a livello di distretto sono stati identificati 7 cluster nei 3
distretti con i più alti SIR.
I risultati ottenuti indicano la presenza di cluster localizzati in
alcune aree di Roma, visibili solo utilizzando la SC come unità areale. La procedura di analisi proposta può rappresentare uno strumento utile per gli operatori di sanità pubblica.
Parole chiave: analisi spaziale, leucemie infantili, cluster,
clustering, test di Tango
ABSTRACT
Statistical analysis represents a critical point in cluster analysis, because a methodology able to take into consideration
the complexity of this analysis has not yet been developed.
However, a common approach in statistical analysis of a suspected cluster is a necessary tool for public health operators
who have to face population worries and requests.
We propose an approach for the analysis of clusters and discuss the main limitations and strengths of the used methods.
To this aim, we present, as a case study, the spatial clustering
analysis of acute lymphoblastic leukaemia (ALL) cases among
children in Rome between 2000 and 2011.
L’ANALISI DI UN POTENZIALE CLUSTER DI MALATTIA
Cases were selected through a record linkage of three different health and administrative current databases. Cases were
geocoded at 3 spatial resolutions: 20 districts (D), 155 neighbourhoods (NB), and 5,812 census areas (CA). Indirect standardized incidence ratios (SIR) were computed for the NBs with
Rome average incidence rate (IR) of ALL as reference and then
smoothed by Besag-York-Mollie (BYM) model. General clustering was tested by Tango statistics, whereas localized clustering was detected through two different statistics: Besag
and Newell’s, and Kulldorf and Nagarwalla’s. Both general
and local clustering were tested at city level, using NBs as
area units, and at district level, using CAs as area units.
We identified 194 ALL cases in the 0-14 age group (IR:
43.7x1,000,000). SIRs ranged between 0.00 and 18.1
among NBs. After smoothing, a significant excess of cases
was identified only in 3 Ds. At city level, no general clustering
was highlighted (Tango’s test p-value: 0.08), while both tests
for local clustering were significant in one of the 3 Ds with
the highest SIRs. Finally, at district level, although no general cluster was founded, a total of 7 clusters were identified in
the 3 Ds with the highest SIRs, each cluster being composed
by a number of cases ranging between 2 and 6.
Results indicate the presence of clusters in some areas of
Rome, which are evident only when the finest spatial resolution is used. This standardised procedure is an important tool
to properly analyse potential clusters.
Keywords: spatial analysis, childhood leukaemia, cluster,
clustering, Tango’s test
n
test per il clustering generalizzato, che si propone di verificare
se i casi tendono a presentarsi in raggruppamenti, indipendentemente da dove e quando;
n test per il clustering localizzato, che si propone di verificare se
in una determinata area esistono zone in cui si verifica una presenza maggiore di casi rispetto al resto dell’area stessa.
In questo capitolo si intende proporre una possibile strategia di
analisi statistica di un sospetto cluster, definita utilizzando gli
strumenti più attuali e quelli più idonei allo studio di cluster per
patologie rare. La procedura di analisi viene applicata a un casestudy, al fine di poter meglio comprendere la logica sottostante
ai metodi utilizzati e l’interpretazione dei risultati, e mettere in
evidenza i limiti di tali metodi.
Per l’identificazione dei cluster e per accertarne la natura non casuale si possono usare le tecniche standard della statistica inferenziale. Sono stati sviluppati molti test specifici che cercano di
tenere conto delle difficoltà di questo tipo di studi. Però, questi test sono basati su un numero ampio di assunzioni, raramente soddisfatte.
Per questo motivo, come le linee guida dei Centres for Disease Control and Prevention (CDC) concludevano già nel 1990 e
ribadiscono nella loro versione più recente,1,2 non esiste un test
ottimale ed è sempre consigliabile usare più test per valutare
lo stesso cluster e fornire come risultato quello confermato dalla maggior parte dei test, o dal test con le assunzioni più valide
nella situazione analizzata.
Tuttavia, le linee guida dei CDC non danno ulteriori indicazioni circa l’analisi statistica. Si fornisce qui un approfondimento di
questo aspetto, attraverso un esempio di studio.
I test per lo studio dei cluster sono stati classificati da Besag e
Newell3 in due grandi gruppi:
n test generali, che vanno a verificare se i casi hanno la tendenza a presentarsi in cluster nella regione in studio;
n test focalizzati, che vanno a verificare se si osserva una maggiore
frequenza di casi intorno a una specifica fonte di esposizione.
Successivamente, Kuldorff 3 ha ulteriormente classificato i test
generali in due gruppi:
IL CASO IN STUDIO: IDENTIFICAZIONE DI AGGREGATI
ANOMALI DI CASI DI LEUCEMIA LINFOIDE ACUTA (LLA)
INFANTILE SUL TERRITORIO DEL COMUNE DI ROMA
TRA IL 2000 E IL 2011
In alcune aree del comune di Roma sono stati segnalati presunti eccessi di casi di leucemia infantile. Si è, quindi, voluto verificare, per meglio comprendere il fenomeno, se i casi osservati
nel periodo e nell’area in studio avessero una tendenza generale
a presentarsi in cluster e se in alcune sottoaree della città vi fossero cluster localizzati di casi.
Il primo passo per affrontare questo tipo di analisi è decidere
55
Epidemiol Prev 2016; 40 (5) Suppl 2: 1-68. doi: 10.19191/EP16.5S2.P001.096
TUMORI INFANTILI, FATTORI DI RISCHIO E MODELLI
DI INDAGINE PER LA VALUTAZIONE DI CLUSTER
SPAZIO-TEMPORALI
ANALISI DI CLUSTER DI LEUCEMIA INFANTILE
CLUSTER ANALYSIS OF CHILDHOOD LEUKAEMIA
che dati sanitarie correnti per lo studio dei cluster di tumori
infantili», pp. 31-35). I casi sono stati georeferenziati e localizzati sulla mappa in figura 1.
Si è, quindi, deciso di condurre le analisi a due diversi livelli di
aggregazione. Il primo riguarda l’intero comune di Roma, dove
i 19 municipi rappresentano le unità areali. Il secondo riguarda l’analisi dei singoli municipi: in questo caso le unità areali
sono rappresentate dalle sezioni di censimento. Questa decisone
è stata motivata dall’impossibilità di procedere all’analisi dell’intero territorio del comune utilizzando la disaggregazione in sezioni di censimento, per difficoltà di tipo computazionale e di
memoria dei computer.
quale livello di disaggregazione territoriale adottare. Il territorio
del comune di Roma è diviso, per fini amministrativi, in XIX
distretti sanitari corrispondenti fino al 2012 ai municipi comunali, e in 155 aree urbanistiche che corrispondono ai quartieri
della città. Il comune di Roma è, inoltre, suddiviso in 5.812 sezioni di censimento (fonte: Censimento Istat 1991). Municipi,
zone urbanistiche e sezioni di censimento sono le aggregazioni
territoriali utilizzate nei diversi test utilizzati, poiché esiste una
corrispondenza tra sezioni di censimento, zone urbanistiche e
municipi. Nel periodo in studio (2000-2011) la popolazione
media residente nel comune di Roma di età compresa tra 0 e 14
anni risultava essere di 363.046 soggetti; nelle 155 zone urbanistiche la mediana della popolazione in questa fascia di età era
pari a 1.855 persone, con un intervallo interquartile compreso
tra 845 e 3.675 soggetti (figura 1).
Nei dodici anni di osservazione (2000-2011) sono stati registrati 194 casi incidenti di leucemia infantile acuta (codice ICD-9CM: 204; vd. capitolo 7 «Un esempio di uso integrato di ban-
Che tipo di dati servono per l’analisi dei cluster di malattia?
L’analisi di cluster si colloca nell’ambito delle analisi spaziali,
dove il territorio in studio diventa un elemento fondamentale
dell’analisi stessa. Quindi, nel momento in cui si affronta un’a-
Figura 1. Distribuzione della popolazione residente di età 0-14 anni e dei casi di leucemia linfoide acuta (codice ICD-9-CM: 204) nelle 155 zone urbanistiche di Roma. Anni 2000-2011.
Figure 1. Distribution of resident population aged 0-14 years and acute lymphoid leukemia (ICD-9-CM code: 204) in the 155 urban areas of Rome. Years 2000-2011.
56
Epidemiol Prev 2016; 40 (5) Suppl 2: 1-68. doi: 10.19191/EP16.5S2.P001.096
TUMORI INFANTILI, FATTORI DI RISCHIO E MODELLI
DI INDAGINE PER LA VALUTAZIONE DI CLUSTER
SPAZIO-TEMPORALI
ANALISI DI CLUSTER DI LEUCEMIA INFANTILE
CLUSTER ANALYSIS OF CHILDHOOD LEUKAEMIA
I TEST PER L’IDENTIFICAZIONE DI CLUSTER
nalisi di cluster è necessario definire l’area in studio e le sue
suddivisioni. La popolazione residente in quell’area sarà la popolazione di riferimento e i casi saranno ricercati solo al suo interno. La suddivisione più piccola dell’area in studio sulla quale
abbiamo informazioni individuali (numero di abitanti, numero
di casi, distribuzione di variabili sociodemografiche della popolazione residente) rappresenta l’unità areale.
L’obiettivo è di individuare se all’interno dello spazio esaminato esista un’area in cui il numero di casi osservati risulta significativamente maggiore di quello atteso sulla base del tasso
di malattia nella popolazione di riferimento. Il passo successivo consiste nel valutare se l’aggregazione spaziale identificata
sia statisticamente significativa o semplicemente dovuta al caso
mediante un processo statistico inferenziale. In generale, l’ipotesi di base (ipotesi nulla) postula l’assenza di aggregazioni non
casuali di casi (cluster) sul territorio e viene testata contro una
serie di ipotesi alternative che postulano l’esistenza di almeno
una zona dello spazio in cui tale aggregazione si manifesta in
modo evidente. I metodi statistici esistenti per il clustering differiscono tra loro per le modalità di ricerca delle potenziali aree
di aggregazione.
Nell’esempio qui riportato i dati sui casi residenti sono stati raccolti in modo retrospettivo, utilizzando un linkage, con chiave
di linkage anonimizzata, tra l’archivio delle schede ospedaliere
(SDO), l’archivio dell’Associazione italiana di ematologia e oncologia pediatrica (AIEOP)4 e l’Anagrafe del Comune di Roma.
Questa procedura è stata resa necessaria dall’assenza di un registro tumori per il territorio del comune di Roma e ha consentito di disporre di una casistica molto aggiornata (vd. capitolo 7).
Ogni caso è stato geocodificato sulla base dell’indirizzo di residenza alla data della diagnosi utilizzando la residenza anagrafica. Tuttavia, l’analisi è stata condotta a livello aggregato; infatti,
tutti i test utilizzati, che sono anche quelli più semplici da implementare e con un costo computazionale accettabile, lavorano
su dati aggregati per piccole aree.
I TEST PER CLUSTER GENERALIZZATI
I metodi e i test per la ricerca di cluster spaziali generalizzati
hanno come obiettivo di testare l’ipotesi alternativa di una distribuzione disomogenea del rischio nell’area in studio rispetto
all’ipotesi nulla che i casi osservati siano distribuiti casualmente nell’area in esame.
Tali metodi verificano, quindi, l’esistenza di una tendenza generale all’aggregazione spaziale (clustering) dei casi sul territorio
oggetto di studio.
Scelta della data di riferimento del caso
La scelta della data a cui riferire il caso è molto importante e
sottende un’ipotesi circa la finestra temporale di interesse per
l’esposizione. Scegliere di riferire il caso alla data di incidenza,
quindi geocodificare la sua residenza a quella data, sottintende
l’ipotesi che la latenza tra l’esposizione e l’induzione della malattia sia breve. L’uso della data di nascita, invece, sottintende
l’ipotesi che le esposizioni rilevanti siano quelle del periodo gestazionale e perinatale.
L’anagrafe comunale è ritenuta la fonte di dati più attendibile
per le informazioni sulla residenza e per ricostruire la storia residenziale dei soggetti in studio. Non sono disponibili fonti validate che riportino il domicilio del bambino (nel caso non coincida con la residenza).
Test di ipotesi per il cluster generalizzato
H0: il rischio è casualmente distribuito nelle zone urbanistiche di
Roma
H1: il rischio è disomogeneamente distribuito nelle zone urbanistiche di Roma
IL TEST DI TANGO
È importante considerare che anche l’ampiezza dell’unità areale scelta concorre nel definire la validità dell’analisi e deve essere
adeguata al tasso di incidenza della patologia in esame.
Tutte le analisi sono state effettuate in R.
Il test di Tango3 è uno dei test per il clustering generalizzato più
utilizzati. Esso calcola una misura di vicinanza tra aree limitrofe,
in termini di eccessi di casi osservati rispetto agli attesi, e fornisce la significatività di queste misure. Valuta, dunque, se gli eccessi di rischio sono più simili tra zone limitrofe rispetto ad aree
più lontane. Per fare questo utilizza una statistica che calcola le
differenze dei rapporti tra osservati e attesi tra tutte le possibili coppie di aree, pesandole tramite una matrice di distanze tra i
centroidi delle unità areali considerate.
Il motivo per il quale il test di Tango è considerato il più robusto tra i vari test sulle distanze sviluppati è proprio l’utilizzo di
pesi che fanno sì che le differenze tra coppie di aree più vicine
tra loro siano più importanti delle differenze tra coppie di aree
tra loro più distanti. In generale, in tutti i test per il clustering
generalizzato, la statistica test è una somma dei casi nelle diverse unità areali e la sua dipendenza dalle distanze geografiche tra
i casi rende il test più potente nelle aree urbanizzate che non in
quelle rurali (perché meno popolate).5,6
Livello di aggregazione dei dati
Molto spesso non è possibile avere i dati a livello individuale ed
è, dunque, necessario ricorrere a dati aggregati in aree spesso
definite per scopi amministrativi. In generale, i dati per lo studio
dei cluster si possono classificare in:
• dati di residenza individuale: indirizzo del soggetto alla
nascita, alla diagnosi eccetera;
• dati aggregati: conteggio dei soggetti che risiedono in una
determinata ripartizione geografica (sezione di censimento,
distretto, municipio, comune); in questo caso tutti i soggetti
vengono localizzati nel centroide della ripartizione geografica scelta.
57
Epidemiol Prev 2016; 40 (5) Suppl 2: 1-68. doi: 10.19191/EP16.5S2.P001.096
TUMORI INFANTILI, FATTORI DI RISCHIO E MODELLI
DI INDAGINE PER LA VALUTAZIONE DI CLUSTER
SPAZIO-TEMPORALI
ANALISI DI CLUSTER DI LEUCEMIA INFANTILE
CLUSTER ANALYSIS OF CHILDHOOD LEUKAEMIA
IL TEST DI BESAG E NEWELL
L’ipotesi nulla che viene testata è quella di uniformità della
distribuzione dei casi nell’area in studio
Si testa l’ipotesi H0 di uniformità della distribuzione dei casi
nell’area in studio.
H0: r=p
{H1: r≠p
{ H1: p>q
H0: p=q
La statistica test:
dove:
p è la probabilità di essere un caso all’interno dell’area inclusa nella finestra circolare;
q è la probabilità di essere un caso nell’area esclusa.
Se p è maggiore di q, allora si può ipotizzare la presenza di un
cluster.
Nella statistica test:
T = (r − p)’ A (r − p)
dove:
r’ = [O1/O+, . . . , On/O+], p’ = [E1/E+, . . . , En/E+];
A è la matrice di distanza che misura la vicinanza tra due aree.
Tango propone di utilizzare Aij = exp{−Dij/ϕ},
k-1exp(Ei*)(Ei*)
BN=P (N casi>K⎮λ E*)=1-∑
,
i
s=0
s!
dove:
Dij è la distanza tra i centroidi dell’area i e j;
ϕ è una costante.
se nelle sottoaree selezionate il numero di casi osservati supera gli
attesi, allora l’insieme delle sottoaree è un cluster.
L è la variabile aleatoria numero di sottoaree necessarie per ottenere k casi;
l sono i valori osservati della variabile aleatoria L;
E sono i casi attesi nelle sottoaree selezionate K numero di casi fissato a priori;
K è il numero di casi fissati a priori necessari per definire un cluster.
Per h=1…n:
Oh/O+ sono i casi osservati su una popolazione di riferimento;
Eh/E+ sono i casi attesi su una popolazione attesa;
h è l’unità areale.
I TEST PER I CLUSTER LOCALIZZATI
I metodi per l’identificazione di cluster localizzati si propongono di scansionare piccole aree all’interno dell’intera area di studio al fine di individuare eventuali cluster. Viene testata l’ipotesi alternativa di una distribuzione disomogenea del rischio in
uno specifico contorno in studio vs. l’ipotesi nulla che i casi osservati siano distribuiti casualmente sull’area in esame. Negli
ultimi anni la letteratura riporta molti lavori di comparazione
in termini di potenza dei diversi test esistenti.7 Pur non potendo arrivare a definire quale test sia migliore, si può individuare
quello più potente e flessibile, ovvero il test i cui parametri possono essere variati per adeguarli all’ampiezza dell’area in studio (rurale/densamente popolata) e all’incidenza della malattia in analisi.
Per l’esempio riportato in questo articolo, si è scelto di utilizzare il test di Besag e Newell (B&N)8 e quello di Kulldorff e Nagarwalla (K&N)9 che sono risultati, da studi di simulazione finalizzati alla comparazione dei diversi test, tra i più versatili e
potenti. Entrambi appartengono alla categorie delle scan statistics, in cui il processo di ricerca dei cluster si basa sulla costruzione di finestre circolari di raggi di volta in volta più grandi, centrati su punti di una griglia, definita a priori, che ricopre l’intera
area di studio. Per ogni cerchio si verifica se il numero di casi osservati è significativamente maggiore di quello atteso sotto l’ipotesi nulla, in tal caso quel cerchio costituisce un cluster e viene
riportato sulla mappa. In genere, i punti della griglia corrispondono ai centroidi delle sottoaree incluse nell’area di studio.
La scelta della regola per definire il raggio costituisce la differenza sostanziale tra i due test.
Questa statistica prevede la scansione sistematica dei dati rispetto alle loro coordinate geografiche, per mettere in luce casi la
cui vicinanza spaziale sia indice di una situazione inusuale, cioè
non dovuta al caso. Vengono create finestre circolari a partire da
ciascun centroide delle sottoaree riportate sulla mappa; il raggio
del cerchio si estende fino a includere un numero minimo di
casi definito a priori; quindi nella finestra circolare vengono incluse progressivamente le aree confinanti con quella di partenza.
Il numero minimo di casi per definire un cluster viene indicato
convenzionalmente con il parametro k.
Il numero di casi osservati nella finestra viene confrontato con
i casi attesi calcolati sotto l’ipotesi nulla di uniformità della distribuzione dei casi in quella finestra. Se il rapporto tra osservati e attesi è troppo grande rispetto all’atteso, quella finestra circolare è identificata come un cluster. La sezione di censimento
su cui puntava il test è, quindi, identificata come il centroide di
un cluster. Le unità del cluster sono le areali. Un cluster può essere costituito anche da una singola unità areale. La scelta della
dimensione k è l’elemento fondamentale di questo test, che di
solito viene ripetuto per un range di valori di k al fine di testare
la robustezza dei risultati ottenuti.
58
Epidemiol Prev 2016; 40 (5) Suppl 2: 1-68. doi: 10.19191/EP16.5S2.P001.096
TUMORI INFANTILI, FATTORI DI RISCHIO E MODELLI
DI INDAGINE PER LA VALUTAZIONE DI CLUSTER
SPAZIO-TEMPORALI
ANALISI DI CLUSTER DI LEUCEMIA INFANTILE
CLUSTER ANALYSIS OF CHILDHOOD LEUKAEMIA
CASO STUDIO: APPLICAZIONE DEI TEST ALL’ANALISI
DELL’INCIDENZA DI LLA NEL COMUNE DI ROMA
In questo caso l’area in studio è il comune di Roma e le unità
areali sono le 155 zone urbanistiche (quartieri) in cui la città è
suddivisa (figura 1).
IL TEST DI KULLDORFF E NAGARWALLA
STRATEGIA DI ANALISI
Sono stati calcolati i rapporti standardizzati di incidenza di LLA
per zona urbanistica sulla base del tasso medio di incidenza di
LLA sull’intero comune negli anni 2000-2011.
Il test di Tango verifica l’esistenza di una tendenza generale
all’aggregazione dei casi di LLA; i testi di B&K e di K&N identificano i cluster locali e la significatività statistica.
Si testa l’ipotesi H0 di uniformità della distribuzione dei casi
nell’area in studio.
{ H1: p>q
H0: p=q
FASE 1
VERIFICA DELLA TENDENZA AL CLUSTERING GENERALIZZATO
dove:
p è la probabilità di essere un caso all’interno dell’area inclusa nella finestra circolare (zona z);
q è la probabilità di essere un caso nell’area esclusa (1-z).
Se p è maggiore di q, allora si può ipotizzare la presenza di un
cluster.
Sotto l’ipotesi nulla di una distribuzione casuale del rischio di
LLA infantile tra le zone urbanistiche di Roma, si è verificata
l’ipotesi alternativa che i casi di questa malattia tendessero ad
avere eccessi più simili tra zone urbanistiche limitrofe rispetto
a zone urbanistiche più distanti tra loro, dunque che vi fossero zone urbanistiche con eccessi più alti e, di conseguenza, cluster spaziali di casi. La statistica test di Tango ha indicato l’assenza di una tendenza al cluster generalizzato, con un p-value pari
a 0,084. Tuttavia, l’osservazione della mappa degli eccessi di rischio per zona urbanistica e il valore non troppo lontano dal
livello soglia di 0,05 del p-value non portano a escludere con
forza la possibilità di un’aggregazione non casuale dei casi sul
territorio analizzato (figura 2).
La statistica di Tango è risultata 0,0061 (p-value: 0,08).
La statistica test utilizzata è:
L(z)
KN = max L
z∈Z
0
La zona che risolve il problema di massimo identifica il cluster più
verosimile o più probabile e corrisponde a quella zona z* tale che
L(z*)>L(z).
KN è il rapporto di massima verosimiglianza sotto l’ipotesi di
un modello di Poisson condizionato al numero di casi osservati, dove:
L(z) è il numero di aree che ricadono nella zona z definito dalla
percentuale di popolazione che il cerchio deve raggiungere;
L0 è il numero di aree sotto l’ipotesi nulla di uniformità della distribuzione dei casi.
FASE 2
VERIFICA DELLA PRESENZA DI CLUSTER LOCALIZZATI
DI CASI DI LLA REGISTRATI NEL COMUNE DI ROMA
NEL PERIODO IN STUDIO
Sotto l’ipotesi nulla di una distribuzione casuale dei casi di LLA
infantile nel comune di Roma per il periodo in studio, è stata
verificata la presenza di cluster posizionati in aree specifiche della città. A questo scopo sono stati utilizzati i test di B&N e di
K&N. Come già sottolineato, sono stati utilizzati entrambi i
test, perché tutti e due includono elementi di soggettività legati alla scelta dei parametri utilizzati: parametro k (numero minimo di casi necessari per definire un cluster) per il test di B&N
e parametro p (percentuale della popolazione totale che deve rientrare nella finestra di osservazione) per il test di K&N. Quindi, entrambi potrebbero avere limiti di robustezza dei risultati dovuti a una definizione non appropriata al caso in studio di
tali parametri. Il considerare la presenza di un cluster localizzato
solo laddove entrambi i test sono significativi corrisponde a una
scelta di tipo conservativo.
In questa analisi, per il test di K&N si è scelto p=50%, valore indicato in letteratura come il più efficiente,5,9 e successivamente
p=20%; infatti, vista l’ampiezza dell’area considerata (intero comune di Roma) e delle unità areali (zone urbanistiche), un parametro p=50% implicava l’inclusione di un’area troppo grande
della città, diminuendo la possibilità di individuare cluster nelle
Questo metodo è basato sullo stesso principio del precedente.
Vengono costruite finestre circolari a partire da punti definiti sulla mappa dell’area in studio (per esempio, i centroidi delle unità areali scelte) e la lunghezza del raggio è determinata in
modo tale che il cerchio includa un numero di soggetti residenti corrispondente a una percentuale definita a priori della popolazione dell’intera area in studio. Per ciascuna di queste finestre,
se la probabilità di essere un caso nell’area inclusa nella finestra
è maggiore di quella di essere un caso nell’area esterna alla finestra, allora tale cerchio viene identificato come un cluster e riportato sulla mappa. Anche qui l’area su cui il test punta viene
identificata come il centroide di un cluster, le cui unità sono le
unità areali limitrofe. Un cluster può essere costituito anche da
una singola unità areale.
Per il test di K&N l’elemento critico è, quindi, la scelta della
percentuale di popolazione da includere nella finestra. Anche in
questo caso è preferibile ripetere il test per un range di valori di
p per verificare la robustezza dei risultati ottenuti.
59
Epidemiol Prev 2016; 40 (5) Suppl 2: 1-68. doi: 10.19191/EP16.5S2.P001.096
TUMORI INFANTILI, FATTORI DI RISCHIO E MODELLI
DI INDAGINE PER LA VALUTAZIONE DI CLUSTER
SPAZIO-TEMPORALI
ANALISI DI CLUSTER DI LEUCEMIA INFANTILE
CLUSTER ANALYSIS OF CHILDHOOD LEUKAEMIA
Figura 2. Distribuzione dei rapporti standardizzati di incidenza per zona urbanistica. Casi attesi
calcolati utilizzando il tasso di incidenza sul comune di Roma nel periodo considerato.
Figure 2. Distribution of standardized incidence
ratios, by urban areas. Expected cases computed
on the base of the incidence rate of municipality
of Rome in the considered period.
Figura 3. Risultati dell’analisi di cluster localizzati di casi di LLA nel comune di Roma suddiviso
in zone urbanistiche. Testi di B&N: k=30; test di
K&N: k=50%.
Figure 3. Results of localised cluster analysis of
ALL cases in the municipality of Rome, by urban
areas. B&N test: k=30; K&N test: k=50%.
60
Epidemiol Prev 2016; 40 (5) Suppl 2: 1-68. doi: 10.19191/EP16.5S2.P001.096
TUMORI INFANTILI, FATTORI DI RISCHIO E MODELLI
DI INDAGINE PER LA VALUTAZIONE DI CLUSTER
SPAZIO-TEMPORALI
sottoaree. Analogamente, per il test di B&N sono stati utilizzati
due diversi valori di K, 25 e 30.8
La figura 3 mostra i cluster individuati dai due test. I pallini rappresentano i centroidi individuati con il test di K&N, mentre i
rombi sono i centroidi individuati con il test di B&N.
Sono stati scelti i centroidi di cluster più significativi (p-value
<0,03) e confermati da entrambi i test. Per il test di B&N si riportano solo i risultati per k=30. La scelta di un p-value inferiore al convenzionale α=0,05 è giustificata dalla necessità di indicare come cluster solo quelli con maggiore probabilità di essere
non casuali, al fine di non creare falsi allarmi.
In tabella 1 sono riportate nel dettaglio le informazioni riguardanti le 8 aree individuate come centroidi di cluster. Tutte le
aree appartengono a un unico distretto di Roma, corrispondente alla frazione di Ostia. C’è una sola zona urbanistica discordante tra i due test, denominata Acilia Nord, che risulta il
centroide di un cluster per il test di K&N, ma non per quello di B&N. Per ciascuna area, oltre alle coordinate geografiche
del centroide di area, è riportato anche il numero di casi osservati, il p-value e il numero di aree che costituiscono il cluster.
Prendiamo come esempio il caso della zona Acilia Sud: questo
cluster è costituito da 25 aree limitrofe e i casi osservati sono 3,
il test ha un p-value di 0,024. Di conseguenza, tale area è riportata sulla mappa.
Il test di B&N con k=25 ha identificato le stesse zone urbanistiche individuate nel caso di k=30.
pe singole è mostrata la suddivisione in sezioni di censimento e
sono indicate quelle identificate come centroidi di cluster.
Per ciascun municipio il valore di k per il test di B&N è stato
scelto pari a 2. Il test è stato replicato per un range di valori da
2 a 5 e si è deciso di riportare i valori per k=2, che risultava proporzionato al numero complessivo di casi nei territori considerati e identificava, quindi, un numero maggiore di cluster. Per il
test di K&N si è, invece, scelto p=50%. Il test di Tango risulta
non significativo in tutti e tre i casi.
Per il municipio ex-VIII (8 zone urbanistiche; 420 sezioni di
censimento; numero medio di soggetti di età 0-14 anni: 33.508;
valore mediano di residenti per sezione di censimento: 63) sia il
test di B&N (k=2) sia quello di K&N (p=50%) individuano rispettivamente 10 e 16 diversi centroidi di cluster (tabella 1) posizionati in 4 diverse zone del municipio.
Per il municipio ex-XIII (10 zone urbanistiche; 359 sezioni
di censimento; numero medio di soggetti residenti di età 0-14
anni: 30.792; numero mediano di residenti per sezione di censimento: 68) il test di Tango risulta non significativo (p-value
di 0,955); invece sia il test di B&N (k=4) sia quello di K&N
(p=50%) individuano 8 sezioni di censimento come centroidi
di cluster, mentre il solo test di B&N identifica una nona sezione di censimento. Questi centroidi sono a loro volta localizzati
sulla mappa così da formare 3 cluster, uno nella zona Sud-Ovest,
uno a Sud, costituito da un’unica sezione di censimento, e uno
più a Nord, in una zona molto poco popolata (figura 4).
Il municipio ex-XIX (8 zone urbanistiche e 354 sezioni di
censimento; numero medio di soggetti residenti di età 0-14:
24.845; valore mediano per sezione di censimento: 65). I test
di K&N (p=50%) e B&N (k=3) risultano significativi e hanno entrambi individuato 8 sezioni di censimento come centroidi di cluster. Tre di questi centroidi sono raggruppati nella parte Nord del municipio, in un’area poco densamente popolata,
mentre gli altri 5 nella punta più a Sud del municipio in una
zona molto popolata della città.
In sintesi, l’applicazione della procedura di analisi, descritta in
questo capitolo, al caso delle LLA nel comune di Roma negli
anni 2000-2011 ha portato a identificare una distribuzione non
omogenea degli eccessi di casi (rapporti standardizzati di incidenza) di LLA nei venti municipi del comune.
Un’analisi più specifica per la ricerca dei cluster sull’intero comune suddiviso in zone urbanistiche ha identificato un grosso cluster nel municipio ex-XIII, costituito da 5 zone urbanistiche e da 21 casi.
Infine, le analisi condotte indipendentemente sui tre municipi con gli eccessi più alti di casi hanno identificato complessivamente 7 cluster: tre di questi, localizzati nel municipio ex-XIII,
rappresentano con maggiore dettaglio il cluster unico identificato nella fase sull’intero comune.
Né a livello dell’intero comune né dei singoli municipi è stata
verificata una tendenza al clustering generalizzato.
ANALISI DI CLUSTER NEI TRE MUNICIPI CON I MAGGIORI
ECCESSI DI CASI DI LLA SUDDIVISI IN SEZIONI
DI CENSIMENTO
In questa parte sono stati analizzati i tre municipi di Roma nei
quali si sono osservati i rapporti standardizzati di incidenza più
alti (i municipi ex-VIII, ex-XIII ed ex-XIX), localizzati in aree
molto diverse della città, ma tutti comprendenti territori prevalentemente periferici. Si è seguito lo stesso schema di analisi
come per l’intero comune di Roma.
In figura 4 sono riportate le tre aree in studio, rappresentate sia
all’interno della mappa di Roma sia singolarmente. Nelle mapZONA URBANISTICA
CENTROIDE
DEL CLUSTER
CASI DI LLA
INCLUSI
NEL CLUSTER (n.)
ZONE INCLUSE
NEL CLUSTER
(n.)
TEST
P-VALUE
Acilia Nord
4
24
K&N
0,039
Acilia Sud
3
25
K&N; B&N
<0,024
Palocco
3
22
K&N; B&N
<0,032
Ostia antica
4
6
K&N; B&N
<0,002
Ostia Nord
9
3
K&N; B&N
<0,007
Ostia Sud
4
4
K&N; B&N
<0,010
Castel Fusano
0
9
K&N; B&N
<0,036
Infernetto
0
14
K&N; B&N
<0,045
ANALISI DI CLUSTER DI LEUCEMIA INFANTILE
CLUSTER ANALYSIS OF CHILDHOOD LEUKAEMIA
K&N: Kulldorff e Nagarwalla; B&N: Besag e Newell
DISCUSSIONE
Tabella 1. Risultati dell’analisi di cluster localizzati di casi di LLA nel comune di Roma
suddiviso in zone urbanistiche.
Table 1. Results of localised cluster analysis of ALL cases in the municipality of Rome,
by urban area.
Si è presentato un possibile approccio per l’analisi dei cluster che
utilizza strumenti statistici aggiornati e appropriati, pur mettendone in rilievo i limiti.
61
Epidemiol Prev 2016; 40 (5) Suppl 2: 1-68. doi: 10.19191/EP16.5S2.P001.096
TUMORI INFANTILI, FATTORI DI RISCHIO E MODELLI
DI INDAGINE PER LA VALUTAZIONE DI CLUSTER
SPAZIO-TEMPORALI
ANALISI DI CLUSTER DI LEUCEMIA INFANTILE
CLUSTER ANALYSIS OF CHILDHOOD LEUKAEMIA
Figura 4. Distribuzione della popolazione residente di età 0-14 anni e dei casi di leucemia linfoide acuta (codice ICD-9-CM: 204) nelle 155 zone urbanistiche di Roma. Anni
2000-2011.
Figure 4. Distribution of resident population aged 0-14 years and acute lymphoid leukemia (ICD-9-CM code: 204) in the 155 urban areas of Rome. Years 2000-2011.
Inoltre, obiettivo del presente capitolo è di mettere in luce tutti
gli elementi, a partire dalla scelta dei test, da tenere in considerazione nella pianificazione di un’analisi di questo tipo e la rilevanza
delle scelte operate su tali elementi ai fini dei risultati dell’analisi.
L’approccio di analisi proposto è organizzato in tre fasi sequenziali:
1.la descrizione dei casi e il calcolo dell’eccesso di rischio per
identificare le aree con maggiore incidenza di casi;
2. il test per la tendenza generale al clustering ;
3. il test per la presenza di cluster localizzati.
Una decisione importante nella definizione di questa procedura
di analisi è stata la ripetizione dell’analisi con diverse unità areali, progressivamente più piccole (la popolazione media nella fascia di età considerata di una zona urbanistica è di 1.855 bambini, mentre quella di una sezione di censimento di 55). Nel
passaggio dall’analisi per zone urbanistiche a sezioni di censimento si è deciso di restringere l’analisi solo al sottoinsieme dei
municipi, per i quali sono stati trovati aggregati di casi.
Per quanto riguarda la scelta dei test per il clustering generaliz-
62
Epidemiol Prev 2016; 40 (5) Suppl 2: 1-68. doi: 10.19191/EP16.5S2.P001.096
TUMORI INFANTILI, FATTORI DI RISCHIO E MODELLI
DI INDAGINE PER LA VALUTAZIONE DI CLUSTER
SPAZIO-TEMPORALI
zato, è stato utilizzato un solo test (Tango),3 mentre per la ricerca di cluster localizzati sono stati scelti i due test più utilizzati in
letteratura nel gruppo delle scan statistics (il test di Besag e Newell e quello di Kuldorff e Nagarwalla).8,9
Bisogna sottolineare che, per quanto riguarda i test sul clustering
generalizzato, poiché la statistica test dipende dalle distanze geografiche tra i casi, i test sono più potenti nelle aree a maggiore densità abitativa.
Tra le scan statistics, invece, alcuni autori ritengono che la statistica scan classica10 abbia in realtà prestazioni equivalenti a test
più complessi, come B&N, o addirittura migliori quando i casi
sono molto rari e sparsi sul territorio.11 Tuttavia, questi confronti
spesso risentono del fatto che alcuni test hanno potenze diverse
in funzione di come si fissano i parametri chiave (per esempio, il
numero minimo k di soggetti per la definizione di un cluster nel
caso di B&N). Altri studi, invece, concludono che i due test qui
utilizzati sono in questo campo i più potenti e versatili.3
Riguardo alla scelta dei test si possono fare alcune considerazioni di carattere generale. Come già sottolineato, i test per i cluster
si suddividono in test per la ricerca di una tendenza generale al
clustering e test per la ricerca di cluster localizzati: si ritiene che ai
fini della sanità pubblica i test localizzati siano molto più interessanti, in quanto in grado di localizzare i cluster su una mappa.11,12
Di contro, questi ultimi hanno un limite comune, che consiste nell’utilizzare finestre di scan con forme geografiche regolari,
nello specifico circolari, che in particolari situazioni di indagine possono risultare poco idonee per la corretta identificazione
di cluster. Si pensi, per esempio, alle aree di un territorio in cui
la popolazione è esposta a una sorgente lineare di rischio, quale
una linea elettrica o un corso d’acqua; in questi casi è molto probabile che un cluster assuma una forma geometrica stretta e/o allungata piuttosto che circolare.
Per ovviare a tale inconveniente, la spatial scan statistic è stata
recentemente ampliata con l’introduzione di una finestra di ricerca ellittica.13 La elliptic spatial scan statistic è una derivazione
speciale della metodologia circolare e la ricerca dei cluster, la teoria statistica e i criteri di valutazione della significatività rimangono invariati rispetto al caso circolare.
Tra gli altri fattori che hanno un peso sulla qualità di un’analisi
di cluster e sulla validità dei risultati ottenibili, uno dei più importanti è la definizione del territorio da analizzare e la massima
disaggregazione spaziale ottenibile per questo territorio, ovvero
l’unità areale più piccola con la quale si è in grado di lavorare.
I risultati dell’esempio mostrano che più l’unità areale è piccola, maggiore è il numero di cluster che si riescono a identificare.
Difatti, va considerato che per una malattia rara come la leucemia infantile considerare suddivisioni spaziali troppo grandi è
poco efficace. Considerato il numero di casi medi per sezione di
censimento e la distanza media di due centroidi di zone urbanistiche limitrofe, si comprende che un cluster potrebbe essere definito da un insieme di casi distanti tra loro anche varie decine
di chilometri. Non è, infatti, strano che per l’analisi dell’intero
comune di Roma si trovi un solo cluster, di dimensioni molto
grandi, a priori l’unica tipologia identificabile con questo approccio. Quando l’analisi è effettuata su un solo municipio diviso per sezioni di censimento, nella stessa area si identificano
ANALISI DI CLUSTER DI LEUCEMIA INFANTILE
CLUSTER ANALYSIS OF CHILDHOOD LEUKAEMIA
tre cluster distinti, che complessivamente sommano i casi inclusi
nell’unico cluster della fase precedente dell’analisi.
La sezione di censimento ha una dimensione molto più adatta ai tassi di incidenza della patologia in studio: a questo livello
di suddivisione spaziale si riescono a identificare cluster invisibili nella fase precedente dell’analisi. Tuttavia, non è stato possibile
analizzare l’intero comune di Roma suddiviso in sezioni di censimento, in quanto la capacità computazionale richiesta era troppo alta. La scelta di analizzare i municipi singolarmente usando
come unità areale la sezione di censimento ha rappresentato un
compromesso; il limite di questo approccio è la perdita della possibilità di identificare cluster a cavallo tra due municipi.
Come detto nell’introduzione, i casi si verificano nel continuo e
l’aggregarli secondo suddivisioni predefinite dello spazio è una
forzatura necessaria, che potrebbe, però, falsare i risultati dell’analisi. Esistono tecniche per la ricerca di cluster che utilizzano il
dato individuale, ma sono modelli più complessi, con necessità
computazionali più alte, quindi più difficilmente utilizzabili in
situazioni di ricerca in sanità pubblica.14 Uno studio recente mostra che non necessariamente lavorare con dati aggregati confonde la presenza di eventuali cluster e, anzi, che in generale i test
che usano dati aggregati sono più efficienti di quelli che lavorano
su dati individuali.15 Tuttavia, il livello di aggregazione dei dati
è spesso stato considerato come una possibile spiegazione di studi negativi,16 mentre in altri studi, come in questo, è stato dimostrato che i risultati cambiano quando si riduce il livello di aggregazione.17 Uno studio di simulazione, non specifico per il caso
della leucemia, aveva mostrato che la potenza della statistica test
di Kuldorff decresce all’aumentare del livello di aggregazione dei
dati.18 Naturalmente il peso della grandezza del livello di aggregazione sul risultato dello studio dipende fortemente dal tasso di
incidenza della patologia e dalla natura del cluster.
Tra il 1990 e il 2009 sono stati pubblicati 15 lavori sul cluster e
sul clustering dei casi di LLA;16 di questi solo 4 riportano risultati negativi. Allargando la ricerca fino a oggi, sono stati reperiti
altri 4 studi con lo stesso obiettivo generale. Tutti analizzano regioni molto ampie, usando diversi approcci e varie aggregazioni
territoriali.16,17,19 Solo uno tra questi studi, condotto sull’intera
Germania tra il 1987 e il 2007, non riscontra alcuna evidenza
di clustering.16 Rimane comunque lo studio che usa il livello di
aggregazione maggiore tra i quattro. Questo livello può essere
adatto alla verifica dell’ipotesi di cluster generalizzato, ma non in
grado di portare a conclusioni definitive. Circa il miglior livello
di aggregazione da utilizzare, sembra ovvio suggerire di condurre studi di grandi dimensioni solo se si dispone dei dati a un livello di aggregazione adeguato al tasso di incidenza della patologia studiata.15
CONCLUSIONI
In questo capitolo si sono volute presentare una scelta di metodi statistici e una sequenza di loro applicazioni e interpretazioni, in modo da permettere un approccio il più possibile efficace e standardizzato dell’analisi di sospetti cluster su un territorio.
Può essere l’esempio di una modalità di analisi da mettere in
atto in caso di segnalazione di casi sospetti in un’area. I metodi descritti sono da utilizzare quando esiste una segnalazione di
63
Epidemiol Prev 2016; 40 (5) Suppl 2: 1-68. doi: 10.19191/EP16.5S2.P001.096
TUMORI INFANTILI, FATTORI DI RISCHIO E MODELLI
DI INDAGINE PER LA VALUTAZIONE DI CLUSTER
SPAZIO-TEMPORALI
cluster da verificare e un’ipotesi di possibile associazione con una
fonte di rischio presente nella zona, si tratti di una fonte di inquinamento ambientale o di una segnalazione riferita a casi provenienti da una stessa scuola. Ciò dà forza all’analisi e limita la
possibilità di compiere l’errore di identificare come cluster aggregazioni casuali di casi.
Particolare attenzione va posta alla forte dipendenza dei test dalla definizione di parametri soggettivi, che possono cambiare radicalmente il risultato del test stesso. Tuttavia, laddove l’eccesso
ANALISI DI CLUSTER DI LEUCEMIA INFANTILE
CLUSTER ANALYSIS OF CHILDHOOD LEUKAEMIA
è molto marcato, come nel caso del municipio di Ostia, viene riconosciuto da tutti i test utilizzati e risulta robusto rispetto a diversi livelli di aggregazione considerati. È necessario tener
presente i limiti di questo tipo di analisi e riportarli insieme ai
risultati che produce, in termini di incertezza.
Non sono qui stati considerati i test di cluster in presenza di una
fonte.
Conflitti di interesse dichiarati: nessuno.
BIBLIOGRAFIA
11. Costa M, Assuncao RM. A fair comparison between the spatial scan and the besag-newell
disease spatial clustering test. Environ Ecol Stat 2005;12:301-19.
12.Lawson AB. Hotspot detection and clustering: ways and means. Environ Ecol Stat 2010;
17:231-45.
13. Kulldorff M, Huang L, Pickle L, Duczmal L. An elliptic spatial scan statistic. Stat Med 2006;
25(22):3929-43.
14.Meliker JR, Jacquez GM, Goovaerts P, Copeland G, Yassine M. Spatial cluster analysis of
early stage breast cancer: a method for public health practice using cancer registry data.
Cancer Causes Control 2009;20(7):1061-69.
15.Schmiedel S, Blettner M, Schüz J. Statistical power of disease cluster and clustering tests
for rare diseases: a simulation study of point sources. Spat Spatiotemporal Epidemiol
2012;3(3):235-42.
16.Schmiedel S, Blettner M, Kaatsch P, Schüz J. Spatial clustering and space-time clusters of
leukemia among children in Germany, 1987-2007. Eur J Epidemiol 2010;25(9):627-33.
17. Nyari TA, Ottóffy G, Bartyik K et al. Spatial clustering of childhood acute lymphoblastic leukaemia in Hungary. Pathol Oncol Res 2013;19(2):297-302.
18. Ozonoff A, Jeffery C, Manjourides J, White LF, Pagano M. Effect of spatial resolution on cluster detection: a simulation study. Int J Health Geogr 2007;6:52.
19. Schmiedel S, Jacquez GM, Blettner M, Schüz J. Spatial clustering of leukemia and type 1 diabetes in children in Denmark. Cancer Causes Control 2011;22(6):849-57.
1. National Center for Environmental Health, CDC, Atlanta, Georgia. Guidelines for investigating clusters of health events. MMWR Recomm Rep 1990;39(RR-11):1-23.
2. National Center for Environmental Health, CDC, Atlanta, Georgia. Investigating suspected cancer clusters and responding to community concerns. Guidelines from CDC and the
Council of State and Territorial Epidemiologists. MMWR Recomm Rep 2013;62(RR-8):1-28.
Disponibile all’indirizzo: http://www.cdc.gov/mmwr/pdf/rr/rr6208.pdf
3. Tango T. Statistical Methods for Disease Clustering. Statistics for Biology and Health 2010.
4. Associazione italiana di ematologia e oncologia pediatrica. Disponibile all’indirizzo: http://
www.aieop.org/
5. Kulldorff M, Tango T, Park P. Power comparisons for disease clustering tests. Comput Stat
Data Anal 2003;42(4):665-84.
6. Tango T. A class of tests for detecting ‘general’ and ‘focused’ clustering of rare diseases.
Stat Med 1995;14(21-22):2323-34.
7. Song C, Kulldorff M. Power evaluation of disease clustering tests. Int J Health Geogr 2003;
2(1):9.
8. Besag J, Newell J. The detection of clusters in rare diseases. J R Stat Soc Series A 1991;
154:143-55.
9. Kulldorff M, Nagarwalla N. Spatial disease clusters: detection and inference. Stat Med 1995;
14(8):799-810.
10. Kulldorff M. A spatial scan statistic. Commun Stat Theory Methods 1997;26(6):1481-96.
64
Epidemiol Prev 2016; 40 (5) Suppl 2: 1-68. doi: 10.19191/EP16.5S2.P001.096