Carte di controllo non parametriche per oggetti simbolici(1) Non Parametric Control Charts For Symbolic Objects Simona Balbi & Germana Scepi Dipartimento di Matematica e Statistica – Università “Federico II” di Napoli Via Cintia, Monte S. Angelo 80126 Napoli - [email protected], [email protected] Abstract: The paper aims at proposing schemes for controlling the behaviour of peculiar objects described by interval variables. We undertake the factorial symbolic data analysis viewpoint in defining multivariate control charts for factorial coordinates. In particular, we suggest the use of non parametric schemes for controlling so peculiar data. Parole chiave: Factorial coordinates, resampling techniques, interval data, convex hull 1. Introduzione La necessità di analizzare ingenti moli di dati provenienti da database relazionali, come ad esempio quelli relativi ad indagini di grandi dimensioni, ha comportato l’utilizzo di tipi di dati complessi e strutturati, chiamati in letteratura oggetti simbolici (Bock e Diday, 1999). Si sono aperti, di conseguenza, differenti filoni di ricerca, orientati alla definizione di metodologie di analisi statistica per questo tipo di dati. Ad oggi, le soluzioni appaiono prevalentemente orientate a riletture ed adattamenti di metodi di analisi multidimensionale. Questa scelta appare una diretta conseguenza della forte componente di classificazione insita nel concetto stesso di oggetto simbolico che, in quanto struttura di ordine superiore, può essere visto come una classe di elementi. E' evidente che temi propri di queste tecniche, primo fra tutti il concetto stesso di distanza, vanno rielaborati alla luce di questo nuovo contesto. Obiettivo prescelto nel presente lavoro, fra le diverse problematiche sorte in letteratura, è quello di affrontare il controllo di un processo produttivo, quando l'oggetto di questo controllo è, appunto, simbolico. La strategia di analisi seguita è un adattamento di precedenti proposte su dati classici, cercando di tener conto e di enfatizzare le conseguenze e le implicazioni di questo nuovo contesto. In conclusione si è cercato, inoltre, di delineare alcune possibili linee di ricerca che si allontanino più radicalmente dall'impostazione classica dei problemi, ma che si avvalgano di operazioni e problematiche proprie degli oggetti simbolici. (1) Il presente lavoro è in parte finanziato dal progetto MURST (40%) “Analisi multivariata per la Qualità Totale”, coordinato da C. Lauro e in parte finanziato dal progetto europeo ESPRIT 28953 (ISO3D). 2. La struttura dei dati Indichiamo con Oi (con i = 1, … n) n oggetti simbolici, descritti da p variabili yj che assumono valori all’interno degli insiemi Dj (j = 1, …, p). Ciascun Oi è, quindi, un’unità statistica complessa definita tipicamente come una congiunzione di eventi elementari: [y1 d1] ... [yj dj] ... [yp dp] dove dj Dj, (j = 1, ..., p) può essere, secondo la natura di yj, un intervallo di valori o un insieme di modalità assunti della variabile yj. Tale descrizione può essere arricchita dalla presenza di regole (gerarchiche o logiche) o da distribuzioni di probabilità. Un oggetto simbolico può essere definito a priori da un punto di vista intenzionale, indipendentemente da , insieme degli individui osservati. Il generico individuo k (k = 1, … , card()) può essere assegnato all’oggetto Oi in base ad una funzione di riconoscimento Booleana a(.) del tipo (vero, falso). Si realizza a(k) = vero se k assume valori coerenti con la descrizione di Oi. L’insieme degli individui che soddisfano questa condizione viene indicato come estensione di Oi. La matrice da analizzare X, che classicamente è costituita da n righe (individui) e p colonne (variabili), è, dunque, in questo contesto, costituita dalla descrizione dell'oggetto simbolico. Ad esempio, si supponga che si vogliano analizzare delle trasmissioni televisive definite da intervalli di share, dalla fascia oraria (mattina, pomeriggio, sera) e dalla composizione degli spettatori per classi di età (giovani, adulti, anziani). Gli Oi sono, così, descritti da una variabile ad intervallo, da una variabile qualitativa in codifica binaria, che può assumere anche più modalità di risposta, e da una distribuzione: 0,3 X ... 0,1 0,4 1 1 0 0,6 0,3 0,1 ... ... ... ... ... 0,2 0 1 0 0,2 0,2 0,6 ... ... L'oggetto O1 è, ad esempio, descritto come una trasmissione televisiva con uno share che varia fra il 30% ed il 40%, presente sia nella fascia mattutina sia in quella pomeridiana, seguito per il 60% da giovani, per il 30% da adulti e per il restante 10% da anziani. E' evidente che le tecniche di analisi dei dati usuali non sono in grado di trattare una simile struttura dei dati, che necessita di essere trasformata. Nel seguito, visto l'obiettivo di costruire carte di controllo, si concentrerà l'attenzione su dati a intervallo (come nel caso dello share dell'esempio). La matrice X in questo caso ha dimensioni (n, 2p), essendo ciascun oggetto descritto da 2 valori (vertici) per ogni descrittore (il min ed il MAX del suo intervallo di definizione). Seguendo le proposte presenti in letteratura, X è trasformata in una matrice Z, di dimensioni (n2p, p), ottenuta considerando tutte le possibili combinazioni dei vertici. Nel caso più semplice di p=2, ciascun Oi è rappresentato da 22 combinazioni dei valori minimi e massimi dei 2 descrittori. Geometricamente tale soluzione corrisponde alla rappresentazione di un rettangolo i cui vertici sono le 4 combinazioni ({min, min; min, MAX; MAX, min; MAX, MAX }. In Figura 1 è riportata la rappresentazione, in termini di vertici, di un oggetto simbolico definito da tre descrittori quantitativi Figura 1: Rappresentazione di un oggetto simbolico in termini di vertici Una trasformazione particolare è stata proposta da Lauro e Palumbo (2000) che Vertici partendo dalla matrice X (n, 2p) ottengono la matrice Z# (n,p), costituita dalle ampiezze degli intervalli. Ciascuna riga, dunque, descrive un oggetto, mentre in colonna si hanno singoli valori per ogni yj corrispondenti all'ampiezza dell'intervallo di definizione di ogni singola variabile. I vantaggi dell'utilizzo di Z# non sono solo riconducibili al fatto che in tal modo si è ottenuta una matrice formalmente identica ad una matrice di dati classici, quanto alla possibilità di introdurre nell'analisi elementi relativi alla dimensione dell'oggetto, nonché alla sua forma. Figura 2: Rappresentazione di un oggetto simbolico in termini di ampiezza Sulle matrici trasformate è possibile pensare di applicare tecniche multivariate di controllo della qualità. L'obiettivo del controllo di un processo complesso viene, di regola, raggiunto attraverso una sintesi delle informazioni da controllare. A tale scopo è necessario, dunque, introdurre alcune tecniche di analisi proposte in letteratura per la ricerca di fattori nel caso in cui i dati siano oggetti simbolici. 3. Analisi fattoriali simboliche L'estensione dell'Analisi in Componenti Principali (ACP) per oggetti simbolici definiti da variabili ad intervallo è stata proposta da Chouakria, et al. (1998) ed è chiamata Analisi in Componenti Principali sui Vertici (ACP-V). L'ACP-V consiste in una normale ACP sulla matrice Z dei vertici. I vertici, dunque, sono in questo caso gli elementi del sottospazio Rp mentre le p variabili descrittori sono gli elementi del sottospazio Rn. L'equazione caratteristica dell'analisi in Rn è quindi la seguente: 1 Z ' Zv q q v q n 1 q p (1) dove q e q rappresentano rispettivamente gli autovalori e gli autovettori della matrice 1/n Z'Z. In maniera analoga è definita l'equazione in Rp. Lauro e Palumbo (2000) introducono una variante a tale approccio e definiscono l'Analisi in Componenti Principali per Oggetti Simbolici (ACP-OS). La (1) è trasformata nella seguente equazione, in modo da massimizzare la differenza tra gli oggetti simbolici: 1 ~ Z ' PA Zv~q q v~q 1 q p (2) n dove PA A( A' A) 1 A' è un proiettore ortogonale utilizzato per rappresentare i dati nel sottospazio di riferimento generato dalle colonne della matrice Booleana A che indica il legame di appartenenza dei vertici agli oggetti. Gli stessi autori (v. par. 2) propongono, inoltre, un approccio nuovo basato non più sulla matrice Z ma sulla matrice Z# (n,p) delle ampiezze. Tale metodo, denominato Analisi in Componenti Principali sulle Ampiezze (ACP-AOS), fornisce una sintesi degli oggetti simbolici che tiene conto della loro forma e della loro dimensione. Geometricamente, gli oggetti simbolici vengono rappresentati considerando un unico vertice relativo al massimo dell'intervallo, mentre il valore minimo è ricondotto nell'origine (Figura 2). Questo tipo di semplice rappresentazione consente di identificare meglio il ruolo delle variabili e, dunque, le similitudini tra oggetti in base ai descrittori. L'Analisi in Componenti Principali sulle Ampiezze verrà utilizzata nel seguito per la costruzione di differenti carte di controllo multivariate non parametriche. 4. Tecniche per il controllo dei dati: l'approccio non parametrico In letteratura, le più diffuse procedure per il controllo multivariato su dati classici si basano su l’ipotesi di multinormalità delle variabili di partenza (Jackson, 1991). Per problemi legati al numero elevato di controlli da eseguire e alla possibile correlazione tra le variabili, si usa in genere sintetizzare le informazioni da controllare attraverso componenti principali, incorrelate tra loro. Si definiscono, in tal modo, schemi di controllo per le coordinate fattoriali. Anche per tali schemi, si presuppone la multinormalità delle variabili di partenza e, dunque, la forma delle regioni di controllo è di tipo regolare ed ellissoidale. Strategie alternative, in assenza di ipotesi distribuzionali, sono state proposte da Scepi et al. (1993) con l'obiettivo di costruire schemi di controllo di tipo non parametrico, adattabili dunque a dati di natura diversa. L'idea di partenza è stata, infatti, la difficoltà di una verifica delle ipotesi classiche in presenza di numerose variabili, in particolare nel caso di variabili di tipo qualitativo e, quindi, con riferimento al controllo della qualità non solo di processi produttivi ma anche di servizi (Lauro, Balbi, Scepi, 1997). Le procedure di costruzione di tali schemi si basano sull’utilizzo congiunto di tecniche di ricampionamento, ed in particolare del bootstrap, e metodi di analisi fattoriale a più vie (come STATIS o l'Analisi delle Matrici Principali) e danno luogo a regioni di controllo convesse ed irregolari. Partendo da una matrice di dati classici X (n,p) caratterizzata da n individui e p variabili, le carte di controllo non parametriche vengono costruite attraverso i seguenti passi (Lauro, Scepi, Balbi, 1996): 1. Ricampionamento: si ricampiona con ripetizione all'interno delle righe della matrice X, centrata, così da generare B matrici bootstrap X b (b=1,...,B) 2. Analisi: si procede ad un'analisi congiunta della struttura a tre vie costituita dalle B matrici X b , seguendo l'approccio interstruttura-compromessointrastruttura del metodo STATIS (Escoufier, 1987). L'analisi consente di costruire due matrici: la matrice dell'interstruttura IS che esprime le relazioni esistenti fra le diverse matrici e ha come elemento generico il coefficiente di correlazione vettoriale di Escoufier: (3) Rv bb' tr( b b' ) / tr( b ) 2 tr( b' ) 2 1 con b ( X b* )' X b* matrice di varianza e covarianza di X b ; n la matrice compromesso CO, che è ottenuta come combinazione lineare delle b, B CO = u b b , (4) b 1 dove ub è il b-esimo elemento dell'autovettore associato al più grande autovalore ottenuto dalla diagonalizzazione di IS. 3. Costruzione della Carta di Controllo IS: per costruire questo schema di controllo si proiettano le matrici X b sul primo piano fattoriale dell'interstruttura. La nube dei B punti individua una regione di confidenza empirica il cui livello è fissato mediante un'opportuna procedura di peeling (Green, 1981) dei convex hull dei punti replicati, eliminando una percentuale prefissata (es. =0,05) dei punti più esterni. Si è così costruita una carta di controllo che consente di ottenere una valutazione globale del comportamento di un campione osservato, X+, in base alla posizione della sua proiezione in supplementare sul primo piano fattoriale all'interno (in controllo) o all'esterno (fuori controllo) della regione così definita. 4. Costruzione della Carta di Controllo CO: nel caso in cui la carta IS dia un segnale di fuori controllo, per comprendere quali variabili possano esserne la causa, si segue un procedimento analogo a quello della fase 3, stavolta sulla matrice CO. Le variabili associate a ciascuna replicazione sono proiettate sul piano fattoriale determinato dalla diagonalizzazione di CO, il peeling del convex hull corrispondente consente di generare, successivamente, regioni di controllo per le variabili. L'ampiezza del convex hull relativo a ciascuna variabile rappresenta una misura di variabilità e, quindi, del rischio connesso alla singola variabile. Una volta costruita la carta CO, si avrà un segnale di fuori controllo per una data variabile se la proiezione in supplementare relativa ai valori assunti in un nuovo campione X+ cade al di fuori della propria regione di controllo. Si fa notare che se l'obiettivo è quello di controllare le unità, piuttosto che le variabili, è possibile costruire, con analogo procedimento, carte di controllo per le singole unità 1 considerando come elemento caratteristico della matrice interstruttura: b X *b X *b ' n 4.1 Approccio non parametrico per dati in lotti Una procedura analoga a quella vista nel paragrafo precedente è stata proposta per la costruzione di carte di controllo per dati in lotti (Balbi, Lauro, Scepi; 1993; 1994). Tale procedura sostituisce, però, al metodo STATIS, un metodo di sintesi a tre vie di tipo asimmetrico (Analisi delle Matrici Principali rispetto al Piano degli Esperimenti) che tiene conto della presenza di informazioni esterne al controllo relative alle caratteristiche strutturali dei lotti. Le B matrici replicate X b (n,p) vengono qui sostituite da B matrici b (k,p) che hanno in riga i k lotti definiti sulla base di alcune variabili considerate strutturali ed in colonna i valori medi delle variabili di interesse in B replicazioni differenti. L'elemento generico della matrice interstruttura definito nella (3) sarà in questo caso il seguente: Rv bb' tr( A'b Ab' ) / tr( Ab ) 2 tr( Ab' ) 2 (5) dove la matrice Ab è la matrice b proiettata, attraverso un apposito operatore di proiezione, nel sottospazio generato dalle variabili di tipo strutturale che definiscono i k lotti. Una volta definita la matrice interstruttura, uno o più (RB) matrici principali (compromessi) vengono definiti come combinazioni lineari delle Ab, sulla base degli elementi degli autovettori associati ai corrispondenti autovalori (v. (4)). Sul sottospazio generato dalla diagonalizzazione del primo compromesso (e via via sui successivi, laddove se ne si ravveda la necessità), in maniera analoga al passo 4 della procedura prima esposta, è possibile costruire carte di controllo CO per i singoli lotti. 4.2 Approccio non parametrico per dati sequenziali L'approccio non parametrico proposto per il controllo di singole unità indipendenti tra loro può essere esteso, con opportuni accorgimenti, anche al caso in cui le unità si presentino in serie (Scepi, Acconcia; 1996). La matrice dei dati di partenza, in questo caso, è una matrice X (T,Q) dove le T righe rappresentano T tempi successivi in cui Q variabili continue sono misurate sulla stessa unità. Per questo tipo di dati, il primo passo della procedura non parametrica precedentemente illustrata viene effettuato ricorrendo ad una tecnica di ricampionamento chiamata bootstrap stazionario (Politis, Romano; 1994) che ha la proprietà, sotto condizioni poco restrittive, di generare matrici replicate, mantenendo inalterata la stazionarietà delle serie presenti nella matrice originale. In particolare, viene utilizzato un algoritmo iterativo che ricostruisce le B matrici bootstrap lavorando su blocchi di vettori riga in modo da fermarsi solo dopo aver generato T vettori riga per ciascuna X b . Sulle B matrici è possibile applicare i passi 2, 3, e 4 della procedura, tenendo presente, però, nella scelta dell'elemento generico dell'interstruttura, che l'obiettivo è quello di controllare i singoli tempi e, quindi, le singole unità piuttosto che le variabili. 5. Carte di controllo non parametriche per dati strutturatiScopo del lavoro è quello di definire schemi di controllo multivariati per dati complessi, in particolare per oggetti simbolici descritti da variabili ad intervallo. Alcuni autori (Giordano e Palumbo; 1999) hanno proposto schemi di controllo costruiti utilizzando congiuntamente delle procedure tradizionali basate sulle componenti principali e dei test sequenziali di tipo Wald (1947).Il punto di partenza della presente proposta è la constatazione della difficoltà di derivare analiticamente la forma della distribuzione di combinazioni lineari di dati complessi. Questo suggerisce, con maggior forza rispetto al caso in cui si opera su dati classici, per i quali si è già sottolineata la difficoltà del ricorso alla multinormalità, di utilizzare strumenti di controllo non parametrici. E' possibile considerare diversi esempi di oggetti simbolici per i quali definire opportune carte di controllo non parametriche. 5.1 Carte non parametriche per oggetti sequenzali Supponiamo, ad esempio, che gli n oggetti simbolici siano le rilevazioni in T tempi differenti di variabili quali lo share, l'audience media, il rating di un particolare programma televisivo, poniamo un telegiornale di prima serata, rilevati a piccoli intervalli di tempo (ad es., ogni 3 minuti), più o meno corrispondenti ai diversi temi trattati: il "fatto del giorno"; la politica interna; la politica estera; la cronaca; costume e spettacolo; lo sport; le previsioni del tempo. Le variabili considerate sono per loro natura tipiche variabili ad intervallo che consentono di definire in estensione l'oggetto "telegiornale". L'oggetto, dunque, è univocamente descritto dalle variabili considerate, ma le misurazioni dei diversi indici di ascolto sono effettuate in T tempi consecutivi, per esempio nei diversi giorni all'interno di un mese. L'obiettivo della definizione di limiti di controllo può essere quello di definire uno standard di ascolto rispetto al quale verificare un successivo scostamento, ad esempio, in un particolare giorno e in un particolare intervallo di tempo. Un esempio, analogo, ma più vicino ai problemi tipici del controllo di qualità, è quello di avere T oggetti intesi come misurazioni in T tempi consecutivi (ad esempio ore) di alcune variabili, rilevate in intervalli di tempo, ad esempio minuti, caratterizzanti un unico processo produttivo, articolato in fasi. In entrambi gli esempi, dunque, la matrice di partenza è una matrice contenente dati in serie storica. Per costruire degli schemi di controllo non parametrici per oggetti simbolici, in queste situazioni, è possibile ricorrere alla procedura per dati sequenziali proposta per dati classici e sintetizzata nel paragrafo 4.2. E' necessario, però, trasformare la matrice di partenza nella matrice Z# (n,p) dove ciascuna variabile assume un singolo valore pari all'ampiezza dell'intervallo di definizione (par.1). Con l'obiettivo di controllare i singoli oggetti, e quindi, i singoli tempi, si ricampiona, quindi, la matrice trasformata attraverso la tecnica del bootstrap stazionario (par.4.2) e si ottengono B matrici Z# (n,p). Nell'esempio di un processo produttivo, ciascuna replicazione può essere vista come un campione giornaliero costituito da T misurazioni. In analogia con quanto è stato proposto per dati classici si possono a questo punto costruire la carta di controllo IS per un controllo complessivo dei campioni e la carta di controllo CO per un controllo sui singoli tempi o oggetti (vedi Fig. 3). Il peeling, trattando di oggetti simbolici definiti dalle coordinate del vertice massimo, verrà quindi effettuato eliminando una prefissata percentuale di oggetti che presentano coordinate estreme di tale vertice. Le matrici di base vengono ovviamente analizzate non più con l'ACP ma con la sua variante simbolica, l'ACP-OSA (par.3). Figura 3: Esempi di convex hull per oggetti sequenziali t*2 t*2 t*2 t*2 t*1 t*1 t*1 t*1 Nella costruzione dei convex hull per gli oggetti si tiene conto, in questo approccio, contemporaneamente della loro dimensione e della loro forma. In tale ottica, un campione successivo verrà valutato rispetto ad uno standard costruito su entrambe le informazioni; un oggetto fuori controllo, dunque, lo sarà per forma (prima componente) e per dimensione (seconda componente). Si registra un segnale di fuori controllo quando un oggetto osservato in un tempo successivo, proiettato in supplementare sulla carta CO, presenta coordinate per il vertice massimo al di fuori del proprio convex hull . Le singole componenti possono essere analizzate, in presenza di fuori controllo, mediante boxplot relativi alle coordinate massime di ciascun oggetto nelle matrici replicate. 5.2 Carte non parametriche per oggetti simbolici (lotti) Nell'ambito del controllo di oggetti simbolici è particolarmente interessante introdurre il problema del controllo per lotti. Un oggetto simbolico, infatti, può essere visto come una classe di individui (lotto) che soddisfano determinate condizioni, date dalla definizione dell'oggetto stesso. Si può quindi pensare che esistano, in riferimento ad uno stesso oggetto, variabili con ruolo differente, in altre parole che il controllo dell'oggetto venga effettuato su variabili di interesse, diverse dai descrittori veri e propri. La matrice di partenza, X (n,2p), può essere vista, quindi, come partizionata in due sotto-matrici, una, D di dimensioni (n,2p1) in cui vengono definiti gli oggetti ed un'altra, G (n,2p2), in cui, per ciascun oggetto, si riportano i valori delle variabili sottoposte a controllo (con p = p1 + p2). Il problema, a nostro avviso, non è banale, in quanto proprio perché i descrittori identificano l'oggetto, essi ne rappresentano la definizione in intenzione, mentre i problemi di controllo possono essere immaginati su variabili differenti da questi. Sempre muovendosi nell'ottica dei dati ad intervallo, si può ad esempio pensare ad oggetti come a prodotti diversi di un unico processo produttivo complesso, ciascuno da controllare rispetto alle stesse variabili di interesse. La diversità tra gli oggetti nasce da un'ampiezza differente del campo di valori che ciascun descrittore può assumere. Un esempio è quello riportato nella seguente struttura dei dati (Crowder,1991) che si riferisce a 7 differenti tipi di travi rispetto alla quale sono state misurate 6 variabili ad intervallo (Fig.4). Le variabili che descrivono l'oggetto sono spessore, lunghezza e peso, mentre le variabili da controllare sono tempo di rottura, carico di rottura, profondità della spaccatura. Figura 4: Struttura dei dati relativa a un campione di 7 lotti di travi G D Spessore Lunghezza Peso (4,5) (4,5) (4,5) (6,8) (6,8) (6,8) (6,8) (7,14) (7,14) (14,20) (7,14) (7,14) (14,20) (14,20) Tempo di Rottura (32,100) (3000,5000) (100,300) (5000,10000) (100,300) (2000,6000) (100,300) (6000, 16000) (300,600) (11000,26000) (100,300) (5500,9000) (300,600) (8000,28000) Carico di rottura Profondità della Spaccatura (10,30) (20,40) (8,20) (20,75) (55,180) (10,40) (10,180) (30,70) (35,100) (100,300) (25,50) (35,50) (45,70) (35,105) Il problema è analogo a quello affrontato per dati classici nel caso di controllo multivariato per lotti e, dunque, con opportuni accorgimenti si può ricorrere ala procedura non parametrica sintetizzata al paragrafo 4.1. La matrice X (n,2p) va, dunque, trasformata nella matrice Z# (n,p) delle ampiezze partizionata nella matrice D# (n,p1) delle variabili di definizione e nella matrice G# (n,p2), delle variabili da controllare. La matrice Z# (n,p) viene, a questo punto, replicata B volte, in modo da simularne la distribuzione empirica. La matrice dell'interstruttura (5) verrà definita sulla base delle matrici Ab# che si ottengono proiettando le G b# , attraverso un apposito operatore di proiezione, nel sottospazio generato dalle p1 variabili di tipo strutturale che definiscono gli oggetti. Ab# Db# Db# ' Db# 1 ( Db# )' G b# (6) Le ACP sui compromessi più informativi (v. par. 4.1) B COr = u rb A # rb 1 r <R (7) b 1 sono, quindi, analisi parziali, effettuate tenendo conto della struttura informativa relativa alle caratteristiche dei lotti. Il metodo proposto differisce sostanzialmente da un'ACPOSA, che utilizza un operatore di proiezione (vedi par.3) per assicurare la coesione tra i vertici di un oggetto, in quanto ha l'obiettivo di valutare come l'ampiezza dell'intervallo di definizione dei descrittori incida sul comportamento delle variabili sottoposte a controllo. A partire dalle matrici compromesso, si possono costruire delle carte di controllo CO (una per ogni compromesso significativo) per oggetti, definendo per ciascun oggetto un opportuno convex hull. Il vantaggio di questo tipo di approccio è quello che sulla carta è possibile proiettare in supplementare le variabili sottoposte a controllo. L'informazione è, quindi, duplice; da una parte si misura, in base all'ampiezza dei singoli convex hull, la variabilità di ciascun oggetto, dipendente dalla variabili strutturali; dall'altra, in termini di coordinate, si controlla la variabilità del processo rispetto all'influenza che le variabili di interesse hanno sui singoli oggetti. Conclusioni Le carte di controllo servono ad identificare possibili situazioni di fuori controllo intese come scostamento da uno standard. Nel presente lavoro si sono proposte alcuni strumenti grafici (basati su convex hull), che consentono nello specifico contesto degli oggetti simbolici di affrontare situazioni differenti da un punto di vista produttivo (dati sequenziali, oggetti come lotti). Nel controllo statistico multivariato, la ricerca delle cause di fuori controllo è uno dei punti di maggiore difficoltà. La natura dei dati utilizzati in questo lavoro ci suggerisce degli strumenti possibili per la loro identificazione. In particolare, è possibile pensare di ricorrere all'operazione di “generalizzazione” di un oggetto simbolico, traducibile nella eliminazione di una variabile nella sua descrizione, per evidenziare il ruolo svolto da ciascun descrittore nel comportamento dell’oggetto stesso. Il ricorso, inoltre, all'operazione inversa di “specializzazione” di un oggetto fuori controllo, attraverso l’introduzione, ad esempio, di nuovi descrittori, può condurre ad una specificazione del controllo. Riferimenti bibliografici Balbi S., Lauro N.C., Scepi G. (1993) Multidimensional Data Analysis and Experimental Design, Proceedings of the 49-th ISI Session, Contributed Papers, 1, 67-68. Balbi S., Lauro N.C., Scepi G. (1994) A Multiway Data Analysis Technique for Comparing Surveys, Methodologica, 3, 79-90. Balbi S., Verde R. (1999) Problemi di Stabilità nell’Analisi Fattoriale di Dati Simbolici, relazione presentata a CLADAG ’99, Roma. Bock H.H, Diday E. (a cura di) (1999) Analysis of Symbolic Data, Springer, Heidelberg. Chouakria A., Diday E., Cazes P. (1998) An Improved Factorial Representation of Symbolic Objects, KESDA ’98, Luxembourg. Giordano G., Palumbo F. (1999) A New Statistical Quality Control Tool Based on PCA of Interval Data, Proceedings of CLADAG ’99, Roma, 197-200. Escoufier Y. (1987) Three-mode Data Analysis: the STATIS Method, Methods for Multidimensional Data Analysis (a cura di B. Fichet e C. Lauro) ECAS, 259-272. Green P.J. (1981) Peeling Bivariate Data, in Interpreting Multivariate Data (V.Barnett et al. eds.), Wiley &Sons, N.Y. Jackson J.E. (1991) A User's Guide to Principal Components, Wiley & Sons, N.Y. Lauro N.C., Palumbo F. (2000) Principal Component Analysis of Interval Data: a Symbolic Data Analysis Approach, Computational Statistics (in stampa) Lauro N.C., Scepi G., Balbi S. (1996) Differenti Approcci nella Costruzione di Carte di Controllo Multivariato in Studi in onore di Giuseppe Landenna, Giuffrè ed., 261291. Lauro N.C., Balbi S., Scepi G. (1997) L'Analisi Multidimensionale dei Dati per la Misurazione della Customer Satisfaction nei Servizi, Atti del Convegno La Statistica per le Imprese, 1, 567-583. Politis D.N., Romano J.P. (1994) The Stationary Bootstrap, Journal of the American Statistical Association, 89, 1303-1313. Scepi G., Acconcia A. (1996) Non Parametric Control Charts for Sequential Process, Proceedings in Computational Statistics (a cura di A. Prat), Phsiyca Verlag, 447-452. Scepi G., Lauro N.C., Balbi S. (1993) Empirical Confidence Regions for Multidimensional Control Charts, in Bulletin ISI, Contributed Papers, 2, 379-380. Wald A. (1947) Sequential Analysis, Wiley & Sons, N.Y.