Carte di controllo non parametriche per oggetti - UniFI

Carte di controllo non parametriche
per oggetti simbolici(1)
Non Parametric Control Charts For Symbolic Objects
Simona Balbi & Germana Scepi
Dipartimento di Matematica e Statistica – Università “Federico II” di Napoli
Via Cintia, Monte S. Angelo 80126 Napoli - [email protected], [email protected]
Abstract: The paper aims at proposing schemes for controlling the behaviour of
peculiar objects described by interval variables. We undertake the factorial symbolic
data analysis viewpoint in defining multivariate control charts for factorial coordinates.
In particular, we suggest the use of non parametric schemes for controlling so peculiar
data.
Parole chiave: Factorial coordinates, resampling techniques, interval data, convex hull
1. Introduzione
La necessità di analizzare ingenti moli di dati provenienti da database relazionali, come
ad esempio quelli relativi ad indagini di grandi dimensioni, ha comportato l’utilizzo di
tipi di dati complessi e strutturati, chiamati in letteratura oggetti simbolici (Bock e
Diday, 1999). Si sono aperti, di conseguenza, differenti filoni di ricerca, orientati alla
definizione di metodologie di analisi statistica per questo tipo di dati.
Ad oggi, le soluzioni appaiono prevalentemente orientate a riletture ed adattamenti di
metodi di analisi multidimensionale. Questa scelta appare una diretta conseguenza della
forte componente di classificazione insita nel concetto stesso di oggetto simbolico che,
in quanto struttura di ordine superiore, può essere visto come una classe di elementi. E'
evidente che temi propri di queste tecniche, primo fra tutti il concetto stesso di distanza,
vanno rielaborati alla luce di questo nuovo contesto.
Obiettivo prescelto nel presente lavoro, fra le diverse problematiche sorte in letteratura,
è quello di affrontare il controllo di un processo produttivo, quando l'oggetto di questo
controllo è, appunto, simbolico. La strategia di analisi seguita è un adattamento di
precedenti proposte su dati classici, cercando di tener conto e di enfatizzare le
conseguenze e le implicazioni di questo nuovo contesto. In conclusione si è cercato,
inoltre, di delineare alcune possibili linee di ricerca che si allontanino più radicalmente
dall'impostazione classica dei problemi, ma che si avvalgano di operazioni e
problematiche proprie degli oggetti simbolici.
(1) Il presente lavoro è in parte finanziato dal progetto MURST (40%) “Analisi multivariata per la
Qualità Totale”, coordinato da C. Lauro e in parte finanziato dal progetto europeo ESPRIT 28953
(ISO3D).
2. La struttura dei dati
Indichiamo con Oi (con i = 1, … n) n oggetti simbolici, descritti da p variabili yj che
assumono valori all’interno degli insiemi Dj (j = 1, …, p). Ciascun Oi è, quindi, un’unità
statistica complessa definita tipicamente come una congiunzione di eventi elementari:
[y1  d1]  ...  [yj dj] ... [yp dp]
dove dj  Dj, (j = 1, ..., p) può essere, secondo la natura di yj, un intervallo di valori o un
insieme di modalità assunti della variabile yj. Tale descrizione può essere arricchita dalla
presenza di regole (gerarchiche o logiche) o da distribuzioni di probabilità. Un oggetto
simbolico può essere definito a priori da un punto di vista intenzionale,
indipendentemente da , insieme degli individui osservati. Il generico individuo k (k =
1, … , card()) può essere assegnato all’oggetto Oi in base ad una funzione di
riconoscimento Booleana a(.) del tipo (vero, falso). Si realizza a(k) = vero se k
assume valori coerenti con la descrizione di Oi. L’insieme degli individui che
soddisfano questa condizione viene indicato come estensione di Oi.
La matrice da analizzare X, che classicamente è costituita da n righe (individui) e p
colonne (variabili), è, dunque, in questo contesto, costituita dalla descrizione
dell'oggetto simbolico. Ad esempio, si supponga che si vogliano analizzare delle
trasmissioni televisive definite da intervalli di share, dalla fascia oraria (mattina,
pomeriggio, sera) e dalla composizione degli spettatori per classi di età (giovani, adulti,
anziani). Gli Oi sono, così, descritti da una variabile ad intervallo, da una variabile
qualitativa in codifica binaria, che può assumere anche più modalità di risposta, e da una
distribuzione:

0,3

X   ...


 0,1


0,4
1 1 0
0,6 0,3 0,1

...
  
... ... ...

...

0,2
  
0 1 0




0,2 0,2 0,6 

...
 

...


L'oggetto O1 è, ad esempio, descritto come una trasmissione televisiva con uno share
che varia fra il 30% ed il 40%, presente sia nella fascia mattutina sia in quella
pomeridiana, seguito per il 60% da giovani, per il 30% da adulti e per il restante 10% da
anziani.
E' evidente che le tecniche di analisi dei dati usuali non sono in grado di trattare una
simile struttura dei dati, che necessita di essere trasformata. Nel seguito, visto l'obiettivo
di costruire carte di controllo, si concentrerà l'attenzione su dati a intervallo (come nel
caso dello share dell'esempio).
La matrice X in questo caso ha dimensioni (n, 2p), essendo ciascun oggetto descritto da
2 valori (vertici) per ogni descrittore (il min ed il MAX del suo intervallo di
definizione). Seguendo le proposte presenti in letteratura, X è trasformata in una matrice
Z, di dimensioni (n2p, p), ottenuta considerando tutte le possibili combinazioni dei
vertici. Nel caso più semplice di p=2, ciascun Oi è rappresentato da 22 combinazioni dei
valori minimi e massimi dei 2 descrittori. Geometricamente tale soluzione corrisponde
alla rappresentazione di un rettangolo i cui vertici sono le 4 combinazioni ({min, min;
min, MAX; MAX, min; MAX, MAX }. In Figura 1 è riportata la rappresentazione, in
termini di vertici, di un oggetto simbolico definito da tre descrittori quantitativi
Figura 1: Rappresentazione di un oggetto simbolico in termini di vertici
Una trasformazione particolare è stata proposta da Lauro e Palumbo (2000) che
Vertici
partendo dalla matrice X (n, 2p) ottengono la matrice Z# (n,p), costituita dalle ampiezze
degli intervalli. Ciascuna riga, dunque, descrive un oggetto, mentre in colonna si hanno
singoli valori per ogni yj corrispondenti all'ampiezza dell'intervallo di definizione di
ogni singola variabile. I vantaggi dell'utilizzo di Z# non sono solo riconducibili al fatto
che in tal modo si è ottenuta una matrice formalmente identica ad una matrice di dati
classici, quanto alla possibilità di introdurre nell'analisi elementi relativi alla dimensione
dell'oggetto, nonché alla sua forma.
Figura 2: Rappresentazione di un oggetto simbolico in termini di ampiezza
Sulle matrici trasformate è possibile pensare di applicare tecniche multivariate di
controllo della qualità. L'obiettivo del controllo di un processo complesso viene, di
regola, raggiunto attraverso una sintesi delle informazioni da controllare. A tale scopo è
necessario, dunque, introdurre alcune tecniche di analisi proposte in letteratura per la
ricerca di fattori nel caso in cui i dati siano oggetti simbolici.
3. Analisi fattoriali simboliche
L'estensione dell'Analisi in Componenti Principali (ACP) per oggetti simbolici definiti
da variabili ad intervallo è stata proposta da Chouakria, et al. (1998) ed è chiamata
Analisi in Componenti Principali sui Vertici (ACP-V). L'ACP-V consiste in una
normale ACP sulla matrice Z dei vertici. I vertici, dunque, sono in questo caso gli
elementi del sottospazio Rp mentre le p variabili descrittori sono gli elementi del
sottospazio Rn. L'equazione caratteristica dell'analisi in Rn è quindi la seguente:
1
Z ' Zv q   q v q
n
1 q  p
(1)
dove q e q rappresentano rispettivamente gli autovalori e gli autovettori della
matrice 1/n Z'Z.
In maniera analoga è definita l'equazione in Rp.
Lauro e Palumbo (2000) introducono una variante a tale approccio e definiscono
l'Analisi in Componenti Principali per Oggetti Simbolici (ACP-OS). La (1) è
trasformata nella seguente equazione, in modo da massimizzare la differenza tra gli
oggetti simbolici:
1
~
Z ' PA Zv~q   q v~q
1 q  p
(2)
n
dove PA  A( A' A) 1 A' è un proiettore ortogonale utilizzato per rappresentare i dati nel
sottospazio di riferimento generato dalle colonne della matrice Booleana A che indica il
legame di appartenenza dei vertici agli oggetti.
Gli stessi autori (v. par. 2) propongono, inoltre, un approccio nuovo basato non più sulla
matrice Z ma sulla matrice Z# (n,p) delle ampiezze. Tale metodo, denominato Analisi in
Componenti Principali sulle Ampiezze (ACP-AOS), fornisce una sintesi degli oggetti
simbolici che tiene conto della loro forma e della loro dimensione. Geometricamente, gli
oggetti simbolici vengono rappresentati considerando un unico vertice relativo al
massimo dell'intervallo, mentre il valore minimo è ricondotto nell'origine (Figura 2).
Questo tipo di semplice rappresentazione consente di identificare meglio il ruolo delle
variabili e, dunque, le similitudini tra oggetti in base ai descrittori.
L'Analisi in Componenti Principali sulle Ampiezze verrà utilizzata nel seguito per la
costruzione di differenti carte di controllo multivariate non parametriche.
4. Tecniche per il controllo dei dati: l'approccio non parametrico
In letteratura, le più diffuse procedure per il controllo multivariato su dati classici si
basano su l’ipotesi di multinormalità delle variabili di partenza (Jackson, 1991). Per
problemi legati al numero elevato di controlli da eseguire e alla possibile correlazione
tra le variabili, si usa in genere sintetizzare le informazioni da controllare attraverso
componenti principali, incorrelate tra loro. Si definiscono, in tal modo, schemi di
controllo per le coordinate fattoriali. Anche per tali schemi, si presuppone la
multinormalità delle variabili di partenza e, dunque, la forma delle regioni di controllo è
di tipo regolare ed ellissoidale.
Strategie alternative, in assenza di ipotesi distribuzionali, sono state proposte da Scepi et
al. (1993) con l'obiettivo di costruire schemi di controllo di tipo non parametrico,
adattabili dunque a dati di natura diversa. L'idea di partenza è stata, infatti, la difficoltà
di una verifica delle ipotesi classiche in presenza di numerose variabili, in particolare
nel caso di variabili di tipo qualitativo e, quindi, con riferimento al controllo della
qualità non solo di processi produttivi ma anche di servizi (Lauro, Balbi, Scepi, 1997).
Le procedure di costruzione di tali schemi si basano sull’utilizzo congiunto di tecniche
di ricampionamento, ed in particolare del bootstrap, e metodi di analisi fattoriale a più
vie (come STATIS o l'Analisi delle Matrici Principali) e danno luogo a regioni di
controllo convesse ed irregolari. Partendo da una matrice di dati classici X (n,p)
caratterizzata da n individui e p variabili, le carte di controllo non parametriche vengono
costruite attraverso i seguenti passi (Lauro, Scepi, Balbi, 1996):
1. Ricampionamento: si ricampiona con ripetizione all'interno delle righe della
matrice X, centrata, così da generare B matrici bootstrap X b (b=1,...,B)
2. Analisi: si procede ad un'analisi congiunta della struttura a tre vie costituita
dalle B matrici X b , seguendo l'approccio interstruttura-compromessointrastruttura del metodo STATIS (Escoufier, 1987). L'analisi consente di
costruire due matrici:
la matrice dell'interstruttura IS che esprime le relazioni esistenti fra le diverse
matrici e ha come elemento generico il coefficiente di correlazione vettoriale di
Escoufier:
(3)
Rv bb'  tr( b b' ) / tr( b ) 2 tr( b' ) 2
1
con  b  ( X b* )' X b* matrice di varianza e covarianza di X b ;
n
la matrice compromesso CO, che è ottenuta come combinazione lineare
delle b,
B
CO =  u b b ,
(4)
b 1
dove ub è il b-esimo elemento dell'autovettore associato al più grande
autovalore ottenuto dalla diagonalizzazione di IS.
3. Costruzione della Carta di Controllo IS: per costruire questo schema di
controllo si proiettano le matrici X b sul primo piano fattoriale
dell'interstruttura. La nube dei B punti individua una regione di confidenza
empirica il cui livello è fissato mediante un'opportuna procedura di peeling
(Green, 1981) dei convex hull dei punti replicati, eliminando una percentuale
prefissata (es. =0,05) dei punti più esterni.
Si è così costruita una carta di controllo che consente di ottenere una
valutazione globale del comportamento di un campione osservato, X+, in base
alla posizione della sua proiezione in supplementare sul primo piano fattoriale
all'interno (in controllo) o all'esterno (fuori controllo) della regione così
definita.
4. Costruzione della Carta di Controllo CO: nel caso in cui la carta IS dia un
segnale di fuori controllo, per comprendere quali variabili possano esserne la
causa, si segue un procedimento analogo a quello della fase 3, stavolta sulla
matrice CO. Le variabili associate a ciascuna replicazione sono proiettate sul
piano fattoriale determinato dalla diagonalizzazione di CO, il peeling del
convex hull corrispondente consente di generare, successivamente, regioni di
controllo per le variabili.
L'ampiezza del convex hull relativo a ciascuna variabile rappresenta una misura
di variabilità e, quindi, del rischio connesso alla singola variabile.
Una volta costruita la carta CO, si avrà un segnale di fuori controllo per una
data variabile se la proiezione in supplementare relativa ai valori assunti in un
nuovo campione X+ cade al di fuori della propria regione di controllo.
Si fa notare che se l'obiettivo è quello di controllare le unità, piuttosto che le variabili, è
possibile costruire, con analogo procedimento, carte di controllo per le singole unità
1
considerando come elemento caratteristico della matrice interstruttura:  b  X *b X *b  '
n
4.1 Approccio non parametrico per dati in lotti
Una procedura analoga a quella vista nel paragrafo precedente è stata proposta per la
costruzione di carte di controllo per dati in lotti (Balbi, Lauro, Scepi; 1993; 1994). Tale
procedura sostituisce, però, al metodo STATIS, un metodo di sintesi a tre vie di tipo
asimmetrico (Analisi delle Matrici Principali rispetto al Piano degli Esperimenti) che
tiene conto della presenza di informazioni esterne al controllo relative alle
caratteristiche strutturali dei lotti.
Le B matrici replicate X b (n,p) vengono qui sostituite da B matrici  b (k,p) che hanno
in riga i k lotti definiti sulla base di alcune variabili considerate strutturali ed in colonna
i valori medi delle variabili di interesse in B replicazioni differenti. L'elemento generico
della matrice interstruttura definito nella (3) sarà in questo caso il seguente:
Rv bb'  tr( A'b Ab' ) / tr( Ab ) 2 tr( Ab' ) 2
(5)
dove la matrice Ab è la matrice  b proiettata, attraverso un apposito operatore di
proiezione, nel sottospazio generato dalle variabili di tipo strutturale che definiscono i k
lotti.
Una volta definita la matrice interstruttura, uno o più (RB) matrici principali
(compromessi) vengono definiti come combinazioni lineari delle Ab, sulla base degli
elementi degli autovettori associati ai corrispondenti autovalori (v. (4)).
Sul sottospazio generato dalla diagonalizzazione del primo compromesso (e via via sui
successivi, laddove se ne si ravveda la necessità), in maniera analoga al passo 4 della
procedura prima esposta, è possibile costruire carte di controllo CO per i singoli lotti.
4.2 Approccio non parametrico per dati sequenziali
L'approccio non parametrico proposto per il controllo di singole unità indipendenti tra
loro può essere esteso, con opportuni accorgimenti, anche al caso in cui le unità si
presentino in serie (Scepi, Acconcia; 1996). La matrice dei dati di partenza, in questo
caso, è una matrice X (T,Q) dove le T righe rappresentano T tempi successivi in cui Q
variabili continue sono misurate sulla stessa unità. Per questo tipo di dati, il primo passo
della procedura non parametrica precedentemente illustrata viene effettuato ricorrendo
ad una tecnica di ricampionamento chiamata bootstrap stazionario (Politis, Romano;
1994) che ha la proprietà, sotto condizioni poco restrittive, di generare matrici replicate,
mantenendo inalterata la stazionarietà delle serie presenti nella matrice originale. In
particolare, viene utilizzato un algoritmo iterativo che ricostruisce le B matrici bootstrap
lavorando su blocchi di vettori riga in modo da fermarsi solo dopo aver generato T
vettori riga per ciascuna X b .
Sulle B matrici è possibile applicare i passi 2, 3, e 4 della procedura, tenendo presente,
però, nella scelta dell'elemento generico dell'interstruttura, che l'obiettivo è quello di
controllare i singoli tempi e, quindi, le singole unità piuttosto che le variabili.
5. Carte di controllo non parametriche per dati strutturatiScopo del
lavoro è quello di definire schemi di controllo multivariati per dati complessi, in
particolare per oggetti simbolici descritti da variabili ad intervallo. Alcuni autori
(Giordano e Palumbo; 1999) hanno proposto schemi di controllo costruiti utilizzando
congiuntamente delle procedure tradizionali basate sulle componenti principali e dei test
sequenziali di tipo Wald (1947).Il punto di partenza della presente proposta è la
constatazione della difficoltà di derivare analiticamente la forma della distribuzione di
combinazioni lineari di dati complessi. Questo suggerisce, con maggior forza rispetto al
caso in cui si opera su dati classici, per i quali si è già sottolineata la difficoltà del
ricorso alla multinormalità, di utilizzare strumenti di controllo non parametrici. E'
possibile considerare diversi esempi di oggetti simbolici per i quali definire opportune
carte di controllo non parametriche.
5.1 Carte non parametriche per oggetti sequenzali
Supponiamo, ad esempio, che gli n oggetti simbolici siano le rilevazioni in T tempi
differenti di variabili quali lo share, l'audience media, il rating di un particolare
programma televisivo, poniamo un telegiornale di prima serata, rilevati a piccoli
intervalli di tempo (ad es., ogni 3 minuti), più o meno corrispondenti ai diversi temi
trattati: il "fatto del giorno"; la politica interna; la politica estera; la cronaca; costume e
spettacolo; lo sport; le previsioni del tempo. Le variabili considerate sono per loro
natura tipiche variabili ad intervallo che consentono di definire in estensione l'oggetto
"telegiornale". L'oggetto, dunque, è univocamente descritto dalle variabili considerate,
ma le misurazioni dei diversi indici di ascolto sono effettuate in T tempi consecutivi, per
esempio nei diversi giorni all'interno di un mese. L'obiettivo della definizione di limiti
di controllo può essere quello di definire uno standard di ascolto rispetto al quale
verificare un successivo scostamento, ad esempio, in un particolare giorno e in un
particolare intervallo di tempo.
Un esempio, analogo, ma più vicino ai problemi tipici del controllo di qualità, è quello
di avere T oggetti intesi come misurazioni in T tempi consecutivi (ad esempio ore) di
alcune variabili, rilevate in intervalli di tempo, ad esempio minuti, caratterizzanti un
unico processo produttivo, articolato in fasi.
In entrambi gli esempi, dunque, la matrice di partenza è una matrice contenente dati in
serie storica. Per costruire degli schemi di controllo non parametrici per oggetti
simbolici, in queste situazioni, è possibile ricorrere alla procedura per dati sequenziali
proposta per dati classici e sintetizzata nel paragrafo 4.2. E' necessario, però, trasformare
la matrice di partenza nella matrice Z# (n,p) dove ciascuna variabile assume un singolo
valore pari all'ampiezza dell'intervallo di definizione (par.1).
Con l'obiettivo di controllare i singoli oggetti, e quindi, i singoli tempi, si ricampiona,
quindi, la matrice trasformata attraverso la tecnica del bootstrap stazionario (par.4.2) e
si ottengono B matrici Z# (n,p). Nell'esempio di un processo produttivo, ciascuna
replicazione può essere vista come un campione giornaliero costituito da T misurazioni.
In analogia con quanto è stato proposto per dati classici si possono a questo punto
costruire la carta di controllo IS per un controllo complessivo dei campioni e la carta di
controllo CO per un controllo sui singoli tempi o oggetti (vedi Fig. 3). Il peeling,
trattando di oggetti simbolici definiti dalle coordinate del vertice massimo, verrà quindi
effettuato eliminando una prefissata percentuale di oggetti che presentano coordinate
estreme di tale vertice. Le matrici di base vengono ovviamente analizzate non più con
l'ACP ma con la sua variante simbolica, l'ACP-OSA (par.3).
Figura 3: Esempi di convex hull per oggetti sequenziali
t*2 t*2
t*2
t*2
t*1 t*1
t*1
t*1
Nella costruzione dei convex hull per gli oggetti si tiene conto, in questo approccio,
contemporaneamente della loro dimensione e della loro forma. In tale ottica, un
campione successivo verrà valutato rispetto ad uno standard costruito su entrambe le
informazioni; un oggetto fuori controllo, dunque, lo sarà per forma (prima componente)
e per dimensione (seconda componente).
Si registra un segnale di fuori controllo quando un oggetto osservato in un tempo
successivo, proiettato in supplementare sulla carta CO, presenta coordinate per il vertice
massimo al di fuori del proprio convex hull . Le singole componenti possono essere
analizzate, in presenza di fuori controllo, mediante boxplot relativi alle coordinate
massime di ciascun oggetto nelle matrici replicate.
5.2 Carte non parametriche per oggetti simbolici (lotti)
Nell'ambito del controllo di oggetti simbolici è particolarmente interessante introdurre il
problema del controllo per lotti. Un oggetto simbolico, infatti, può essere visto come
una classe di individui (lotto) che soddisfano determinate condizioni, date dalla
definizione dell'oggetto stesso. Si può quindi pensare che esistano, in riferimento ad uno
stesso oggetto, variabili con ruolo differente, in altre parole che il controllo dell'oggetto
venga effettuato su variabili di interesse, diverse dai descrittori veri e propri.
La matrice di partenza, X (n,2p), può essere vista, quindi, come partizionata in due
sotto-matrici, una, D di dimensioni (n,2p1) in cui vengono definiti gli oggetti ed un'altra,
G (n,2p2), in cui, per ciascun oggetto, si riportano i valori delle variabili sottoposte a
controllo (con p = p1 + p2).
Il problema, a nostro avviso, non è banale, in quanto proprio perché i descrittori
identificano l'oggetto, essi ne rappresentano la definizione in intenzione, mentre i
problemi di controllo possono essere immaginati su variabili differenti da questi.
Sempre muovendosi nell'ottica dei dati ad intervallo, si può ad esempio pensare ad
oggetti come a prodotti diversi di un unico processo produttivo complesso, ciascuno da
controllare rispetto alle stesse variabili di interesse. La diversità tra gli oggetti nasce da
un'ampiezza differente del campo di valori che ciascun descrittore può assumere.
Un esempio è quello riportato nella seguente struttura dei dati (Crowder,1991) che si
riferisce a 7 differenti tipi di travi rispetto alla quale sono state misurate 6 variabili ad
intervallo (Fig.4). Le variabili che descrivono l'oggetto sono spessore, lunghezza e peso,
mentre le variabili da controllare sono tempo di rottura, carico di rottura, profondità
della spaccatura.
Figura 4: Struttura dei dati relativa a un campione di 7 lotti di travi
G
D
Spessore Lunghezza Peso
(4,5)
(4,5)
(4,5)
(6,8)
(6,8)
(6,8)
(6,8)
(7,14)
(7,14)
(14,20)
(7,14)
(7,14)
(14,20)
(14,20)
Tempo di Rottura
(32,100)
(3000,5000)
(100,300) (5000,10000)
(100,300) (2000,6000)
(100,300) (6000, 16000)
(300,600) (11000,26000)
(100,300) (5500,9000)
(300,600) (8000,28000)
Carico di rottura Profondità della Spaccatura
(10,30)
(20,40)
(8,20)
(20,75)
(55,180)
(10,40)
(10,180)
(30,70)
(35,100)
(100,300)
(25,50)
(35,50)
(45,70)
(35,105)
Il problema è analogo a quello affrontato per dati classici nel caso di controllo
multivariato per lotti e, dunque, con opportuni accorgimenti si può ricorrere ala
procedura non parametrica sintetizzata al paragrafo 4.1.
La matrice X (n,2p) va, dunque, trasformata nella matrice Z# (n,p) delle ampiezze
partizionata nella matrice D# (n,p1) delle variabili di definizione e nella matrice G#
(n,p2), delle variabili da controllare.
La matrice Z# (n,p) viene, a questo punto, replicata B volte, in modo da simularne la
distribuzione empirica.
La matrice dell'interstruttura (5) verrà definita sulla base delle matrici Ab# che si
ottengono proiettando le G b# , attraverso un apposito operatore di proiezione, nel
sottospazio generato dalle p1 variabili di tipo strutturale che definiscono gli oggetti.
  
Ab#  Db# Db# ' Db#
1
( Db# )' G b#
(6)
Le ACP sui compromessi più informativi (v. par. 4.1)
B
COr =  u rb A # rb
1  r <R
(7)
b 1
sono, quindi, analisi parziali, effettuate tenendo conto della struttura informativa relativa
alle caratteristiche dei lotti. Il metodo proposto differisce sostanzialmente da un'ACPOSA, che utilizza un operatore di proiezione (vedi par.3) per assicurare la coesione tra i
vertici di un oggetto, in quanto ha l'obiettivo di valutare come l'ampiezza dell'intervallo
di definizione dei descrittori incida sul comportamento delle variabili sottoposte a
controllo.
A partire dalle matrici compromesso, si possono costruire delle carte di controllo CO
(una per ogni compromesso significativo) per oggetti, definendo per ciascun oggetto un
opportuno convex hull. Il vantaggio di questo tipo di approccio è quello che sulla carta è
possibile proiettare in supplementare le variabili sottoposte a controllo. L'informazione
è, quindi, duplice; da una parte si misura, in base all'ampiezza dei singoli convex hull, la
variabilità di ciascun oggetto, dipendente dalla variabili strutturali; dall'altra, in termini
di coordinate, si controlla la variabilità del processo rispetto all'influenza che le variabili
di interesse hanno sui singoli oggetti.
Conclusioni
Le carte di controllo servono ad identificare possibili situazioni di fuori controllo intese
come scostamento da uno standard. Nel presente lavoro si sono proposte alcuni
strumenti grafici (basati su convex hull), che consentono nello specifico contesto degli
oggetti simbolici di affrontare situazioni differenti da un punto di vista produttivo (dati
sequenziali, oggetti come lotti).
Nel controllo statistico multivariato, la ricerca delle cause di fuori controllo è uno dei
punti di maggiore difficoltà. La natura dei dati utilizzati in questo lavoro ci suggerisce
degli strumenti possibili per la loro identificazione. In particolare, è possibile pensare di
ricorrere all'operazione di “generalizzazione” di un oggetto simbolico, traducibile nella
eliminazione di una variabile nella sua descrizione, per evidenziare il ruolo svolto da
ciascun descrittore nel comportamento dell’oggetto stesso. Il ricorso, inoltre,
all'operazione inversa di “specializzazione” di un oggetto fuori controllo, attraverso
l’introduzione, ad esempio, di nuovi descrittori, può condurre ad una specificazione del
controllo.
Riferimenti bibliografici
Balbi S., Lauro N.C., Scepi G. (1993) Multidimensional Data Analysis and
Experimental Design, Proceedings of the 49-th ISI Session, Contributed Papers, 1,
67-68.
Balbi S., Lauro N.C., Scepi G. (1994) A Multiway Data Analysis Technique for
Comparing Surveys, Methodologica, 3, 79-90.
Balbi S., Verde R. (1999) Problemi di Stabilità nell’Analisi Fattoriale di Dati
Simbolici, relazione presentata a CLADAG ’99, Roma.
Bock H.H, Diday E. (a cura di) (1999) Analysis of Symbolic Data, Springer, Heidelberg.
Chouakria A., Diday E., Cazes P. (1998) An Improved Factorial Representation of
Symbolic Objects, KESDA ’98, Luxembourg.
Giordano G., Palumbo F. (1999) A New Statistical Quality Control Tool Based on PCA
of Interval Data, Proceedings of CLADAG ’99, Roma, 197-200.
Escoufier Y. (1987) Three-mode Data Analysis: the STATIS Method, Methods for
Multidimensional Data Analysis (a cura di B. Fichet e C. Lauro) ECAS, 259-272.
Green P.J. (1981) Peeling Bivariate Data, in Interpreting Multivariate Data (V.Barnett
et al. eds.), Wiley &Sons, N.Y.
Jackson J.E. (1991) A User's Guide to Principal Components, Wiley & Sons, N.Y.
Lauro N.C., Palumbo F. (2000) Principal Component Analysis of Interval Data: a
Symbolic Data Analysis Approach, Computational Statistics (in stampa)
Lauro N.C., Scepi G., Balbi S. (1996) Differenti Approcci nella Costruzione di Carte di
Controllo Multivariato in Studi in onore di Giuseppe Landenna, Giuffrè ed., 261291.
Lauro N.C., Balbi S., Scepi G. (1997) L'Analisi Multidimensionale dei Dati per la
Misurazione della Customer Satisfaction nei Servizi, Atti del Convegno La Statistica
per le Imprese, 1, 567-583.
Politis D.N., Romano J.P. (1994) The Stationary Bootstrap, Journal of the American
Statistical Association, 89, 1303-1313.
Scepi G., Acconcia A. (1996) Non Parametric Control Charts for Sequential Process,
Proceedings in Computational Statistics (a cura di A. Prat), Phsiyca Verlag, 447-452.
Scepi G., Lauro N.C., Balbi S. (1993) Empirical Confidence Regions for
Multidimensional Control Charts, in Bulletin ISI, Contributed Papers, 2, 379-380.
Wald A. (1947) Sequential Analysis, Wiley & Sons, N.Y.