Controllo statistico di qualità Introduzione • Un’azienda vorrebbe che tutti i pezzi prodotti siano uguali: vuole cioè che la produzione sia affidabile. • L’affidabilità della produzione è affidata a due momenti distinti: la progettazione della produzione (off line) e il controllo che la produzione sia almeno conforme ai parametri specificati (on line). Il controllo statistico della qualità consiste in una collezione di strumenti che sono essenziali nelle attività finalizzate al miglioramento della qualità di prodotti e servizi attraverso l’analisi della loro variabilità. Es: un rivenditore compra delle cassette di frutta da un produttore e si aspetta che siano imballate e sistemate opportunamente in modo da facilitare l’esposizione della merce o la sistemazione in magazzino. Tra il 1920 e il 1945, si sviluppano le tecniche di controllo statistico della qualità dell’ output grazie a Gorge D. Edwards e a Walter A. Shewhart. Si introdussero tecniche di controllo sull’intero processo produttivo, non limitandosi più, quindi, a verificare la difettosità dei prodotti solo alla fine del processo dato che i controlli a tappeto su tutti i prodotti stavano iniziando a rivelarsi troppo costosi. Per effettuare questa nuova tipologia di controlli, si fece sempre più ricorso ai criteri statistici. Esaminando pochi prodotti finiti si riusciva a stabilire, mentre si produceva, se il processo presentava delle irregolarità o meno. I controlli basati su criteri statistici ebbero la massima applicazione durante la seconda guerra mondiale, quando per l’industria bellica diventò necessario utilizzare in modo massiccio manodopera femminile non specializzata e soggetta, quindi, ad un margine di errore maggiore. I 7 strumenti del controllo statistico di qualità ESEMPIO: Una azienda farmaceutica decide di effettuare un controllo sul processo di iniezione di un farmaco, per le cure tumorali, all’interno di appositi flaconi. L’azienda assume come tollerabili un quantitativo minimo di medicinale nei flaconi pari a 82 ml e uno massimo di 118 ml e in fase di progetto stabilisce un quantitativo obbiettivo (target) di 95 ml. Gli operatori addetti a tale compito hanno a disposizione le misure del contenuto dei flaconi del prodotto medicinale riportate nella tabella I dati Un primo approccio al problema può essere la costruzione di un istogramma. DOMANDA: quale informazione si perde effettuando un istogramma? Istogramma dei dati 30 25 20 15 10 5 0 80 85 90 95 100 105 110 115 120 Dall’istogramma si può subito notare come i dati seguano approssimativamente una distribuzione normale, con una piuttosto accentuata variabilità dei dati. Rispetto al target aziendale il processo è abbastanza centrato, ma la variabilità risulta eccessiva per cui potrebbe essere necessaria una azione correttiva sulla variabilità del processo Normal plot dei dati dell’esempio precedente Normal Probability Plot 0.997 0.99 0.98 0.95 0.90 Probability 0.75 0.50 0.25 0.10 0.05 0.02 0.01 0.003 80 85 90 95 100 Data 105 110 115 Un istogramma consente di valutare la precisione del processo produttivo tramite l’analisi di dispersione della distribuzione dei dati, anche in relazione ai limiti di tolleranza. Dalla sovrapposizione dell’istogramma con la retta del valore obbiettivo si può verificare il posizionamento del valore centrale dei dati rispetto al target assegnato ESEMPIO La carta dei 3-sigma Se dovesse essere disponibile una valutazione teorica (storica o di progetto) della varianza della popolazione e della media, usando il teorema delσlimite centrale è possibile sostituire il parametro k con 3, per la varianza σ W = e per media n si può usare quella della popolazione. Esempio: parametro di flusso monitorato in una azienda con media e varianza nota n=5 Costruire la carta di controllo della media in Matlab 1. I dati sono in numero 12*10: ci sono 12 gruppi (i giorni) e ogni gruppo ha numerosità campionaria pari a 10. Quindi N = 120, k = 12 sottogruppi, ciascuno di taglia ni = 10, i = 1,...,12. 2. Organizzare i dati in una matrice e calcolare la media per ogni sottogruppo. Costruire la carta di controllo della media in Matlab >> x x= 94 108 105 85 93 111 109 102 99 93 97 118 97 96 103 100 92 99 115 104 92 92 101 93 95 90 108 86 84 84 >> m=mean(x); 94 106 108 95 98 111 85 109 110 100 109 92 105 111 96 110 108 97 102 93 99 97 109 95 96 103 88 93 94 92 108 99 95 91 88 96 99 101 80 98 101 106 95 103 83 98 110 85 111 109 104 97 115 93 89 103 95 91 99 95 93 105 97 96 110 92 94 99 87 114 100 102 89 110 85 93 101 84 89 113 91 86 109 99 100 100 94 91 113 109 Le medie vengono fatte sulle colonne. Queste medie vengono plottate sulla carta di controllo. Quindi sulle ascisse si riportano i giorni (in sequenza). Costruire la carta di controllo della media in Matlab costruzione della carta di controllo 106 La linea centrale è rappresentata dalla media delle medie 104 102 k 1 x = ∑ mi k i =1 100 98 96 94 92 0 2 4 6 8 10 12 98,6 Costruire la carta di controllo della media in Matlab costruzione della carta di controllo 106 Per calcolare i limiti inferiore e superiore: a) Valutare l’escursione di ogni sottogruppo 104 102 100 R j = max( xi , j ) − min( xi , j ) i i 98 96 >> fori=1:12 r(i)=max(x(:,i))-min(x(:,i)); end 94 92 1 2 3 4 5 6 7 8 9 10 11 12 Oppure usare range(x) >> r r= 26 26 24 16 17 28 20 13 27 29 27 27 Costruire la carta di controllo della media in Matlab 1 k b) Calcolare la media delle escursioni: R = ∑ Ri k i =1 c) Calcolare i limiti usando la seguente tabella: >> rmed=mean(r) rmed = 23.3333 105.78 91.41 Plot delle linee superiori ed inferiori. costruzione della carta di controllo 110 108 106 104 102 100 98 96 94 92 90 1 2 3 4 5 6 7 8 9 10 11 12 Sovrapponiamo le regole di zona. A questo scopo calcoliamo la varianza media su tutti i sottogruppi: >> s=std(x); Il calcolo delle deviazioni standard viene fatto sulle colonne. >> smean=mean(s); 7.51 Le linee di zona sono: x ± 7.51; x ± 2*7.51; x ± 3*7.51 costruzione della carta di controllo 125 Per le regole di zona non c’è una function in MATLAB. 120 115 110 105 C’è un modo per costruire il grafico direttamente in MATLAB? 100 95 90 85 80 75 1 2 3 4 5 6 7 8 9 10 11 12 XBARPLOT X-bar chart for monitoring the mean. XBARPLOT(DATA,CONF,SPECS,SIGMAEST) produces an xbar chart of the grouped responses in DATA. The rows of DATA contain replicate observations taken at a given time. The rows should be in time order. CONF (optional) is the confidence level of the upper and lower plotted confidence limits. CONF is 0.9973 by default. This means that 99.73% of the plotted points should fall between the control limits if the process is in control. SPECS (optional) is a two element vector for the lower and upper specification limits of the response. ? SIGMAEST (optional) specifies how XBARPLOT should estimate sigma. Possible values are 'std' (the default) to use the average within-subgroup standard deviation, 'range' to use the average subgroup range, and 'variance' to use the square root of the pooled variance. >> xbarplot(x,0.9973, spec,’range’) Xbar Chart 106 UCL 104 102 Measurements OUTLIERS = XBARPLOT(DATA,CONF, SPECS,SIGMAEST) returns a vector of indices to the rows where the mean of DATA is out of control. 100 CL 98 96 94 92 LCL 90 0 2 4 6 Samples 8 10 12 SIGMAEST = ? Mentre per la media si ha linea centrale LC = x linea superiore LSC = x + 3 linea inferiore LIC = x − 3 σ n σ n E per la varianza? SIGMAEST = ‘std’ 1 k σ ⇐ ∑ si dove si è la dev. campionaria di ogni sottogruppo k i =1 2 1 n ossia si = x ji − x j ) ⇒ maggiori dettagli nel seguito! ( ∑ n − 1 j =1 Problema: SIGMAEST = 'variance' SIGMAEST = ‘range' ? CONF (optional) is the confidence level of the upper and lower plotted confidence limits. CONF is 0.9973 by default. This means that 99.73% of the plotted points should fall between the control limits if the process is in control. Questo valore è legato al coefficiente 3! >> norminv(0.9987,0,1) >> (1-0.9973)/2+0.9973 ans = ans = 3.0115 0.9987 Carta di tolleranza carta di tolleranza 120 115 110 105 100 >> hold on >> … >> c2=2*ones(1,10); >> plot(c2,x(:,2),'g*-') >> … 95 90 85 80 0 2 4 6 8 10 12 Lettura della carta di tolleranza Attenzione a derive nella rappresentazione! Confronto tra le due carte Xbar Chart 120 115 Measurements 110 UCL 105 100 CL 95 LCL 90 85 80 0 2 4 6 Samples 8 10 12 La lettura della carta della media va accompagnata con la lettura della cosiddetta carta dell’ escursione. La carta dell’escursione non è disponibile in MATLAB. Con i medesimi dati, si può calcolare anche la carta per l’escursione. Nell’esempio la linea superiore è 41.48 e quella inferiore è 5.4367. carta escursione 45 40 35 30 25 20 15 10 5 0 1 2 3 4 5 6 7 8 9 Sulla costruzione dei limiti di controllo… 10 11 12 Var [W ] = Var [ R ] σ2 2 σ ⇒ d32 = R2 σ R Se σ ⇐ σˆ = d2 Una tabella maggiormente completa http://www.unibas.it/utenti/dinardo/tavcc.pdf A2 corrisponde ad A D3 corrisponde a C D4 corrisponde a B Come si leggono le variazioni sulle carte di controllo Uno spostamento della media del processo produttivo, provoca l’apparire di una anomalia sulla carta di controllo della media: anche quando tale variazione sarà minima i punti della carta di controllo reagiranno in maniera apprezzabile Una variazione nella dispersione del processo produttivo provocherà anomalie avvertibili sia sulla carta di controllo della media che su quella della escursione , che tenderanno a distanziarsi tra di loro. Carte MR (moving range) Sostituisce la R chart Curva caratteristica operativa Diremo che il processo è in controllo statistico se per ogni t , indice dei sottogruppi, xt ∈ ( LimInf , LimSup ). Regione di accettazione Test di Ipotesi ® H 0 : µ = µ0 ⇒ H1 : µ ≠ µ 0 = funzione dei dati ? E' possibile accettare l'ipotesi nulla H 0 A 2 code REGIONE CRITICA REGIONE DI ACCETTAZIONE REGIONE CRITICA A 1 coda REGIONE DI ACCETTAZIONE REGIONE CRITICA Test di ipotesi ® α = P ( si rigetta H 0 - a posteriori - quando H 0 è vera - a priori ) ERRORE DI I TIPO α ← livello di significatività del test 1 − α = P ( si accetta H 0 - a posteriori - quando H 0 è vera - a priori ) Le regione di accettazione e … µ = µ0 µ0 Si rigetta l’ipotesi nulla… µ0 Statistica osservata Non si rigetta l’ipotesi nulla… µ0 Statistica osservata Test di ipotesi ® REGIONE DI ACCETTAZIONE α ← livello di significatività del test ? ? P ( STATISTICA ∈ regione di accettazione ) = 1 − α α = 0.10, 0.05, 0.01 Test di ipotesi ® β = P ( si rigetta H1 - a posteriori - quando H1 è vera - a priori ) ERRORE DI II TIPO 1 − β ← potenza del test 1 − β = P ( si accetta H1 - a posteriori - quando H1 è vera - a priori ) 1 − β = P ( si rigetta H 0 - a posteriori - quando H 0 è falsa - a priori ) DEVE ESSERE ALTA L’errore di II tipo µ = µ0 µ = µ1 µ0 Statistica osservata µ1 La potenza del test µ = µ0 µ = µ1 µ0 µ1 Statistica osservata Curva caratteristica operativa Diremo che il processo è in controllo statistico se per ogni t , indice dei sottogruppi, xt ∈ ( LimInf , LimSup ). Regione di accettazione α = P(rigettare H 0 | µ = µ0 ) = P( xt ∉ ( LCL,UCL) | µ = µ0 ) β = P(rigettare H1 | µ ≠ µ0 ) = P( xt ∈ ( LCL,UCL) | µ ≠ µ0 ) FALSO ALLARME MANCATO ALLARME Non avendo ipotesi alternative certe, immaginiamo che µ = µ1 = µ0 + kσ Se la popolazione è gaussiana, allora β = P( xt ∈ ( LCL, UCL) | µ = µ0 + kσ ) UCL − ( µ0 + kσ ) LCL − ( µ0 + kσ ) = Φ −Φ σ/ n σ/ n Il plot dei valori assunti da questo parametro per un opportuno valore di k, si chiama curva caratteristica operativa. Se UCL = µ0 + L ( σ n e LCL = µ0 − L ) ( σ n , allora β = Φ L − k n − Φ −L − k n ) e quindi perdiamo la dipendenza sia dalla deviazione standard che dalla media (che magari sono incognite!). Per usare le curve operative è necessario avere qualche informazione in più sulla natura del processo (ad esempio che la popolazione è gaussiana). Torniamo al nostro esempio dei flaconi. Siccome i limiti che abbiamo usato sono di tipo µ0 ± L σ n dove L = 3, n = 10 e σ ≈ R / d 2 allora si ha ( ) ( β = Φ 3 − k 10 − Φ −3 − k 10 ) Curva operativa >> k=[0.1:0.2:3]; >> z=normcdf(3-k.*sqrt(10))normcdf(-3-k.*sqrt(10)); >> plot(k,z) 1 0.9 0.8 0.7 0.6 Per k=1, vale circa 0.3 la probabilità di un mancato allarme. 0.5 0.4 0.3 Per valori di k inferiori, aumenta la probabilità di un mancato allarme. 0.2 0.1 0 0 0.5 1 1.5 2 2.5 3 Spesso sui testi si incontrano famiglie di curve operative. Questo perché si cerca di capire al variare della taglia del sottogruppo come varia la probabilità di un mancato allarme. ( ) ( β = Φ 3 − k n − Φ −3 − k n ) Curve operative al variare di n 1 n=8 n=5 n=12 0.9 Ogni plot corrisponde ad un valore di n. 0.8 0.7 0.6 0.5 0.4 0.3 0.2 0.1 0 0 0.5 1 1.5 2 2.5 3 Altro uso della curva operativa Nella progettazione delle carte di controllo è necessario specificare sia la dimensione del campione che la frequenza di campionamento. • Più grande è il campione più è sensibile il rilevamento di una variazione all’interno del processo. • La pratica corrente tende a diminuire la dimensione del campione e ad aumentare la frequenza di campionamento. Si fissa β , e si cerca quel valore di zβ tale che Φ ( zβ ) − Φ ( − zβ ) = β ossia, ricordando le proprietà della gaussiana... 2Φ ( zβ ) − 1 = β Per k=1 β = 0.3 β +1 ⇒ zβ = Φ 2 −1 ⇒ zβ = 3 − k n ⇒ è possibile ricavare n >> ((3-norminv((0.3+1)/2,0,1)))^2 n=6 Strategia di scelta dei sottogruppi …ma sono costosi! La pratica industriale corrente preferisce la prima strategia – aumentando la frequenza Approcci per la costruzione dei sottogruppi Approccio SNAPSHOT Quanti k? Approccio RANDOM ARL (average long run) Sia T la variabile aleatoria che indica il numero di sottogruppi da estrarre prima di avere un punto fuori i limiti della carta di controllo. T ha legge... ...geometrica, P(T = k ) = p(1 − p)k −1 , k = 1, 2,... 1 E [T ] = ARL, tempo medio per avere un fuori controllo p Quanto vale p? Nella carta 3-sigma, la probabilità che il processo sia in controllo statistico è data dalla legge dei 3-sigma, ossia >> normcdf(3,0,1)-normcdf(-3,0,1) ans = Quindi la probabilità che il processo vada fuori controllo è >> 1-0.9973 0.9973 ans = E [T ] = 370 0.0027 Negli ultimi anni, l’uso di questo parametro è stato oggetto di critiche: a) Deviazione standard q D [T ] = =370 la deviazione standard è molto ampia p b) La distribuzione geometrica è molto asimmetrica -3 2.8 Pdf geometrica con p=0.0027 x 10 2.6 2.4 2.2 2 1.8 1.6 1.4 1.2 1 0.8 0 50 100 150 200 250 300 350 400 Se α è la probabilità di avere un falso segnale di fuori controllo e se indichiamo con Tr la v.a. che indica il numero di campioni da estrarre prima di avere r falsi allarmi, essa ha legge... ...di Pascal k − 1 r k −r P (Tr = k ) = α (1 − α ) r −1 Il ricorso al range per la stima della deviazione standard fornisce una stima sufficientemente precisa, solo per piccole numerosità campionarie inferiori a 5. Se la dimensione campionaria è abbastanza grande (>10,12) l’uso del range R è poco efficiente per la stima della varianza. …e qui abbiamo un altro problema!! Vale che E S 2 = σ 2 e invece E [ S ] ≠ σ . Quindi σ non può essere valutato con S . S chart Se X ≈ N ( µ , σ 2 ) ⇒ E [ S ] = σ c4 dove c4 è un parametro che dipende da n n − 1 ! 2 2 e n ! = n n − 1 n − 2 ⋯ 1 π c4 = n −1 n −1 2 2 2 2 2 1 ! − 2 Intanto cambiano i limiti di controllo della carta della media µ ±3 X σ n S σ≈ c4 1 k dove S = ∑ Si k i =1 SIGMAEST (optional) specifies how XBARPLOT should estimate sigma. Possible values are 'std' (the default) to use the average within-subgroup standard deviation, 'range' to use the average subgroup range, and 'variance' to use the square root of the pooled variance. >> schart(x) ...e al posto di E [ S ] si usa S S Chart 14 UCL Standard Deviation 12 10 CL 8 6 4 LCL 2 1 2 3 4 5 6 Sample Number 7 8 9 10 Invece i limiti di controllo della carta della deviazione standard E [ S ] ∓ 3D [ S ] S D[S ] = σ 1− c ≈ 1 − c42 c4 2 4 >> schart(x) S Chart 14 UCL Standard Deviation 12 10 CL 8 6 4 LCL 2 1 2 3 4 5 6 Sample Number 7 8 9 10 Riepilogando >> xbarplot(x,0.9973,spec,‘range') Xbar Chart 106 UCL 104 Measurements 102 100 CL 98 96 94 92 90 LCL 0 2 4 6 Samples 8 10 12 Questa è la carta per la media con i limiti di controllo che dipendono dal range R σ← per stimare σ (la variabilità del processo) d2 >> xbarplot(x',0.9973,spec,'std') Xbar Chart 106 UCL 104 Measurements 102 100 CL 98 96 94 92 LCL 90 0 2 4 6 Samples 8 10 12 Questa è la carta per la media con i limiti di controllo che dipendono dalla deviazione standard. S σ≈ per stimare la variabilità del processo c4 >> xbarplot(x',0.9973,spec,'variance’)') Xbar Chart UCL 104 102 Measurements Questa è la carta per la media con i limiti di controllo che dipendono dalla pooled variance che sostituisce direttamente la deviazione standard. 106 100 CL 98 96 94 92 LCL 90 0 2 4 6 Samples 8 10 12 ESERCIZIO Una azienda che produce semiconduttori vuole monitorare il processo di produzione, controllando la larghezza di flusso delle resistenze. Sono stati raccolti 25 sottogruppi di misurazione, ciascuno di dimensione 5, uno ogni ora (file dati2.m). Costruire le carte di controllo. Cosa e’ possibile dire circa le probabilità di falso allarme e di mancato allarme? Quanto vale il parametro ALR? Commentare opportunamente i risultati ottenuti Siccome i sottogruppi sono di taglia n=5, per l’escursione possiamo usare la R-chart. xbarplot(wafers,0.9973,spec,'range') L’output è Xbar Chart 1.75 1.7 UCL 1.65 Measurements 1.6 USL 1.55 CL 1.5 1.45 1.4 LSL 1.35 LCL 1.3 0 5 10 15 20 25 Samples I valori dei limiti sono UCL = 1.6932 e LCL = 1.3180. Possiamo anche costruire le regole di zona, scegliendo come stimatore per la deviazione standard R-bar/d_2. In questo caso le linee A, sono quelle corrispondenti ai limiti di controllo. Siccome >> normcdf(2,0,1)-normcdf(-2,0,1) >> xbarplot(wafers,0.9545,spec,range’) ans = 0.9545 Xbar Chart 1.75 1.7 UCL 1.65 UCL Measurements 1.6 1.55 CL 1.5 1.45 1.4 LCL 1.35 LCL 1.3 0 5 10 15 Samples 20 25 Siccome >> normcdf(1,0,1)-normcdf(-1,0,1) >> xbarplot(wafers,0.6827,spec,’range’) ans = 0.6827 Vengono segnalati i sottogruppi che escono dai limiti Xbar Chart 1.75 1.7 UCL A 1.65 UCL B Measurements 1.6 7 19 24 UCL 1.55 1.5 CL 1.45 LCL 1.4 B 15 13 LCL 1.35 LCL 1.3 0 5 10 15 Samples C C 20 25 A Per costruire la R-chart, calcoliamo il range della matrice wafers. >> range(wafers') Poi calcoliamo la media di questo vettore, che restituisce la linea centrale. >> mean(range(wafers')) Calcoliamo i limiti B e C dalla tabella: Ossia B=2.114 C=0 La stima della variabilità del processo di produzione risulta 0.3252/2.326=0.1398 >> k=[1:1:25]; >> rbar=0.3252*ones(1,25); >> upperbar=2.114*ones(1,25); >> lowerbar=zeros(1,25); >> plot(k,range(wafers'),'b*-',k,rbar,'r-',k,lowerbar,'r-',k,upperbar,'r-') >> title('R chart') R chart 2.5 2 1.5 1 0.5 0 0 5 10 15 20 25 α = P( xt ∉ ( LCL, UCL) | µ = µ0 ) = 0.0027 Per la probabilità di mancato allarme possiamo costruire la curva operativa caratteristica ( ) ( β = Φ 3 − k 5 − Φ −3 − k 5 ) curva operativa >> k=[-3.:0.1::3]; >> z=normcdf(3-k.*sqrt(5))normcdf(-3-k.*sqrt(15); >> plot(k,z) 1 0.9 0.8 0.7 0.6 0.5 Ora poniamoci un altro tipo di problema 0.4 0.3 0.2 0.1 0 -3 -2 -1 0 1 2 3 Supponiamo che i limiti di specifica stabiliti in fase di progettazione siano 1.5+/-0.5. La carta di controllo può essere utilizzata per descrivere la capacità del processo di produrre wafers all’interno dei parametri specificati. In che modo? Basta calcolare P( X < 1.00) + P ( X > 2.00) ipotizzando che... X ≈ N (1.5056, 0.1398) che sono le stime trovate con la carta di controllo per µ e σ . >> inf=(1-1.5056)/0.1398; >> sup=(2-1.5056)/0.1398; >> normcdf(inf,0,1)+1-normcdf(sup,0,1) ans = 3.5200e-004 Ossia circa lo 0.035 per cento (350 parti per millione) di wafers prodotti cadranno al di fuori delle specifiche, stante la produzione osservata e monitorata dalla carta di controllo. Più in generale indichiamo con TU − x T − x + 1 − Φ pe = P ( X < TL ) + P ( X > TU ) = Φ L σˆ σˆ Il valore minimo pe lo si ha quando la media coincide con il centro dell'intervallo di tolleranza me = 3.64 TU + TL . 2 -4 x 10Capacità produttiva del processo al variare della media campionaria 3.62 Il valore effettivo di non conformi deve essere tale 3.6 3.58 che pe < pT dove pT è il 3.56 livello di difettosità tollerabile 3.54 3.52 3.5 3.48 1.49 1.495 1.5 1.505 1.51 e questo valore minimo vale pmin 1.515 TL − TU = 2Φ ˆ 2 σ INDICE DI CAPACITA’ DEL PROCESSO Altro modo per misurare l’indice di capacità del processo è il cosidetto PCR (process capability ratio) : TU − TL Cp = 6σ Si noti che 6σ è la definizione di base della capacità del processo. In genere la deviazione standard non si conosce e quindi va stimata dai dati Andamento indice PCR Se il processo non è centrato, avere PCR>1 non garantisce che il processo produca la quasi totalità dei prodotti entro i limiti di specifica (è capace di farlo, ma non è detto che lo faccia) Ci vuole un indice che tenga conto della centratura. C pk TU − µ µ − TL = min , 3σ 3σ Relazioni tra i due indici Un impiegato esce di casa tutti i giorni alle 8.00 e deve entrare al lavoro alle 8.30. Per raggiungere l’ufficio in auto ha due possibilità: attraversare la città, o seguire un percorso di campagna, più lungo ma meno trafficato. Per decidere quale sia il percorso più conveniente, misura il tempo di percorrenza più volte su entrambi i percorsi e trova che attraversando la città impiega mediamente 25 minuti, mentre per il percorso in campagna occorrono in media 28 minuti. Quale percorso gli conviene seguire? Vecchia risposta: l’uomo dovrebbe scegliere il percorso cittadino, che in media è più veloce Risposta Sei Sigma: la media non è un indicatore significativo per questo studio. Infatti l’impiegato è penalizzato quando arriva in ritardo, ma non ha alcun beneficio quando arriva in anticipo. L’uomo definirebbe come difettosi i percorsi che richiedono più di 30 minuti di viaggio. Quindi si deve analizzare l’intera distribuzione dei dati nei due casi, riportata in figura. Come si vede, il percorso cittadino presenta una forte variabilità dei dati, perché è molto influenzato (oltre che poco prevedibilmente) dal traffico; il percorso di campagna invece richiede un tempo praticamente costante. Visto l’alto numero di difetti nel caso del percorso cittadino, è evidente che quello di campagna è decisamente preferibile dal punto di vista dell’impiegato. Il six-sigma program della Motorola – anni ‘80 Obbiettivi: USL − LSL > 12σ min {USL − µ , µ − LSL} > 4.5σ Cp > 2 e C pk > 1.5 E se la popolazione non è gaussiana? 6 π 2 = 7.52 Il denominatore diventa 6σ nel caso gaussiano. Quantili e nel caso gaussiano 0.00135 = P ( Z ≤ −3) , 0.99865 = P ( Z ≤ 3) Intervalli di confidenza per il parametro PCR USL − LSL 6S χ12−α /2,n −1 n −1 USL − LSL ≤ Cp ≤ 6S χα2 /2,n −1 n −1 In Matlab >> spec=[1.45 1.70]; >> [p,Cp,Cpk]=capable(mean(wafers),spec) p = 0.0746 Cp = 1.0809 Cpk = 0.4809 Cp > 1, quindi il processo è capace (ossia rientra nei limiti specificati) Cpk<1, il processo non è centrato rispetto Cosa descrive p? >> p=1-diff(normcdf(spec,mean(mean(wafers)),std(mean(wafers)))) >> diff(spec)/(6*std(mean(wafers)))*sqrt(chi2inv(0.975,25-1)/24) ans=1.3842 >> diff(spec)/(6*std(mean(wafers)))*sqrt(chi2inv(0.025,25-1)/24) ans = 0.7770 Attenzione alla stima di S Cosa succede se le dimensioni dei sottocampioni non sono uguali? • strategia di campionamento • dati mancanti Quando i k sottogruppi hanno numerosità diverse, vengono usate la carta della media e la S-chart, con limiti che dipendono dalla taglia. k k ∑n x ∑ (n − 1)S i i Per le linee centrali si ha: x = i =1 k ∑n i i =1 i e S= i i =1 k ∑ (n − 1) i i =1 Per i limiti 3-sigma si ha che B e C dipendono da ni , così come D S Classificazione carte di controllo • Carte di controllo per variabili Se la caratteristica del prodotto è rappresentabile su una scala continua di valori essa è detta variabile. Si usano misure di centralità e variabilità. • Carte di controllo per attributi L’unità prodotta viene valutata conforme in base al numero dei difetti o in presenza di certi attributi. Carta p • Si basa sulla percentuale di pezzi non conformi nel sottogruppo monitorato. • La numerosità campionaria dei sottogruppi può essere non costante. • La numerosità campionaria deve essere elevata. Perché? • La v.a. binomiale (e di Bernoulli) gioca un ruolo fondamentale. D La percentuale di pezzi non conformi è data da pˆ = , dove D ha legge... n ...binomiale di parametri n e p. I limiti di controllo sono: p(1 − p) p±3 (se np > 5,n(1- p) > 5 D è approx. gaussiana) n Se p non è nota, si può sostituire con una stima p Di num.pezzi non conformi 1 k p = ∑ pi dove pi = = k i =1 n n Esempio: Un concentrato di succo d'arancia è congelato e imballato in lattine di cartone da 180ml. Queste lattine sono costruite usando una macchina che avvolge il cartone e poi lo appoggia su un pannello inferiore in metallo. Ispezionando una lattina, possiamo stabilire se, quando è piena, si può avere una perdita del succo dalla cucitura laterale o dal pannello inferiore. Tale non conformità può comportare un sigillo improprio sulla guarnizione laterale oppure sul pannello inferiore. Vogliamo costruire una carta di controllo per migliorare la percentuale di lattine non conformi prodotte dalla macchina. A questo scopo vengono selezionati 30 campioni di n = 50 lattine ciascuno, ogni mezz’ora su 3 periodi della giornata in cui la macchina è sempre in funzione. >> d d= Columns 1 through 17 12 15 8 10 4 7 16 9 14 10 5 6 17 12 22 Columns 18 through 30 5 13 11 20 18 24 15 9 12 7 13 9 6 8 10 I valori da plottare sulla carta sono le percentuali di non conformità >> p=d/50 p= Columns 1 through 10 0.2400 0.3000 0.1600 0.2000 0.0800 0.1400 0.3200 0.1800 0.2800 0.2000 Columns 11 through 20 0.1000 0.1200 0.3400 0.2400 0.4400 0.1600 0.2000 0.1000 0.2600 0.2200 Columns 21 through 30 0.4000 0.3600 0.4800 0.3000 0.1800 0.2400 0.1400 0.2600 0.1800 0.1200 I limiti sono >> mean(p)+3*sqrt(mean(p)*(1-mean(p))/50) ans = 0.4102 >> mean(p)-3*sqrt(mean(p)*(1-mean(p))/50) ans = 0.0524 >> cent=mean(p)*ones(1,30); >> upp=(mean(p)+3*sqrt(mean(p)*(1-mean(p))/50))*ones(1,30); >> low=(mean(p)-3*sqrt(mean(p)*(1-mean(p))/50))*ones(1,30); >> plot(k,p,'b*-',k,low,'r-',k,upp,'r-',k,cent,'g-') P chart Nuovo operatore 0.5 0.45 0.4 Nuova partita di cartone 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 5 10 15 20 25 30 Il campione 15 e 23 sono fuori controllo statistico: questi vanno monitorati. Ricalcoliamo la carta eliminando questi campioni. >> d1(1:14)=d(1:14) >> d1(15:21)=d(16:22) >> d1(22:28)=d(24:30) E ripetiamo tutta la procedura Sottogruppo 20 (no. 21 nel vecchio campione) P chart 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 0 5 10 15 20 25 30 Questa è la carta senza aver eliminato il sottogruppo 15 e 23. P chart 0.5 0.45 0.4 0.35 0.3 0.25 0.2 0.15 0.1 0.05 0 0 5 10 15 20 25 30 Se non si ritiene significativa la causa che ha portato al fuori controllo statistico nel sottogruppo 21, allora per future ispezioni si mantengono questi come limiti della carta di controllo. Supponiamo che siano stati campionati altri 23 sottogruppi: per monitorare il processo usiamo i limiti di controllo che sono stati calcolati prima. >> cent2= mean(p1)*ones(1,24); >> low2= low1(1)*ones(1,24); >> upp2= upp1(1)*ones(1,24); >> plot(k2,p2,'b*-', k2,low2,'r-',k2,upp2,'r-', k2,cent2,'g-') P chart 0.4 0.35 0.3 0.25 0.2 0.15 0.1 Il processo è in controllo statistico. 0.05 0 30 35 40 45 50 55 Ma… …se mettiamo tutti i dati assieme… P chart 0.5 0.45 0.4 0.35 Cambiamento della macchina per imballaggio? 0.3 0.25 0.2 0.15 0.1 0.05 0 0 10 20 30 40 50 60 Possiamo dire con maggiore precisione se le percentuali di non conformità sono effettivamente diverse? H 0 : p1 = p2 La statistica test risulta: H1 : p1 > p2 Z= p1 − p2 1 1 p (1 − p ) + n1 n2 dove p = n1 p1 + n2 p2 n1 + n2 La regione critica è :Z > z0.05 = 1.645 p1 ← 0.2150 (senza sottogruppi 15 e 23) p2 ← 0.1108 n1 = ?, n2 = ? 1 28 1 28 Di 301 p1 = ∑ pi = ∑ = 28 i =1 28 i =1 50 1400 1 54 1 54 Di 133 p2 = pi = ∑ = ∑ 24 i =31 24 i =31 50 1200 ...e facendo i conti si ha p = 0.1669 e Z = 7.10 Pertanto si rigetta l'ipotesi nulla... Visto che c’è stato un miglioramento nella produzione, si ricalcolano anche i limiti di controllo New P-chart 0.6 0.5 0.4 0.3 0.2 0.1 0 -0.1 0 10 20 30 40 50 60 Il limite inferiore è negativo: -0.0224!! Quindi bisogna prendere il limite inferiore pari a 0. New P-chart * Se p è piccolo, n va scelto grande!! Ad esempio per p=0.01, abbiamo n=500!! * Siccome lo shift da p vale δ =3 (1 − p ) p ⇒ n 0.5 0.4 0.3 0.2 2 3 n = (1 − p ) p δ 0.1 δ = 0.04, p = 0.01 ⇒ n = 56 * p −3 0 (1 − p ) p > 0 ⇒ n > 9(1 − p) n p 5 10 15 20 25 30 35 40 45 p = 0.05 ⇒ n = 171 50 Carta np Si lavora non con la percentuale dei pezzi non conformi, ma con il numero di pezzi non conformi. La percentuale di pezzi non conformi è data da pˆ = D , dove D ha legge... n ...binomiale di parametri n e p. Si lavora con D ≈ N (np, np (1- p)) I limiti della carta di controllo sono dunque: np ± 3 np (1 − p ) p viene sostituito con p Tornando all’esempio di prima… Np chart 25 20 15 10 5 0 0 5 10 15 20 25 30 ⊗ Se le taglie dei sottogruppi sono diverse, una tecnica molto diffusa consiste nel 1 k sostituire a n la media campionaria delle taglie n = ∑ ni k i =1 β = P( pi ∈ ( LCL, UCL) | p = p1 ) Usando la cdf binomiale = P( Di ∈ (nLCL, nUCL) | p = p1 ) β = P( Di ∈ (2.62, 20.51) | p = p1 ) Curva caratteristica per P-chart 1 >> p=[0.01:0.02:1]; >> app=binocdf(20.5120,50,p)binocdf(2.6214,50,p); >> plot(p,app) 0.9 0.8 0.7 0.6 0.5 Con gli stessi ragionamenti si possono calcolare gli altri parametri che abbiamo incontrato nelle precedenti lezioni. 0.4 0.3 0.2 0.1 0 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1 Carta c • Misura il numero di difetti in un lotto controllato. • Il campionamento deve essere costante. • E’ utile quando vi è da controllare un materiale con un flusso di produzione continuo (rullo di tessuto o un cavo elettrico). • La non conformità è da esprimersi per unità da definire (difetti al m^2, etc.) • Il lotto è inscindibile. La v.a. che conta il numero di difetti per unità di misura è .... ...una v.a. di Poisson I limiti della carta di controllo sono c ± 3 c dove c è la costante di Poisson. In mancanza di un valore teorico per c si utilizza la media campionaria. Esercizio: Si riporta il numero di non-conformità osservato in 26 campioni prodotti in una successione di 100 circuiti stampati (100 circuiti stampati = 1 lotto). C chart >> c=[21,24,16,12,15,5,28,20,31, 25,20,24,16, 19,10,17,13,22,18, 39,30,24,16,19,17,15]; >> central=mean(c) = 19.67; >> upp=central+3*sqrt(central)=32.97; >> low=central-3*sqrt(central)=6.36; 40 35 30 25 20 Esercizio: eliminare il campione 20 e 6 e rifare la carta di controllo. 15 10 5 0 5 10 15 20 25 30 Nell’esempio precedente, è stato preso in considerazione un solo lotto. Tuttavia questo tipo di scelta non è statisticamente significativa. Sarebbe meglio ispezionare più lotti, perché c’è maggiore possibilità di incontrare non conformità. Ad esempio potremmo essere interessati ad ispezionare 2 lotti e mezzo, ossia 250 circuiti. Carta U Si calcola il numero di non conformità totale e lo si rapporta al numero di lotti esaminati. Siccome x rappresenta il num. di pezzi non conformi totali, è una v.a. di Poisson, di cui x / n rappresenta la media campionaria. x u= n u =u ∓3 u n 1 rotolo=50 m^2 di tessuto – La tabella riporta il num di difetti. Num. Num. m^2 Num.dif. Num. Di rotoli ispez. 1 500 14 10.0=500/50 2 400 12 8.0=400/50 3 650 20 13.0 4 500 11 10.0 5 475 7 9.5 6 500 10 10.0 7 600 21 12.0 8 525 16 10.5 9 600 19 12.0 10 625 23 12.5 153 107.50 Totale u= 153 107.5 u u ±3 107.5 Limiti carte Shewhart Caratteristica principale delle carte di Shewhart è che nel metodo di calcolo del valore della statistica da inserire nella carta di controllo, esse fanno uso unicamente dell’informazione sul processo contenute nel solo ultimo istante di osservazione, ignorando tutti quelli precedenti. Ciò rende la carta di Shewart relativamente insensibile alle piccole variazioni del livello del processo (di ampiezza in genere non superiore a 1.5 volte la deviazione standard) Carte CUMSUM (cumulative sum) = somme cumulate Carte EWMA (Exponential Weighted Moving Average) = medie mobili pesate esponenzialmente. Queste due carte funzionano bene nei confronti di piccoli salti di livello mentre non reagiscono così velocemente come la carta di Shewarth per salti di livello elevato. Può quindi risultare utile combinare l’uso della carta di Shewart con questi due tipi di carta. Esempio: i dati che andiamo ad esaminare sono stati costruiti al seguente modo. I primi 20 sono stati selezionati da una popolazione gaussiana di media 10 e deviazione standard 1. I rimanenti 10 sono stati selezionati da una popolazione gaussiana di media 11 e di deviazione standard 1. Questi ultimi si possono pensare come selezionati da un processo che è andato fuori controllo statistico. Shewart chart 14 13 12 11 10 9 8 7 6 5 10 La carta della media non segnala subito la variazione! 15 20 25 30 Nella carta CUMSUM si effettua il grafico di i Si = ∑ ( x j − µ0 ) = ( xi − µ0 ) + Si −1 j =1 carta cumsum >> s(1)=x(1)-10; >> for i=2:30 s(i)=s(i-1)+(x(i)-10) end 10 8 6 4 Quali sono i limiti di controllo? 2 0 -2 -4 0 5 10 15 20 25 30 Exponential chart • Serve a monitorare un processo che media i dati in modo che a questa media viene dato sempre meno peso, mano mano che il tempo passa • Viene valutata su tutto il processo e non sui sottogruppi razionali • Più sensibile ai drift nel tempo • Robusta nel caso non normale zi = λ xi + (1 − λ ) zi −1 Per λ =1, si riottiene la carta X -bar. λ ∈ (0,1) ⇒ Peso alle medie dei sottogruppi tra 0 e 1. Il valore iniziale è µ0 . Se non si conosce µ0 , al suo posto si può usare x . Sostituendo ricorsivamente i valori zi in zi = λ xi + (1 − λ ) zi −1 i −1 si ottiene zi = λ ∑ (1 − λ ) xi − j + (1 − λ )i z0 j =0 j −1 Applichiamoli all’esempio Precedente. >>ewmaplot(x’) Exponentially Weighted Moving Average (EWMA) Chart 11.5 11 EWMA 10.5 CL 10 9.5 9 0 5 10 15 Sample Number 20 25 30 Exponentially Weighted Moving Average (EWMA) Chart 12 11.5 EWMA 11 10.5 CL 10 9.5 9 8.5 0 5 10 15 Sample Number 20 25 30 Ci restano da esaminare solo i diagrammi di correlazione! Teorema : Se X e Y sono indipendenti, E[ XY ] = E[ X ]E[Y ] Cosa si può dire sul viceversa? Def : Si definisce covarianza di X e Y , la quantità cov(X, Y) = E [( X − µ X )( Y − µ Y )] cov( X , Y ) = E[ XY ] − µ X µY Teorema : Se X e Y sono indipendenti, Cov( X , Y ) = 0. Il viceversa non vale. X p( x) −1 1 3 0 1 3 1 2 ⇒ Y = X 1 3 Teorema : Var ( X ± Y ) = Var ( X ) + Var (Y ) ± 2 cov( X , Y ) Definizion e La correlazio ne tra le variabili aleatorie X e Y è la quantità : ρ= cov( X , Y ) Var ( X )Var (Y ) = σ XY σ Xσ Y Se la covarianza tra due variabili aleatorie è positiva, negativa o nulla, anche la correlazione sarà positiva, negativa o nulla. Teorema La correlazione tra le variabili aleatorie X e Y gode della seguente proprietà : -1≤ ρ ≤ 1 Teorema : Se ρ = ±1 ⇒ P(Y = aX ± b) = 1 La covarianza è una misura della relazione lineare tra due variabili aleatorie. (A) Covarianza positiva (B) Covarianza negativa Teorema Due variabili aleatorie X e Y indipendenti sono incorrelate. (C) Covarianza nulla (D) Covarianza nulla Il viceversa non vale a meno che X e Y non siano congiuntamente normali. Gaussiana (congiunta) bidimensionale Esempio : La funzione densità di probabilità di una normale bivariata è : ( x − µ X )2 2 ρ ( x − µ X )( y − µ Y ) ( y − µ Y )2 1 f XY ( x, y ) = exp − − + 2 2 2 2(1 − ρ ) σ XσY σY 2πσ X σ Y 1 − ρ 2 σX for ( x, y ) ∈ R 2 , ( µ X , µ Y ) ∈ R 2 , con parametri σ X > 0, σ Y > 0 e ρ ∈ (-1,1). 1 µ X = E[X ] µY = E [Y ] σ X2 = Var[X ] σ Y2 = Var[Y ] ρ ∈ (−1,1) Contour plots σ X = 1, σ Y = 1, µ X = 0, µ Y = 0, ρ = 0 σ X = 1, σ Y = 1, µ X = 0, µ Y = 0, ρ = 0.9 σ X = 1, σ Y = 1, µ X = 0, µ Y = 0, ρ = 0 Consideriamo 10 coppie di dati che mettono in relazione la percentuale di riuscita di un certo esperimento in laboratorio con la temperatura alla quale l’esperimento è condotto. >> x=[100, 110, 120, 130, 140, 150, 160, 170, 180, 190]; >> y=[45, 52, 54, 63, 62, 68, 75, 76, 92, 88]; >> r=corrcoef(x,y) r= 1.0000 0.9772 0.9772 1.0000 >>polytool(x,y) Scatter diagram – Diagramma di dispersione Retta in verde… È la retta di regressione dei minimi quadrati…Per conoscere i coefficienti >> beta beta = 0.4964 -4.4727 >> betaci betaci = 0.4085 -17.4655 0.5843 8.5201 >> residuals residuals = -0.1636 1.8727 -1.0909 2.9455 -3.0182 -1.9818 0.0545 -3.9091 7.1273 -1.8364 Adeguatezza del Modello – ANALISI DEI RESIDUI >> [H,P,KSSTAT,CV] = KSTEST(residuals/standard) Normal Probability Plot 0.95 0.90 H= 0 P= 0.8054 Probability 0.75 0.50 KSSTAT = 0.1933 0.25 0.10 0.05 CV = 0.4093 -4 -2 0 2 Data 4 6 >>