Statistica Statistica (parte I) Il processo decisionale in statistica -Partendo dall’uso di organigrammi si studia il sistema e si configurano indicatori e punti decisionali -Si monitorizza il processo tramite la dashboard, fino al presentarsi di una problematica -Si effettua una raccolta dati, utilizzando la statistica descrittiva -Si elaborano i dati grezzi per produrre un’informazione -Tramite l’esperienza si produce una conoscenza, statistica inferenziale -Una volta a disposizione la conoscenza si può prendere una decisione Popolazione: insieme di tutte le unità oggetto di studio. Le grandezze calcolate dalla popolazione sono chiamati parametri Campione: sottoinsieme di unità osservate nella popolazione. Le grandezze calcolate dal campione sono dette statistiche Statistica descrittiva: riguarda tecniche per collezionare e sintetizzare i dati grezzi per trasformarli in informazioni. In generale si collezionano i dati, si presentano tramite tabelle e grafici e si sintetizzano. Statistica inferenziale: è il processo tramite il quale si estraggono conclusioni circa una popolazione sulla base di risultati campionari, che consentono di trasformare le informazioni in conoscenza. Campionamento casuale semplice E’ un procedimento di acquisizione di un campione basato sulle seguenti proprietà: -Ciascuna unità della popolazione è scelta a caso -Ciascuna unità della popolazione ha la stessa probabilità di essere scelta -Ogni campione di dimensione N ha la stessa probabilità di essere selezionato Descrizione grafica dei dati La necessità di rappresentare i dati deriva dal fatto che la loro forma grezza è di difficile utilizzo durante il processo decisionale. I dati possono essere di due tipi: -Categorici (qualitativi) dati che hanno una frequenza, e dei quali viene evidenziata una qualità. Solitamente si specificano gruppi o categorie. Per analizzare e trattere questi dati si utilizzano strumenti grafici come distribuzione di frequenze, diagrammi a barre/torta, diagrammi di Pareto. -Numerici (quantitativi) dati che hanno una frequenza e che possono essere divisi in: -discreti: dati che possono essere conteggiati (es numero di guasti) -continui: dati che possono essere misurati (es peso) Per analizzare e trattare questi dati si utilizzano strumenti grafici come serie storiche, distribuzione di frequenze, diagramma di dispersione, diagramma ramo-foglia. Metodi di Supporto alle Decisioni Manageriali – Appunti di DM Pagina 1 Statistica Descrizione numerica dei dati La descrizione numerica dei dati evidenzia due diversi aspetti di un insieme di dati, la tendenza centrale e le misure di variabilità. Tendenza centrale: si rappresenta utilizzando i seguenti strumenti, detti anche indici di posizione perché descrivono attorno a quale valore è centrato l’insieme dei dati. -media aritmetica è una misura influenzata dai valori estremi per una popolazione per un campione. Per ogni valore xi si definisce scarto dalla media il valore -media aritmetica ponderata si considerano le frequenze di occorrenza fi per la popolazione per un campione -media geometrica si considera la frequenza di occorrenza fi -media armonica si utilizza nei problemi in cui vi sono legami inversi tra i fenomeni -mediana non è influenzata dai valori estremi. è l’indice dell’elemento mediano ed xm è il valore dell’elemento mediano. -moda rappresenta il valore che occorre con maggiore frequenza e non è influenzata dai valori estremi Misure di variabilità: usate per quantificare la dispersione o la variabilità dei valori -campo di variazione è molto influenzato dai valori estremi -quantili e percentili l’insieme dei dati ordinati viene diviso in un determinato numero di parti uguali. I quartili dividono i dati in quattro parti uguali e si considera il 50% centrale. In questo modo non è influenzato dai valori estremi. Metodi di Supporto alle Decisioni Manageriali – Appunti di DM Pagina 2 Statistica -varianza e scarto quadratico medio considera la distanza di tutti gli elementi dalla media, e ne fa la media varianza campionaria = varianza della popolazione = SQM campionario = SQM della popolazione = -coefficiente di variazione si ha una misura percentuale della variazione tramite la quale è possibile confrontare diversi set di dati e valutare quello con più o meno dispersione Correlazione tra variabili Si vuole avere una misura di correlazione tra variabili dello stesso set di dati prima di effettuare qualsiasi comparazione tra essi. Si usano i seguenti strumenti: -diagramma di dispersione: si pongono in ascissa i dati di una variabile ed in ordinata i dati dell’altra, e si rappresentano i punti delle singole osservazioni. Un’eventuale relazione semplice sarà evidenziata dal grafo -covarianza: misura la forza della relazione esistente tra due variabili Covarianza campionaria = Covarianza della popolazione = Si possono avere tre casi : - Cov(x,y)>0 hanno una relazione ed una dipendenza diretta -cov(x,y)=0 non esiste una relazione di tipo lineare -cov(x,y)<0 hanno una relazione di dipendenza inversa -coefficiente di correlazione: è adimensionale e può variare tra 1 e -1 Cc campionario = Si possono avere tre casi: - Cc della popolazione = la relazione lineare diretta è molto forte la relazione lineare è debole la relazione inversa è molto forte Metodi di Supporto alle Decisioni Manageriali – Appunti di DM Pagina 3 Statistica Statistica (parte II) La statistica è uno strumento di supporto alle decisioni e si divide in: -statistica descrittiva utile per raccogliere, descrivere e presentare i dati -statistica inferenziale utile per prendere decisioni su una popolazione sulla base di dati campionari L’idea è quindi di esaminare in modo parziale la popolazione e quantificare la fiducia delle informazioni estrapolate. Inferenza parametrica processo tramite il quale si possono determinare i parametri caratterizzanti la distribuzione di probabilità di una popolazione a partire da un suo campione. Distribuzione della popolazione: le misure di sintesi sono: -valore atteso: -varianza: Distribuzione campionaria: è la distribuzione di tutti i possibili valori ottenuti da campioni della stessa ampiezza ed estratti dalla stessa popolazione. Le misure di sintesi si ottengono considerando un campionamento con reintroduzione, e sono: -valore atteso: -varianza: Media campionaria: siano X1,X2,…,Xn un campione casuale estratto da una popolazione -valore atteso: -errore standard: Se la popolazione è normale con media e scarto quadratico medio è normale con: -media: , allora anche la distribuzione campionaria di -varianza: Per campioni estratti senza re immissione si ha: -media: -varianza: Media campionaria standardizzata Teorema del limite centrale sia data una popolazione avente media campioni casuali di ampiezza n ; indicando con e varianza , e da essa si estraggono la media campionaria, la variabile è una variabile aleatoria la cui distribuzione tende alla distribuzione normale standardizzata per n . Quindi qualunque sia la distribuzione della popolazione si può affermare che la distribuzione della media campionaria è approssimativamente normale con media e varianza per n sufficientemente grande(di solito >30). Al crescere della dimensione del campione la distribuzione campionaria diventa quasi normale indipendentemente dalla distribuzione della popolazione. Intervallo di accettazione intervallo entro il quale verosimilmente cadono i valori delle medie campionarie per una data media e varianza della popolazione. L’intervallo che include con probabilità si calcola come con il valore di Z che lascia nella coda destra un area di . Varianza campionaria studia la distribuzione dei campioni rispetto alla media. Sia X1,…,Xn un campione casuale estratto dalla popolazione, la varianza campionaria si esprime come: Metodi di Supporto alle Decisioni Manageriali – Appunti di DM Pagina 4 Statistica Distribuzione della varianza campionaria la distribuzione campionaria di -media: -varianza: ha i seguenti parametri: se la popolazione ha distribuzione normale Altrimenti ha una distribuzione Per confrontare la varianza di due campioni si usa una distribuzione di Fischer con n-1 gradi di libertà . CONTROLLO STATISTICO Il controllo statistico di un processo produttivo ha lo scopo di rendere il sistema stabile e migliorarne la produttività. Un processo è detto sottocontrollo se la sua variabilità è dovuta solo a fattori casuali. Esistono due eventi che influenzano la variabilità: -cause comuni: cause dipendenti dalla natura del sistema, che generano una variabilità in generale prevedibile. -cause specifiche o speciali: cause indipendenti dalla natura del sistema, che generano una variabilità non prevedibile che disturba il funzionamento del processo. E’possibile accorgersi della variabilità tramite le carte di controllo. Carte di controllo: sono diagrammi in cui vengono riportati i valori di un campione di una popolazione. Si può osservare graficamente la dispersione del campione e dedurre lo stato del processo. In questo modo si evita di apportare interventi inutili, ma si individuano gli ambiti di intervento e si cerca di migliorare il processo e la sua qualità. Una carta di controllo è costituita da tre linee costanti che sono: -una linea rappresenta il valor medio del campione, ossia il valore desiderato quando il processo è sottocontrollo -una linea rappresenta il limite superiore tollerato upper control limit -una linea rappresenta il limite inferiore tollerato lower control limit Quindi si dice che un processo è sottocontrollo, o un prodotto è conforme alle specifiche, quando i valori del campione sono strettamente entro i limiti imposti. Può accadere che anche se i valori cadono entro i limiti il processo non è comunque sottocontrollo: -se i valori campionari hanno un andamento ciclico, il processo è influenzato da un evento -se l’andamento dei valori campionari dà origine a derive anche se entro i limiti, il processo non è sottocontrollo -se, dopo un intervento, si osserva l’innalzamento medio dei valori, questo ha peggiorato la situazione Un aspetto importante è la scelta dei limiti per evitare di incorrere in scorrette valutazioni. Si può incorrere in due tipi di errori: -errore del I tipo: concludere che un processo è fuori controllo anche se in realtà lo è -errore del II tipo: concludere che un processo è sottocontrollo quando in realtà non lo è In base alla scelta dei limiti si ha: -limiti distanti dal valor medio errore del II tipo -limiti vicini al valor medio errore del I tipo Metodi di Supporto alle Decisioni Manageriali – Appunti di DM Pagina 5 Statistica Un altro aspetto importante è la scelta della dimensione del campione e la frequenza di campionamento. Si hanno due particolari indicazioni: -se si desidera cogliere una variazione limitata, la dimensione del campione deve essere grande -se si desidera cogliere una variazione ampia, la dimensione del campione deve essere piccola Si introducono due grandezze: -ARL con p=probabilità che un elemento superi i limiti, è il numero di punti che devono essere osservati prima che un punto cada fuori dei limiti di controllo. Se il processo è sottocontrollo, rappresenta il numero di punti che devono essere osservati prima di avere un falso allarme. -ATS con h=tempo di campionamento, è il tempo medio che intercorre tra due segnali di fuori controllo Campionamento statistico in accettazione è uno strumento decisionale utilizzato nei processi di accettazione di forniture esterne, o di controllo di qulità. Per adottare un procedimento di controllo si deve definire un piano di campionamento in cui sono specificati: -lotto di elementi da considerare -ampiezza del campione che si vuole estrarre dal lotto -caratteristiche che si vogliono controllare -condizioni di accettazione e rifiuto I limiti di controllo vengono definiti dalla regola dei 3sigma, quindi l’intervallo di tolleranza è specifica nominale. rispetto alla Il campionamento statistico può essere: -semplice l’accettazione del lotto dipende dal controllo di un campione -doppio l’accettazione dipende dal controllo di due campioni -multiplo l’accettazione dipende dal controllo di n>2 campioni -sequenziali l’accettazione dipende dal controllo di tutti gli elementi del lotto. Quando si effettua un controllo per campioni si possono commettere due errori: -rifiutare un lotto che dovrebbe essere accettato -accettare un lotto che dovrebbe essere rifiutato Il piano di campionamento deve assicurare due importanti proprietà: -non si deve correre un rischio maggiore del 5% che un lotto migliore del Livello di qualità accettabile (LQA) venga rifiutato -non si deve correre un rischio maggiore del 5% che un lotto di qualità inferiore al Livello di qualità tollerata (LQT) venga accettato Metodi di Supporto alle Decisioni Manageriali – Appunti di DM Pagina 6 Statistica Le due proprietà equivalgono a due rischi da evitare: -rischio del fornitore rischio che il lotto non sia accettato pur essendo conforme agli standard (LQA) -rischio del committente rischio che il lotto venga accettato pur non essendo conforme agli standard (LQT) La probabilità di accettazione o rifiuto di un lotto varia in funzione della qualità del lotto stesso. Tale probabilità è descritta dalla curva operativa. Curva operativa la curva operativa illustra il comportamento di un qualsiasi piano di campionamento per l’accettazione dei lotti. -In ordinata è rappresentata la probabilità di accettazione P(A) -in ascissa è rappresentata la frazione di pezzi difettosi nel lotto p -due rette verticali rappresentano e LQT Quindi la curva operativa è definita dalla probabilità di avere k elementi difettosi in un lotto di numerosità n che risulta essere rappresentata ottimamente da una distribuzione binomiale in cui , perciò la probabilità di accettazione si calcola come Risulta quindi che P(A) dipende da c e n . NOTA distribuzione binomiale con ed VERIFICA DI IPOTESI Ipotesi statistica è un’affermazione circa un parametro della popolazione, ad esempio la media Si hanno due ipotesi complementari che esauriscono l’insieme di valori che il parametro può assumere: -ipotesi nulla H0 affermazione numerica su un parametro della popolazione, status quo -ipotesi alternativa rappresenta l’opposto dell’ipotesi nulla, sfida lo status quo Metodi di Supporto alle Decisioni Manageriali – Appunti di DM Pagina 7 Statistica L’ipotesi nulla è posta con lo scopo di essere screditata a vantaggio dell’ipotesi alternativa che invece si vuole verificare. Processo di verifica delle ipotesi Test delle ipotesi: procedimento che consente di accettare o rifiutare un ipotesi statistica sulla base di dati campionari. Le possibili conclusioni di un test delle ipotesi sono due: -se H0 viene rifiutata allora H1 probabilmente è vera -se H0 non viene rifiutata si conclude che i dati non forniscono sufficiente evidenza per sostenere H 1. I test delle ipotesi sono di tre tipi: Livello di significatività α La distribuzione dei campioni si divide in due regioni: -regione di rifiuto insieme di valori che può assumere un campione per condurre al rifiuto dell’ipotesi nulla -regione di accettazione insieme di valori che può assumere un campione per i quali si accetta l’ipotesi nulla. I valori critici sono quei valori che separano le due regioni. Solitamente assumono 0.1, 0.05, 0.01 In un processo decisionale con test delle ipotesi, si possono commettere due errori: -errore di tipo I si rifiuta erroneamente H0. La probabilità di commettere tale errore è il livello di significatività α -errore di tipo II si accetta erroneamente H0. La probabilità di commettere tale errore si dice rischio del consumatore e si indica con β. Metodi di Supporto alle Decisioni Manageriali – Appunti di DM Pagina 8 Statistica L’errore di primo tipo è considerato molto grave, quindi si tende a diminuire α, ma in questo modo aumenta β. E’necessario quindi trovare un giusto compromesso. La potenza del test si valorizza come la probabilità di rifiutare l’ipotesi nulla quando è falsa. Verifica di ipotesi sulla media Assumendo che la popolazione abbia una distribuzione normale il test si basa sulla seguante statistica: - se σ è nota - se σ non è nota, s si trova con la t-Student In base al test da effettuare si ha: -test ad una coda si rifiuta H0 se con valore tabellare Il valore critico è -test a due code si rifiuta H0 se con valore tabellare Il valore critico è Il test delle ipotesi è un importante strumento decisionale che permette di capire l’appartenenza di un set di risultati ad una particolare statistica. Quando, per esempio, a causa di un intervento sul processo si osserva uno spostamento dei set di rilevazione, e si vuole capire sei ciò è frutto dell’intervento o sono dovuti ad un andamento casuale. Per evidenziare ciò si studia la probabilità β di commettere un errore di secondo tipo: -si rifiuta H0 se o perciò la nuova media della popolazione è -la probabilità di commettere un errore di secondo tipo è Metodi di Supporto alle Decisioni Manageriali – Appunti di DM Pagina 9 Statistica Probabilità condizionata la probabilità condizionata di un evento A rispetto a un evento B è la probabilità che si verifichi A, sapendo che B è verificato. Questa probabilità, indicata con P(A|B), aggiorna le aspettative per A, dato che si è verificato B e si calcola come: oppure Teorema di Bayes esplicita le probabilità condizionate P(Hi|E), ossia la probabilità che l’evento E osservato sia stato generato dalla causa Hi, in base alla probabilità a priori P(Hi) e delle verosimiglianze P(E|Hi). Si ha: Metodi di Supporto alle Decisioni Manageriali – Appunti di DM Pagina 10