Statistica
Statistica (parte I)
Il processo decisionale in statistica
-Partendo dall’uso di organigrammi si studia il sistema e si configurano indicatori e punti decisionali
-Si monitorizza il processo tramite la dashboard, fino al presentarsi di una problematica
-Si effettua una raccolta dati, utilizzando la statistica descrittiva
-Si elaborano i dati grezzi per produrre un’informazione
-Tramite l’esperienza si produce una conoscenza, statistica inferenziale
-Una volta a disposizione la conoscenza si può prendere una decisione
Popolazione: insieme di tutte le unità oggetto di studio. Le grandezze calcolate dalla popolazione sono chiamati
parametri
Campione: sottoinsieme di unità osservate nella popolazione. Le grandezze calcolate dal campione sono dette
statistiche
Statistica descrittiva: riguarda tecniche per collezionare e sintetizzare i dati grezzi per trasformarli in informazioni. In
generale si collezionano i dati, si presentano tramite tabelle e grafici e si sintetizzano.
Statistica inferenziale: è il processo tramite il quale si estraggono conclusioni circa una popolazione sulla base di
risultati campionari, che consentono di trasformare le informazioni in conoscenza.
Campionamento casuale semplice  E’ un procedimento di acquisizione di un campione basato sulle seguenti
proprietà:
-Ciascuna unità della popolazione è scelta a caso
-Ciascuna unità della popolazione ha la stessa probabilità di essere scelta
-Ogni campione di dimensione N ha la stessa probabilità di essere selezionato
Descrizione grafica dei dati
La necessità di rappresentare i dati deriva dal fatto che la loro forma grezza è di difficile utilizzo durante il processo
decisionale.
I dati possono essere di due tipi:
-Categorici (qualitativi)  dati che hanno una frequenza, e dei quali viene evidenziata una qualità. Solitamente si
specificano gruppi o categorie.
Per analizzare e trattere questi dati si utilizzano strumenti grafici come distribuzione di frequenze, diagrammi a
barre/torta, diagrammi di Pareto.
-Numerici (quantitativi)  dati che hanno una frequenza e che possono essere divisi in:
-discreti: dati che possono essere conteggiati (es numero di guasti)
-continui: dati che possono essere misurati (es peso)
Per analizzare e trattare questi dati si utilizzano strumenti grafici come serie storiche, distribuzione di frequenze,
diagramma di dispersione, diagramma ramo-foglia.
Metodi di Supporto alle Decisioni Manageriali – Appunti di DM
Pagina 1
Statistica
Descrizione numerica dei dati
La descrizione numerica dei dati evidenzia due diversi aspetti di un insieme di dati, la tendenza centrale e le misure di
variabilità.
Tendenza centrale: si rappresenta utilizzando i seguenti strumenti, detti anche indici di posizione perché descrivono
attorno a quale valore è centrato l’insieme dei dati.
-media aritmetica  è una misura influenzata dai valori estremi
per una popolazione
per un campione.
Per ogni valore xi si definisce scarto dalla media il valore
-media aritmetica ponderata  si considerano le frequenze di occorrenza fi
per la popolazione
per un campione
-media geometrica  si considera la frequenza di occorrenza fi
-media armonica  si utilizza nei problemi in cui vi sono legami inversi tra i fenomeni
-mediana  non è influenzata dai valori estremi.
è l’indice dell’elemento mediano ed xm è il valore dell’elemento mediano.
-moda  rappresenta il valore che occorre con maggiore frequenza e non è influenzata dai valori estremi
Misure di variabilità: usate per quantificare la dispersione o la variabilità dei valori
-campo di variazione 
è molto influenzato dai valori estremi
-quantili e percentili  l’insieme dei dati ordinati viene diviso in un determinato numero di parti uguali. I quartili
dividono i dati in quattro parti uguali e si considera il 50% centrale. In questo modo non è influenzato dai valori
estremi.
Metodi di Supporto alle Decisioni Manageriali – Appunti di DM
Pagina 2
Statistica
-varianza e scarto quadratico medio  considera la distanza di tutti gli elementi dalla media, e ne fa la media
varianza campionaria =
varianza della popolazione =
SQM campionario =
SQM della popolazione =
-coefficiente di variazione  si ha una misura percentuale della variazione tramite la quale è possibile confrontare
diversi set di dati e valutare quello con più o meno dispersione
Correlazione tra variabili
Si vuole avere una misura di correlazione tra variabili dello stesso set di dati prima di effettuare qualsiasi
comparazione tra essi. Si usano i seguenti strumenti:
-diagramma di dispersione: si pongono in ascissa i dati di una variabile ed in ordinata i dati dell’altra, e si
rappresentano i punti delle singole osservazioni. Un’eventuale relazione semplice sarà evidenziata dal grafo
-covarianza: misura la forza della relazione esistente tra due variabili
Covarianza campionaria =
Covarianza della popolazione =
Si possono avere tre casi : - Cov(x,y)>0 hanno una relazione ed una dipendenza diretta
-cov(x,y)=0 non esiste una relazione di tipo lineare
-cov(x,y)<0 hanno una relazione di dipendenza inversa
-coefficiente di correlazione: è adimensionale e può variare tra 1 e -1
Cc campionario =
Si possono avere tre casi: -
Cc della popolazione =
la relazione lineare diretta è molto forte
la relazione lineare è debole
la relazione inversa è molto forte
Metodi di Supporto alle Decisioni Manageriali – Appunti di DM
Pagina 3
Statistica
Statistica (parte II)
La statistica è uno strumento di supporto alle decisioni e si divide in:
-statistica descrittiva  utile per raccogliere, descrivere e presentare i dati
-statistica inferenziale  utile per prendere decisioni su una popolazione sulla base di dati campionari
L’idea è quindi di esaminare in modo parziale la popolazione e quantificare la fiducia delle informazioni estrapolate.
Inferenza parametrica  processo tramite il quale si possono determinare i parametri caratterizzanti la distribuzione
di probabilità di una popolazione a partire da un suo campione.
Distribuzione della popolazione: le misure di sintesi sono:
-valore atteso:
-varianza:
Distribuzione campionaria: è la distribuzione di tutti i possibili valori ottenuti da campioni della stessa ampiezza ed
estratti dalla stessa popolazione. Le misure di sintesi si ottengono considerando un campionamento con
reintroduzione, e sono:
-valore atteso:
-varianza:
Media campionaria: siano X1,X2,…,Xn un campione casuale estratto da una popolazione
-valore atteso:
-errore standard:
Se la popolazione è normale con media
e scarto quadratico medio
è normale con: -media:
, allora anche la distribuzione campionaria di
-varianza:
Per campioni estratti senza re immissione si ha:
-media:
-varianza:
Media campionaria standardizzata 
Teorema del limite centrale  sia data una popolazione avente media
campioni casuali di ampiezza n ; indicando con
e varianza
, e da essa si estraggono
la media campionaria, la variabile
è una variabile
aleatoria la cui distribuzione tende alla distribuzione normale standardizzata per n .
Quindi qualunque sia la distribuzione della popolazione si può affermare che la distribuzione della media campionaria
è approssimativamente normale con media
e varianza
per n sufficientemente grande(di solito >30).
Al crescere della dimensione del campione la distribuzione campionaria diventa quasi normale indipendentemente
dalla distribuzione della popolazione.
Intervallo di accettazione  intervallo entro il quale verosimilmente cadono i valori delle medie campionarie per una
data media e varianza della popolazione.
L’intervallo che include con probabilità
si calcola come
con
il valore di Z che lascia nella
coda destra un area di
.
Varianza campionaria  studia la distribuzione dei campioni rispetto alla media. Sia X1,…,Xn un campione casuale
estratto dalla popolazione, la varianza campionaria si esprime come:
Metodi di Supporto alle Decisioni Manageriali – Appunti di DM
Pagina 4
Statistica
Distribuzione della varianza campionaria  la distribuzione campionaria di
-media:
-varianza:
ha i seguenti parametri:
se la popolazione ha distribuzione normale
Altrimenti ha una distribuzione
Per confrontare la varianza di due campioni si usa una distribuzione di Fischer
con n-1 gradi di libertà
.
CONTROLLO STATISTICO
Il controllo statistico di un processo produttivo ha lo scopo di rendere il sistema stabile e migliorarne la produttività.
Un processo è detto sottocontrollo se la sua variabilità è dovuta solo a fattori casuali.
Esistono due eventi che influenzano la variabilità:
-cause comuni: cause dipendenti dalla natura del sistema, che generano una variabilità in generale prevedibile.
-cause specifiche o speciali: cause indipendenti dalla natura del sistema, che generano una variabilità non prevedibile
che disturba il funzionamento del processo. E’possibile accorgersi della variabilità tramite le carte di controllo.
Carte di controllo: sono diagrammi in cui vengono riportati i valori di un campione di una popolazione. Si può
osservare graficamente la dispersione del campione e dedurre lo stato del processo. In questo modo si evita di
apportare interventi inutili, ma si individuano gli ambiti di intervento e si cerca di migliorare il processo e la sua
qualità.
Una carta di controllo è costituita da tre linee costanti che sono:
-una linea rappresenta il valor medio del campione, ossia il valore desiderato quando il processo è sottocontrollo
-una linea rappresenta il limite superiore tollerato upper control limit
-una linea rappresenta il limite inferiore tollerato lower control limit
Quindi si dice che un processo è sottocontrollo, o un prodotto è conforme alle specifiche, quando i valori del
campione sono strettamente entro i limiti imposti.
Può accadere che anche se i valori cadono entro i limiti il processo non è comunque sottocontrollo:
-se i valori campionari hanno un andamento ciclico, il processo è influenzato da un evento
-se l’andamento dei valori campionari dà origine a derive anche se entro i limiti, il processo non è sottocontrollo
-se, dopo un intervento, si osserva l’innalzamento medio dei valori, questo ha peggiorato la situazione
Un aspetto importante è la scelta dei limiti per evitare di incorrere in scorrette valutazioni. Si può incorrere in due tipi
di errori:
-errore del I tipo: concludere che un processo è fuori controllo anche se in realtà lo è
-errore del II tipo: concludere che un processo è sottocontrollo quando in realtà non lo è
In base alla scelta dei limiti si ha:
-limiti distanti dal valor medio  errore del II tipo
-limiti vicini al valor medio  errore del I tipo
Metodi di Supporto alle Decisioni Manageriali – Appunti di DM
Pagina 5
Statistica
Un altro aspetto importante è la scelta della dimensione del campione e la frequenza di campionamento. Si hanno due
particolari indicazioni:
-se si desidera cogliere una variazione limitata, la dimensione del campione deve essere grande
-se si desidera cogliere una variazione ampia, la dimensione del campione deve essere piccola
Si introducono due grandezze:
-ARL  con p=probabilità che un elemento superi i limiti, è il numero di punti che devono essere osservati prima che
un punto cada fuori dei limiti di controllo. Se il processo è sottocontrollo, rappresenta il numero di punti che devono
essere osservati prima di avere un falso allarme.
-ATS 
con h=tempo di campionamento, è il tempo medio che intercorre tra due segnali di fuori controllo
Campionamento statistico in accettazione
è uno strumento decisionale utilizzato nei processi di accettazione di forniture esterne, o di controllo di qulità.
Per adottare un procedimento di controllo si deve definire un piano di campionamento in cui sono specificati:
-lotto di elementi da considerare
-ampiezza del campione che si vuole estrarre dal lotto
-caratteristiche che si vogliono controllare
-condizioni di accettazione e rifiuto
I limiti di controllo vengono definiti dalla regola dei 3sigma, quindi l’intervallo di tolleranza è
specifica nominale.
rispetto alla
Il campionamento statistico può essere:
-semplice  l’accettazione del lotto dipende dal controllo di un campione
-doppio  l’accettazione dipende dal controllo di due campioni
-multiplo  l’accettazione dipende dal controllo di n>2 campioni
-sequenziali  l’accettazione dipende dal controllo di tutti gli elementi del lotto.
Quando si effettua un controllo per campioni si possono commettere due errori:
-rifiutare un lotto che dovrebbe essere accettato
-accettare un lotto che dovrebbe essere rifiutato
Il piano di campionamento deve assicurare due importanti proprietà:
-non si deve correre un rischio maggiore del 5% che un lotto migliore del Livello di qualità accettabile (LQA) venga
rifiutato
-non si deve correre un rischio maggiore del 5% che un lotto di qualità inferiore al Livello di qualità tollerata (LQT)
venga accettato
Metodi di Supporto alle Decisioni Manageriali – Appunti di DM
Pagina 6
Statistica
Le due proprietà equivalgono a due rischi da evitare:
-rischio del fornitore  rischio che il lotto non sia accettato pur essendo conforme agli standard (LQA)
-rischio del committente  rischio che il lotto venga accettato pur non essendo conforme agli standard (LQT)
La probabilità di accettazione o rifiuto di un lotto varia in funzione della qualità del lotto stesso. Tale probabilità è
descritta dalla curva operativa.
Curva operativa
la curva operativa illustra il comportamento di un qualsiasi piano di campionamento per l’accettazione dei lotti.
-In ordinata è rappresentata la probabilità di accettazione P(A)
-in ascissa è rappresentata la frazione di pezzi difettosi nel lotto p
-due rette verticali rappresentano
e LQT
Quindi la curva operativa è definita dalla probabilità di avere k elementi difettosi in un lotto di numerosità n che
risulta essere rappresentata ottimamente da una distribuzione binomiale in cui
, perciò la
probabilità di accettazione si calcola come
Risulta quindi che P(A) dipende da c e n .
NOTA  distribuzione binomiale
con
ed
VERIFICA DI IPOTESI
Ipotesi statistica  è un’affermazione circa un parametro della popolazione, ad esempio la media
Si hanno due ipotesi complementari che esauriscono l’insieme di valori che il parametro può assumere:
-ipotesi nulla H0  affermazione numerica su un parametro della popolazione, status quo
-ipotesi alternativa  rappresenta l’opposto dell’ipotesi nulla, sfida lo status quo
Metodi di Supporto alle Decisioni Manageriali – Appunti di DM
Pagina 7
Statistica
L’ipotesi nulla è posta con lo scopo di essere screditata a vantaggio dell’ipotesi alternativa che invece si vuole
verificare.
Processo di verifica delle ipotesi
Test delle ipotesi: procedimento che consente di accettare o rifiutare un ipotesi statistica sulla base di dati
campionari. Le possibili conclusioni di un test delle ipotesi sono due:
-se H0 viene rifiutata allora H1 probabilmente è vera
-se H0 non viene rifiutata si conclude che i dati non forniscono sufficiente evidenza per sostenere H 1.
I test delle ipotesi sono di tre tipi:
Livello di significatività α
La distribuzione dei campioni si divide in due regioni:
-regione di rifiuto  insieme di valori che può assumere un campione per condurre al rifiuto dell’ipotesi nulla
-regione di accettazione  insieme di valori che può assumere un campione per i quali si accetta l’ipotesi nulla.
I valori critici sono quei valori che separano le due regioni. Solitamente assumono 0.1, 0.05, 0.01
In un processo decisionale con test delle ipotesi, si possono commettere due errori:
-errore di tipo I  si rifiuta erroneamente H0. La probabilità di commettere tale errore è il livello di significatività α
-errore di tipo II  si accetta erroneamente H0. La probabilità di commettere tale errore si dice rischio del
consumatore e si indica con β.
Metodi di Supporto alle Decisioni Manageriali – Appunti di DM
Pagina 8
Statistica
L’errore di primo tipo è considerato molto grave, quindi si tende a diminuire α, ma in questo modo aumenta β.
E’necessario quindi trovare un giusto compromesso.
La potenza del test si valorizza come la probabilità di rifiutare l’ipotesi nulla quando è falsa.
Verifica di ipotesi sulla media
Assumendo che la popolazione abbia una distribuzione normale il test si basa sulla seguante statistica:
-
se σ è nota
-
se σ non è nota, s si trova con la t-Student
In base al test da effettuare si ha:
-test ad una coda  si rifiuta H0 se
con
valore tabellare
Il valore critico è
-test a due code  si rifiuta H0 se
con
valore tabellare
Il valore critico è
Il test delle ipotesi è un importante strumento decisionale che permette di capire l’appartenenza di un set di risultati
ad una particolare statistica. Quando, per esempio, a causa di un intervento sul processo si osserva uno spostamento
dei set di rilevazione, e si vuole capire sei ciò è frutto dell’intervento o sono dovuti ad un andamento casuale.
Per evidenziare ciò si studia la probabilità β di commettere un errore di secondo tipo:
-si rifiuta H0 se
o
perciò la nuova media della popolazione è
-la probabilità di commettere un errore di secondo tipo è
Metodi di Supporto alle Decisioni Manageriali – Appunti di DM
Pagina 9
Statistica
Probabilità condizionata
la probabilità condizionata di un evento A rispetto a un evento B è la probabilità che si verifichi A, sapendo che B è
verificato. Questa probabilità, indicata con P(A|B), aggiorna le aspettative per A, dato che si è verificato B e si calcola
come:
oppure
Teorema di Bayes  esplicita le probabilità condizionate P(Hi|E), ossia la probabilità che l’evento E osservato sia
stato generato dalla causa Hi, in base alla probabilità a priori P(Hi) e delle verosimiglianze P(E|Hi). Si ha:
Metodi di Supporto alle Decisioni Manageriali – Appunti di DM
Pagina 10