CALCOLO DEGLI INDICI STATISTICI Premessa Le formule di

CALCOLO DEGLI INDICI STATISTICI
Premessa
Le formule di calcolo dei principali indici statistici (parliamo sostanzialmente di media
campionaria e varianza campionaria) dipendono dal caso in esame quindi iniziamo col
fare luce sulla possibile casistica.
Una piccola premessa sul corso di probabilità e statistica. I tre grossi argomenti
comunemente trattati in un corso CPSM sono:
q Calcolo delle probabilità
q Statistica descrittiva
q Statistica inferenziale
Il primo ha come oggetto di studio le variabili aleatorie ovvero quegli oggetti teorici che
ci servono come strumento rappresentativo di una quantità a noi incognita e la cui
determinazione o misurazione è soggetta a incertezza e casualità. Se parliamo di
misurazione di dati (come ad esempio la lunghezza di una vite prodotta da una
macchinario) il calcolo delle probabilità ci aiuta ad individuare un modello
rappresentativo che ci fornisce indicazioni sui risultati che otterremmo da una
misurazione PRIMA che questa misurazione abbia effettivamente luogo.
Il secondo argomento invece tratta dei campioni di dati e ci fornisce indicazioni su come
trattare i dati ottenuti DOPO aver effettuato una misurazione.
Ad esempio se impostiamo un esperimento che consiste nel lancio ripetuto di una
moneta bilanciata la teoria delle probabilità ci dirà che effettuando 100 lanci ogni lancio
avrà probabilità ½ di esito testa e altrettanto di esito croce. Sempre grazie alla teoria
delle probabilità potremo anche ipotizzare che su 100 lanci il 50% di questi darà come
esito testa e il restante croce. Tutto questo senza aver ancora effettuato effettivamente
alcun lancio.
Dopo aver effettivamente effettuato i 100 lanci e trascritto i 100 esiti, la statistica
descrittiva ci dice come trattare tali esiti ovvero come, ad esempio, calcolare la media
per verificare se, effettivamente, abbiamo ottenuto testa nella metà dei casi.
Infine la statistica inferenziale funge da collegamento tra la statistica descrittiva e la
teoria delle probabilità offrendo degli strumenti utili ad ipotizzare quale sia il modello
teorico di riferimento per rappresentare il fenomeno le cui osservazioni abbiamo trattato
con la statistica descrittiva.
Ad esempio, nel caso del lancio di una moneta la cui bilanciatura non ci è nota, la
statistica inferenziale può esserci d’aiuto per dedurre dai dati campionati e manipolati
con le regole della descrittiva il parametro incognito p oppure per sostenere (o smentire)
un’ipotesi che noi possiamo aver avanzato sulla bilanciatura.
Intendo dire: prendiamo una moneta e la osserviamo commentando “mmh, secondo me
è truccata”. Come facciamo a verificare la nostra ipotesi?
Prima di tutto formalizziamo il modello attingendo alla teoria delle probabilità che ci
dice che una variabile aleatoria che misura l’esito del lancio di una moneta si comporta
come una bernoulliana il cui parametro p rappresenta la probabilità di successo.
Poi dobbiamo fare una serie di campionamenti sufficientemente numerosi. Che so,
lanciamo la moneta 100 volte. Poi, grazie alla descrittiva, calcoliamo varie informazioni
tra cui la media campionaria degli esiti ottenendo la frequenza con la quale l’esito di
successo (ad es. testa) si è presentato nei 100 esperimenti. Dopodichè eseguiamo dei test
applicando le formule suggerite dalla statistica inferenziale per determinare se, alla luce
delle osservazioni effettuate, l’ipotesi che la moneta sia truccata può essere sostenuta
oppure no.
Detto ciò vediamo come cambiano le formule di calcolo di media e varianza a seconda
che si riferiscano all’intera popolazione (quindi staremo lavorando con una variabile
aleatoria e parleremo di media e varianza) o ad un suo campione (quindi saremo
nell’ambito della statistica descrittiva e parleremo di media campionaria e varianza
campionaria).
Inoltre, all’interno di queste due macro categorie, abbiamo ancora alcune differenze che
in generale dipendono dal tipo di dati con i quali stiamo lavorando (discreti, continui o
qualitativi) e nel caso di campioni anche dal fatto che i dati siano grezzi o già
raggruppati in classi con ampiezza del campione nota o incognita.
Calcolo della media campionaria per dati campionati
Si pensi alla superficie di una figura geometrica qualsiasi: c’è un solo modo per
calcolarne l’area ma le formule di calcolo differiscono tra loro a seconda della forma
della figura.
Ad esempio se la figura è un quadrato di lato l la formula corretta è A = l 2 mentre se
la figura è un triangolo di base b e altezza h la formula nota a tutti è A =
b⋅h
.
2
Però c’è una formuletta generale dalla quale tutte quelle particolari discendono:
A = ∫ dα dove S è la nostra superficie e dα è l’elemento d’area.
S
Nel nostro caso non capita nulla di diverso: abbiamo una formula generale che assume
forme diverse a seconda del caso specifico al quale deve essere applicata.
La formula generale vista a teoria è la seguente:
xn =
1 k
∑n ⋅x
n i =1 i i
(1)
Per come è scritta, con piccoli accorgimenti, questa formula può essere applicata
praticamente a tutti i casi possibili. Lettere e indici assumeranno di volta in volta
significati differenti.
Ecco la legenda:
q
xn è il simbolo utilizzato per rappresentare la media del campione (per convenzione
le lettere minuscole si usano sempre e solo per rappresentare le osservazioni che
sono a tutti gli effetti dei numeri o il risultato di operazioni svolte su queste
osservazioni mentre le lettere maiuscole si riservano per rappresentare le v.a.)
q n rappresenta l’ampiezza del campione cioè il numero di osservazioni disponibili
q
xi è la i- esima osservazione nel caso di dati grezzi oppure il valore scelto come
rappresentante della i- esima classe nel caso di dati raggruppati e allora scriveremo
x%i (ma la simbologia non è unica: qualche autore usa xi - (ndr) la probabilità è
come il militare: rende difficile il facile attraverso l’inutile... -)
q ni è il numero di volte che il dato xi (oppure xi ) si presenta nel nostro campione.
q
Nel caso di dati grezzi è possibile che tutti gli ni siano pari a 1 (vuol semplicemente
dire che non abbiamo dati ripetuti cosa assai frequente nel caso continuo) mentre se
siamo nel caso di dati raggruppati ni non sarà altro che la frequenza assoluta della
classe i-esima
k è il numero di dati distinti nel caso di dati grezzi (e se i dati sono tutti distinti tra
loro coincide con n ) oppure è il numero di classi nel caso di dati raggruppati
Un esempio ora è doveroso.
Supponiamo di avere un campione di 5 osservazioni: 2, 2, 2, 4, 4
Allora, secondo quanto appena detto, sarà:
q
q
q
q
n =5
k=2
x1 = 2 e x2 = 4
n1 = 3 e n2 = 2
Quindi x5 =
1
( 3 ⋅ 2 + 2 ⋅ 4)
5
Naturalmente nessuno ci impedisce di considerare tutti i dati distinti e calcolare la
media nel seguente modo:
q
q
q
q
n =5
k =5
x1 = 2 , x2 = 2 , x3 = 2 , x4 = 4 e x5 = 4
n1 = n2 = n3 = n4 = n5 = 1
da cui x5 =
1
( 2 + 2 + 2 + 4 + 4)
5
Ora vediamo cosa succede se i dati ci vengono forniti raggruppati in classi.
Osserviamo che usualmente i dati discreti vengono raggruppati in classi naturali (ovvero
ogni classe coincide con le singole osservazioni distinte) ma nessuno ci vieta di usare un
qualsiasi altro criterio di raggruppamento mentre nel caso continuo non è possibile
raggruppare in classi naturali e siamo invece obbligati a scegliere un criterio differente.
Supponiamo di avere un campione di dati raggruppati in classi naturali con
distribuzione:
xi 2 4
ni 3 2
Dai dati forniti possiamo dedurre k = 2 , ricavare n = n1 + n2 = 3 + 2 = 5 e infine
calcolare la media esattamente come nel primo caso.
Supponiamo ora che la distribuzione non ci venga fornita attraverso le frequenze
assolute ni ma attraverso le frequenze relative fi :
xi 2 4
fi 0.6 0.4
Come procediamo in questo caso in cui l’ampiezza n del campione risulta incognita e
non deducibile dai dati? Con un semplice accorgimento possiamo adattare la formula
ni
. Allora otteniamo
n
k
k
1 k
ni
xn = ∑ ni ⋅ xi = ∑ ⋅ xi = ∑ fi ⋅ xi
n i =1
i =1 n
i =1
(1) osservando che f i =
(2)
Applicando i nostri dati alla (2) otteniamo: xn = 0.6 ⋅ 2 + 0.4 ⋅ 4
Notiamo che essendo l’ampiezza del campione incognita non potremo esplicitarla a
pedice di xn .
Infine vediamo l’ultimo caso. Supponiamo di avere ancora a che fare con dati
raggruppati in classi questa volta non na turali le cui frequenze relative sono indicate in
tabella:
classe [1 , 4) [4 , 7)
fi
0.6
0.4
In questa situazione tipica del caso continuo non potremo calcolare il valore puntuale
della media ma potremo solo darne una approssimazione.
Infatti per ottenere il valore corretto della media dovremmo sapere come i dati sono
distribuiti all’interno di ogni classe. Poichè tale informazione ci è preclusa, per
proseguire dobbiamo scegliere quale valore utilizzare come rappresentante di classe.
Spesso viene utilizzato il valore centrale dell’intervallo. Ma alcuni autori (o docenti)
suggeriscono l’uso dell’estremo sinistro. Tale scelta è solo ed esclusivamente
convenzionale e dipende dal gusto dell’autore (o docente che sia).
Noi useremo il valore centrale che quindi ci accingiamo a calcolare:
x%1 =
4 +1
7+4
= 2.5 e x%2 =
= 5.5
2
2
Ora possiamo applicare la formula (1).
Naturalmente se avessimo avuto a disposizione i dati grezzi (possiamo pensare che
siano gli stessi degli esempi precedenti) avremmo potuto calcolare il valore esatto della
media ma in assenza dei dati grezzi e con classi costituite da interi intervalli e non da
singoli valori non ci resta che effettuare una approssimazione il cui risultato dipende
dalla scelta arbitraria fatta sul rappresentante di classe.
Calcolo della media per variabili aleatorie
La casistica è assai meno complessa.
Se la v.a. è discreta la formula per il calcolo della media (vedi Cicchitelli pag. 55) è:
µ = E X = ∑ x ⋅ p ( x)
(3)
x
La formula è identica a quella presentata nel calcolo della media di un campione di dati
discreti raggruppati in classi nota la frequenza relativa. (cfr formula (2)).
Cambia solo la notazione quindi ecco anche in questo caso la legenda:
q
x è il valore che la v.a. può assumere e corrisponde all’osservazione xi
q
p( x) è la probabilità che la v.a. assuma proprio il valore x e corrisponde alla
frequenza relativa nel caso di dati campionati
Se la v.a. è continua la formula di calcolo della media differisce da tutte quelle sinora
viste per la presenza dell’integrale al posto della sommatoria:
µ =EX =
∫
x ⋅ f (x ) dx
(4)
x∈¡
Inoltre, al posto della funzione di probabilità p ( x) abbiamo la funzione di densità
f ( x) . La differenza è sostanziale e giustifica la diversa notazione (adottata in molti
testi ma non in tutti). Infatti nel caso discreto la funzione di probabilità è effettivamente
una probabilità ovvero: P( X = x ) = p ( x ) . Invece nel caso continuo non a caso viene
chiamata densità infatti P( X = x ) = 0 ≠ f ( x )
Esempi di calcolo del valore atteso per v.a. discrete o continue che siano si trovano in
ogni testo.
Calcolo della varianza campionaria per dati campionati
La formula generale (con la stessa notazione usata per la media campionaria) è:
1 k
2
s =
ni ( xi − xn )
∑
n − 1 i =1
2
(5)
Quanto visto sinora per la media campionaria si applica pari pari alle formule per il
calcolo della varianza campionaria ovvero unica formula che prende forme diverse a
seconda dei casi.
Abbiamo un’unica differenza nel caso di dati raggruppati in classi non naturali nota la
frequenza relativa. Allora la formula si modificherà nel segue nte modo:
n 1 k
2
n k ni
2
n k
2
s =
ni ( xi − xn ) =
f i ( xi − xn )
(6)
( xi − xn ) =
∑
∑
∑
n − 1 n i =1
n − 1 i =1 n
n − 1 i =1
n
L’ultimo membro della (6) mette in evidenza il fattore correttivo
il cui significato
n −1
2
risulta chiaro dopo lo studio degli stimatori.
Con qualche passaggio che omettiamo le formule (5) e (6) possono essere scritte in un
formato più semplice da calcolare:
1  k

s =
ni xi 2 − nxn 2 
∑

n −1  i=1

(5a)
n  k

f i xi 2 − xn 2 
∑

n −1  i=1

(6a)
2
e
s2 =
Calcolo della varianza per variabili aleatorie
Nel caso discreto la formula è la seguente:
Var X = ∑ ( x − µ ) 2 ⋅ p( x)
(7)
x
Osserviamo che in questo caso il fattore correttivo è assente
Se la variabile aleatoria è continua la formula si modifica nel seguente modo:
Var X =
∫ (x − µ )
2
⋅ f ( x ) dx
(8)
x∈¡
A riguardo valgono le medesime considerazioni avanzate per la media.
Anche in questo caso con alcuni passaggi si perviene ad una forma più semplice da
calcolare delle formule (7) e (8) che possiamo sintetizzare nell’unica seguente proprietà
della varianza:
Var X = E X 2 − ( E X )
2
(9)
Osservazione finale
Concludiamo la trattazione con un’importante considerazione.
Abbiamo parlato di media e varianza e di media campionaria e varianza campionaria,
la prima coppia riferita alle variabili aleatorie e la seconda ai campioni di dati.
In entrambi i casi abbiamo a che fare con indici, ovvero numeri che forniscono
indicazioni sulla posizione e la dispersione della distribuzione della v.a. o
dell’istogramma delle frequenze campionate. Le analogie che abbiamo evidenziato tra
le formule di calcolo degli indici di un campione di dati e gli indici di una variabile
aleatoria sono solo formali e non a caso gli indici esaminati hanno nomi diversi nei due
casi (osservazioni e v.a.). Questa osservazione prende consistenza non appena si scopre
che anche per le variabili aleatorie esistono i conc etti di media campionaria e di
varianza campionaria. Per semplicità limitiamo le considerazioni alla media.
Per chiarire analogie e differenze tra la media campionaria di un campione di dati ( xn ),
la media di una v.a. ( E X ) e la variabile aleatoria media campionaria ( X n )
cominciamo col notare che associata ad ogni osservazione xi c’è una variabile aleatoria
X i . Al solito X i mi consente di fare previsioni sui risultati di una osservazione
PRIMA che questa sia effettivamente avvenuta mentre l’esito xi è ciò che mi rimane
della v.a. DOPO aver effettuato l’osservazione.
E se al posto di una sola osservazione ne abbiamo un intero campione di ampiezza n ?
Continueremo ad avere un’unica legge determinata dal fenomeno in esame ma le
variabili aleatorie saranno anch’esse in numero di n ovvero una per ogni osservazione.
Quindi associata ad un campione di dati
{ X i }i=1 .
n
{ xi }i =1 abbiamo non una ma un’intera famiglia
n
n osservazioni
(generalmente indipendenti) del medesimo fenomeno tali v.a. vengono dette i.i. d.
di v.a.
Poichè queste v.a. aleatorie rappresentano
ovvero indipendenti e identicamente distribuite.
E se dopo aver estratto un campione ne volessi calcolare la media campionaria?
Bene: così come alle spalle del singolo dato ho la singola v.a. e alle spalle di un
campione di dati ho una famiglia di v.a., alle spalle della media campionaria ottenuta
combinando opportunamente i dati del campione ho una variabile aleatoria ottenuta
combinando al medesimo modo la famiglia di v.a.
1 n
In altre parole alle spalle della media campionaria xn = ∑ xi ho la variabile
n i =1
1 n
aleatoria “media campionaria” X n = ∑ X i
n i =1
Supponiamo di avere il solito macchinario che produce viti. Sicuramente tra le
specifiche fornite dal produttore ci saranno indicazioni sulla media e la varianza della
lunghezza delle viti prodotte (lunghezza che possiamo immaginare distribuita come una
gaussiana). Supponiamo inoltre di essere intenzionati a calcolare la media campionaria
della lunghezza di un campione costituito da n viti.
Allora in questa situazione avremo tre oggetti ben distinti:
q la media η parametro dell’unica legge, dettata dalle specifiche, che governa il
fenomeno in esame.
q la media campionaria calcolata tramite i dati campionati
q la v.a. media campionaria costruita a partire dalla famiglia di n variabili aleatorie
rappresentanti altrettante osservazioni.