CALCOLO DEGLI INDICI STATISTICI Premessa Le formule di calcolo dei principali indici statistici (parliamo sostanzialmente di media campionaria e varianza campionaria) dipendono dal caso in esame quindi iniziamo col fare luce sulla possibile casistica. Una piccola premessa sul corso di probabilità e statistica. I tre grossi argomenti comunemente trattati in un corso CPSM sono: q Calcolo delle probabilità q Statistica descrittiva q Statistica inferenziale Il primo ha come oggetto di studio le variabili aleatorie ovvero quegli oggetti teorici che ci servono come strumento rappresentativo di una quantità a noi incognita e la cui determinazione o misurazione è soggetta a incertezza e casualità. Se parliamo di misurazione di dati (come ad esempio la lunghezza di una vite prodotta da una macchinario) il calcolo delle probabilità ci aiuta ad individuare un modello rappresentativo che ci fornisce indicazioni sui risultati che otterremmo da una misurazione PRIMA che questa misurazione abbia effettivamente luogo. Il secondo argomento invece tratta dei campioni di dati e ci fornisce indicazioni su come trattare i dati ottenuti DOPO aver effettuato una misurazione. Ad esempio se impostiamo un esperimento che consiste nel lancio ripetuto di una moneta bilanciata la teoria delle probabilità ci dirà che effettuando 100 lanci ogni lancio avrà probabilità ½ di esito testa e altrettanto di esito croce. Sempre grazie alla teoria delle probabilità potremo anche ipotizzare che su 100 lanci il 50% di questi darà come esito testa e il restante croce. Tutto questo senza aver ancora effettuato effettivamente alcun lancio. Dopo aver effettivamente effettuato i 100 lanci e trascritto i 100 esiti, la statistica descrittiva ci dice come trattare tali esiti ovvero come, ad esempio, calcolare la media per verificare se, effettivamente, abbiamo ottenuto testa nella metà dei casi. Infine la statistica inferenziale funge da collegamento tra la statistica descrittiva e la teoria delle probabilità offrendo degli strumenti utili ad ipotizzare quale sia il modello teorico di riferimento per rappresentare il fenomeno le cui osservazioni abbiamo trattato con la statistica descrittiva. Ad esempio, nel caso del lancio di una moneta la cui bilanciatura non ci è nota, la statistica inferenziale può esserci d’aiuto per dedurre dai dati campionati e manipolati con le regole della descrittiva il parametro incognito p oppure per sostenere (o smentire) un’ipotesi che noi possiamo aver avanzato sulla bilanciatura. Intendo dire: prendiamo una moneta e la osserviamo commentando “mmh, secondo me è truccata”. Come facciamo a verificare la nostra ipotesi? Prima di tutto formalizziamo il modello attingendo alla teoria delle probabilità che ci dice che una variabile aleatoria che misura l’esito del lancio di una moneta si comporta come una bernoulliana il cui parametro p rappresenta la probabilità di successo. Poi dobbiamo fare una serie di campionamenti sufficientemente numerosi. Che so, lanciamo la moneta 100 volte. Poi, grazie alla descrittiva, calcoliamo varie informazioni tra cui la media campionaria degli esiti ottenendo la frequenza con la quale l’esito di successo (ad es. testa) si è presentato nei 100 esperimenti. Dopodichè eseguiamo dei test applicando le formule suggerite dalla statistica inferenziale per determinare se, alla luce delle osservazioni effettuate, l’ipotesi che la moneta sia truccata può essere sostenuta oppure no. Detto ciò vediamo come cambiano le formule di calcolo di media e varianza a seconda che si riferiscano all’intera popolazione (quindi staremo lavorando con una variabile aleatoria e parleremo di media e varianza) o ad un suo campione (quindi saremo nell’ambito della statistica descrittiva e parleremo di media campionaria e varianza campionaria). Inoltre, all’interno di queste due macro categorie, abbiamo ancora alcune differenze che in generale dipendono dal tipo di dati con i quali stiamo lavorando (discreti, continui o qualitativi) e nel caso di campioni anche dal fatto che i dati siano grezzi o già raggruppati in classi con ampiezza del campione nota o incognita. Calcolo della media campionaria per dati campionati Si pensi alla superficie di una figura geometrica qualsiasi: c’è un solo modo per calcolarne l’area ma le formule di calcolo differiscono tra loro a seconda della forma della figura. Ad esempio se la figura è un quadrato di lato l la formula corretta è A = l 2 mentre se la figura è un triangolo di base b e altezza h la formula nota a tutti è A = b⋅h . 2 Però c’è una formuletta generale dalla quale tutte quelle particolari discendono: A = ∫ dα dove S è la nostra superficie e dα è l’elemento d’area. S Nel nostro caso non capita nulla di diverso: abbiamo una formula generale che assume forme diverse a seconda del caso specifico al quale deve essere applicata. La formula generale vista a teoria è la seguente: xn = 1 k ∑n ⋅x n i =1 i i (1) Per come è scritta, con piccoli accorgimenti, questa formula può essere applicata praticamente a tutti i casi possibili. Lettere e indici assumeranno di volta in volta significati differenti. Ecco la legenda: q xn è il simbolo utilizzato per rappresentare la media del campione (per convenzione le lettere minuscole si usano sempre e solo per rappresentare le osservazioni che sono a tutti gli effetti dei numeri o il risultato di operazioni svolte su queste osservazioni mentre le lettere maiuscole si riservano per rappresentare le v.a.) q n rappresenta l’ampiezza del campione cioè il numero di osservazioni disponibili q xi è la i- esima osservazione nel caso di dati grezzi oppure il valore scelto come rappresentante della i- esima classe nel caso di dati raggruppati e allora scriveremo x%i (ma la simbologia non è unica: qualche autore usa xi - (ndr) la probabilità è come il militare: rende difficile il facile attraverso l’inutile... -) q ni è il numero di volte che il dato xi (oppure xi ) si presenta nel nostro campione. q Nel caso di dati grezzi è possibile che tutti gli ni siano pari a 1 (vuol semplicemente dire che non abbiamo dati ripetuti cosa assai frequente nel caso continuo) mentre se siamo nel caso di dati raggruppati ni non sarà altro che la frequenza assoluta della classe i-esima k è il numero di dati distinti nel caso di dati grezzi (e se i dati sono tutti distinti tra loro coincide con n ) oppure è il numero di classi nel caso di dati raggruppati Un esempio ora è doveroso. Supponiamo di avere un campione di 5 osservazioni: 2, 2, 2, 4, 4 Allora, secondo quanto appena detto, sarà: q q q q n =5 k=2 x1 = 2 e x2 = 4 n1 = 3 e n2 = 2 Quindi x5 = 1 ( 3 ⋅ 2 + 2 ⋅ 4) 5 Naturalmente nessuno ci impedisce di considerare tutti i dati distinti e calcolare la media nel seguente modo: q q q q n =5 k =5 x1 = 2 , x2 = 2 , x3 = 2 , x4 = 4 e x5 = 4 n1 = n2 = n3 = n4 = n5 = 1 da cui x5 = 1 ( 2 + 2 + 2 + 4 + 4) 5 Ora vediamo cosa succede se i dati ci vengono forniti raggruppati in classi. Osserviamo che usualmente i dati discreti vengono raggruppati in classi naturali (ovvero ogni classe coincide con le singole osservazioni distinte) ma nessuno ci vieta di usare un qualsiasi altro criterio di raggruppamento mentre nel caso continuo non è possibile raggruppare in classi naturali e siamo invece obbligati a scegliere un criterio differente. Supponiamo di avere un campione di dati raggruppati in classi naturali con distribuzione: xi 2 4 ni 3 2 Dai dati forniti possiamo dedurre k = 2 , ricavare n = n1 + n2 = 3 + 2 = 5 e infine calcolare la media esattamente come nel primo caso. Supponiamo ora che la distribuzione non ci venga fornita attraverso le frequenze assolute ni ma attraverso le frequenze relative fi : xi 2 4 fi 0.6 0.4 Come procediamo in questo caso in cui l’ampiezza n del campione risulta incognita e non deducibile dai dati? Con un semplice accorgimento possiamo adattare la formula ni . Allora otteniamo n k k 1 k ni xn = ∑ ni ⋅ xi = ∑ ⋅ xi = ∑ fi ⋅ xi n i =1 i =1 n i =1 (1) osservando che f i = (2) Applicando i nostri dati alla (2) otteniamo: xn = 0.6 ⋅ 2 + 0.4 ⋅ 4 Notiamo che essendo l’ampiezza del campione incognita non potremo esplicitarla a pedice di xn . Infine vediamo l’ultimo caso. Supponiamo di avere ancora a che fare con dati raggruppati in classi questa volta non na turali le cui frequenze relative sono indicate in tabella: classe [1 , 4) [4 , 7) fi 0.6 0.4 In questa situazione tipica del caso continuo non potremo calcolare il valore puntuale della media ma potremo solo darne una approssimazione. Infatti per ottenere il valore corretto della media dovremmo sapere come i dati sono distribuiti all’interno di ogni classe. Poichè tale informazione ci è preclusa, per proseguire dobbiamo scegliere quale valore utilizzare come rappresentante di classe. Spesso viene utilizzato il valore centrale dell’intervallo. Ma alcuni autori (o docenti) suggeriscono l’uso dell’estremo sinistro. Tale scelta è solo ed esclusivamente convenzionale e dipende dal gusto dell’autore (o docente che sia). Noi useremo il valore centrale che quindi ci accingiamo a calcolare: x%1 = 4 +1 7+4 = 2.5 e x%2 = = 5.5 2 2 Ora possiamo applicare la formula (1). Naturalmente se avessimo avuto a disposizione i dati grezzi (possiamo pensare che siano gli stessi degli esempi precedenti) avremmo potuto calcolare il valore esatto della media ma in assenza dei dati grezzi e con classi costituite da interi intervalli e non da singoli valori non ci resta che effettuare una approssimazione il cui risultato dipende dalla scelta arbitraria fatta sul rappresentante di classe. Calcolo della media per variabili aleatorie La casistica è assai meno complessa. Se la v.a. è discreta la formula per il calcolo della media (vedi Cicchitelli pag. 55) è: µ = E X = ∑ x ⋅ p ( x) (3) x La formula è identica a quella presentata nel calcolo della media di un campione di dati discreti raggruppati in classi nota la frequenza relativa. (cfr formula (2)). Cambia solo la notazione quindi ecco anche in questo caso la legenda: q x è il valore che la v.a. può assumere e corrisponde all’osservazione xi q p( x) è la probabilità che la v.a. assuma proprio il valore x e corrisponde alla frequenza relativa nel caso di dati campionati Se la v.a. è continua la formula di calcolo della media differisce da tutte quelle sinora viste per la presenza dell’integrale al posto della sommatoria: µ =EX = ∫ x ⋅ f (x ) dx (4) x∈¡ Inoltre, al posto della funzione di probabilità p ( x) abbiamo la funzione di densità f ( x) . La differenza è sostanziale e giustifica la diversa notazione (adottata in molti testi ma non in tutti). Infatti nel caso discreto la funzione di probabilità è effettivamente una probabilità ovvero: P( X = x ) = p ( x ) . Invece nel caso continuo non a caso viene chiamata densità infatti P( X = x ) = 0 ≠ f ( x ) Esempi di calcolo del valore atteso per v.a. discrete o continue che siano si trovano in ogni testo. Calcolo della varianza campionaria per dati campionati La formula generale (con la stessa notazione usata per la media campionaria) è: 1 k 2 s = ni ( xi − xn ) ∑ n − 1 i =1 2 (5) Quanto visto sinora per la media campionaria si applica pari pari alle formule per il calcolo della varianza campionaria ovvero unica formula che prende forme diverse a seconda dei casi. Abbiamo un’unica differenza nel caso di dati raggruppati in classi non naturali nota la frequenza relativa. Allora la formula si modificherà nel segue nte modo: n 1 k 2 n k ni 2 n k 2 s = ni ( xi − xn ) = f i ( xi − xn ) (6) ( xi − xn ) = ∑ ∑ ∑ n − 1 n i =1 n − 1 i =1 n n − 1 i =1 n L’ultimo membro della (6) mette in evidenza il fattore correttivo il cui significato n −1 2 risulta chiaro dopo lo studio degli stimatori. Con qualche passaggio che omettiamo le formule (5) e (6) possono essere scritte in un formato più semplice da calcolare: 1 k s = ni xi 2 − nxn 2 ∑ n −1 i=1 (5a) n k f i xi 2 − xn 2 ∑ n −1 i=1 (6a) 2 e s2 = Calcolo della varianza per variabili aleatorie Nel caso discreto la formula è la seguente: Var X = ∑ ( x − µ ) 2 ⋅ p( x) (7) x Osserviamo che in questo caso il fattore correttivo è assente Se la variabile aleatoria è continua la formula si modifica nel seguente modo: Var X = ∫ (x − µ ) 2 ⋅ f ( x ) dx (8) x∈¡ A riguardo valgono le medesime considerazioni avanzate per la media. Anche in questo caso con alcuni passaggi si perviene ad una forma più semplice da calcolare delle formule (7) e (8) che possiamo sintetizzare nell’unica seguente proprietà della varianza: Var X = E X 2 − ( E X ) 2 (9) Osservazione finale Concludiamo la trattazione con un’importante considerazione. Abbiamo parlato di media e varianza e di media campionaria e varianza campionaria, la prima coppia riferita alle variabili aleatorie e la seconda ai campioni di dati. In entrambi i casi abbiamo a che fare con indici, ovvero numeri che forniscono indicazioni sulla posizione e la dispersione della distribuzione della v.a. o dell’istogramma delle frequenze campionate. Le analogie che abbiamo evidenziato tra le formule di calcolo degli indici di un campione di dati e gli indici di una variabile aleatoria sono solo formali e non a caso gli indici esaminati hanno nomi diversi nei due casi (osservazioni e v.a.). Questa osservazione prende consistenza non appena si scopre che anche per le variabili aleatorie esistono i conc etti di media campionaria e di varianza campionaria. Per semplicità limitiamo le considerazioni alla media. Per chiarire analogie e differenze tra la media campionaria di un campione di dati ( xn ), la media di una v.a. ( E X ) e la variabile aleatoria media campionaria ( X n ) cominciamo col notare che associata ad ogni osservazione xi c’è una variabile aleatoria X i . Al solito X i mi consente di fare previsioni sui risultati di una osservazione PRIMA che questa sia effettivamente avvenuta mentre l’esito xi è ciò che mi rimane della v.a. DOPO aver effettuato l’osservazione. E se al posto di una sola osservazione ne abbiamo un intero campione di ampiezza n ? Continueremo ad avere un’unica legge determinata dal fenomeno in esame ma le variabili aleatorie saranno anch’esse in numero di n ovvero una per ogni osservazione. Quindi associata ad un campione di dati { X i }i=1 . n { xi }i =1 abbiamo non una ma un’intera famiglia n n osservazioni (generalmente indipendenti) del medesimo fenomeno tali v.a. vengono dette i.i. d. di v.a. Poichè queste v.a. aleatorie rappresentano ovvero indipendenti e identicamente distribuite. E se dopo aver estratto un campione ne volessi calcolare la media campionaria? Bene: così come alle spalle del singolo dato ho la singola v.a. e alle spalle di un campione di dati ho una famiglia di v.a., alle spalle della media campionaria ottenuta combinando opportunamente i dati del campione ho una variabile aleatoria ottenuta combinando al medesimo modo la famiglia di v.a. 1 n In altre parole alle spalle della media campionaria xn = ∑ xi ho la variabile n i =1 1 n aleatoria “media campionaria” X n = ∑ X i n i =1 Supponiamo di avere il solito macchinario che produce viti. Sicuramente tra le specifiche fornite dal produttore ci saranno indicazioni sulla media e la varianza della lunghezza delle viti prodotte (lunghezza che possiamo immaginare distribuita come una gaussiana). Supponiamo inoltre di essere intenzionati a calcolare la media campionaria della lunghezza di un campione costituito da n viti. Allora in questa situazione avremo tre oggetti ben distinti: q la media η parametro dell’unica legge, dettata dalle specifiche, che governa il fenomeno in esame. q la media campionaria calcolata tramite i dati campionati q la v.a. media campionaria costruita a partire dalla famiglia di n variabili aleatorie rappresentanti altrettante osservazioni.