Statistica descrittiva Roberto Boggiani Versione 2 14 dicembre 2003 1 Introduzione La Statistica riguarda i metodi scientifici per raccogliere, ordinare, riassumere, presentare e analizzare i dati, ad anche per trarre valide conclusioni e prendere ragionevoli decisioni sulla base di tali analisi. In tutti i problemi di statistica ci si trova di fronte ad una massa (grande o piccola) di dati che sono raccolti, classificati ed elaborati in vista di certi scopi. Questi possono essere diversi da problema a problema ed oggi si distinguono, nella teoria della statistica tre rami principali che rispondono ai nomi di: statistica descrittiva: si ha un problema di statistica descrittiva quando i dati raccolti si considerano come un ente a sè, isolato quindi da altri analoghi che non sono stati raccolti. Se ad esempio, si vuol sapere quanti sono, in una biblioteca, i libri di matematica, quelli di economia, di fisica, di statistica e cosı̀ via, è sufficiente considerare volume per volume, classificarlo secondo la materia trattata e riassumere i dati ottenuti in una tabella. Questo prospetto ha però un significato molto ristretto in quanto vale solamente per quella biblioteca, nell’istante considerato. In altre parole, i dati cosı̀ raccolti servono solamente a descrivere certe caratteristiche di quella biblioteca. statistica inferente: ben più complicata è la statistica inferente la quale opera su campioni e quindi su grandezze di tipo probabilistico. Lo scopo che si propone la statistica inferente può essere cosı̀ sintetizzato: da una certa popolazione, i cui caratteri sono ignoti, si estrae un campione casuale e in base ai dati che esso fornisce si vuol provare (cioè accettare o respingere) una certa ipotesi, che riguarda la popolazione. teoria delle decisioni statistiche: si ha un problema di decisione quando si possono seguire diverse alternative per raggiungere un certo obiettivo e bisogna selezionarne una (o, eventualmente, alcune). La selezione avviene in modo che l’obiettivo da raggiungere sia ottimo, sotto un certo profilo. Inoltre il problema può presentarsi in condizioni di certezza oppure di incertezza, intendendo, in questo secondo caso, che esso è connesso con eventi casuali. In questa dispensa, che non considera il calcolo delle probabilità, non tratteremo della statistica inferente e della teoria delle decisioni statistiche, limitandoci ad esporre la statistica descrittiva. 2 Le fasi di una ricerca statistica Come esistono dei problemi la cui soluzione richiede l’impiego della matematica, dei problemi che si risolvono solamente ricorrendo alla fisica, cosı̀ esistono certe questioni la cui risposta non può essere data che dopo aver effettuato una opportuna ricerca statistica. Le fasi in cui si articola una ricerca statistica sono le seguenti: 1. Individuazione del fenomeno o dei fenomeni che si intendono studiare 2. Individuazione della popolazione da analizzare e quindi delle singole unità statistiche che riguarderanno la ricerca. 3. Raccolta dei dati da ciascuna unità statistica, loro classificazione con compilazione di tabelle. 4. Tracciamento di diagrammi facendo uso delle tabelle precedentemente ricavate. 5. Elaborazione dei dati. 6. Conclusione a cui si perviene a seguito della ricerca. 1 4 Statistica descrittiva univariata qualitativa 3 Statistica descrittiva Come abbiamo detto, si ha un problema di statistica descrittiva quando i dati raccolti si considerano come un ente a sè, isolati quindi da altri analoghi che non sono stati raccolti. Quando si effettua una ricerca statistica, ciascuna unità statistica può essere analizzata facendo riferimento • ad un solo fenomeno: si parlerà allora di statistica descrittiva univariata • a due fenomeni: si parlerà allora di statistica descrittiva bivariata • a tre o più fenomeni: si parlerà allora di statistica descrittiva multivariata Inoltre se si considera un solo fenomeno sarà necessario analizzare anche le manifestazioni di quel fenomeno nelle varie unità statistiche. Tali manifestazioni prendono il nome di modalità. Emerge allora la necessità di predisporre quella che è chiamata scala delle modalità, che altro non è se non il vocabolario dei termini che saranno adottati per interpretare le possibili manifestazioni del fenomeno considerato. Le scale delle modalità, una volta costruite, rappresentano poi la fonte inderogabile del linguaggio che sarà adottato nell’investigare intorno al fenomeno preso in esame. Le scale delle modalità possono essere: • nominali: quando si articolano in modalità suscettibili di essere ordinati in qualunque modo • ordinali: quando si articolano in modalità suscettibili di un ordinamento • intervallari: quando si articolano in modalità che si identificano sempre con numeri aventi però la prerogativa di quantificare le manifestazioni di un fenomeno • di rapporto: quando si articolano in modalità caratterizzate dall’avere una origine fissa che risulta in via naturale lo zero Se si effettua una ricerca di statistica descrittiva univariata considerando quindi solamente un fenomeno si avrà che • se la rilevazione del fenomeno viene effettuata su scala di modalità di tipo nominale o ordinale si parlerà di fenomeno di tipo qualitativo • se la rilevazione del fenomeno viene effettuata su scala di modalità di tipo intervallare o di rapporto si parlerà di fenomeno di tipo quantitativo. Se si effettua una ricerca di statistica descrittiva bivariata o multivariata i vari fenomeni oggetto di studio potranno combinarsi tra di loro in tutti i modi possibili. Nei prossimi paragrafi tratteremo allora i seguenti casi: • statistica descrittiva univariata qualitativa in cui il fenomeno oggetto di studio è di tipo qualitativo • statistica descrittiva univariata quantitativa in cui il fenomeno oggetto di studio è di tipo quantitativo • statistica descrittiva bivariata quantitativa in cui i fenomeni oggetto di studio sono entrambi di tipo quantitativo • statistica descrittiva bivariata qualitativa in cui i fenomeni oggetto di studio sono entrambi di tipo qualitativo 4 4.1 Statistica descrittiva univariata qualitativa Introduzione Sia X un generico fenomeno di tipo qualitativo intorno al quale s’intende indagare. Fissata la popolazione P composta dalle n unità statistiche da analizzare e precisate le modalità in cui si articola il fenomeno oggetto di studio che verranno nel seguito indicate con m1 , m 2 , m 3 , . . . , m h con h ≤ n sarà immediato costruire la seguente tabella: statistica 2 rb 4 Statistica descrittiva univariata qualitativa 4.2 m m1 m2 ... mi ... mh Frequenze relative f f1 f2 ... fi ... fh n in cui i valori di fi con i = 1..h, detti frequenze assolute, rappresentano il numero delle unità statistiche caratterizzate dall’avere la stessa modalità mi . Si noti che per tale tabella h X fi = n i=1 ossia la somma delle frequenze assolute sarà uguale al numero delle unità statistiche che compongono la popolazione. Se il fenomeno oggetto di studio è misurabile su scala ordinale, sarà opportuno procedere anche alla costruzione delle frequenze cumulate che indicheremo con F e che non sono altro che la somma delle frequenze assolute dalla prima modalità a quella che stiamo considerando. Si otterrà allora la seguente tabella: m m1 m2 ... mi ... mh 4.2 f f1 f2 ... fi ... fh n F F1 = f1 F2 = f1 + f2 ... Pi Fi = k=1 fk ... Fh = n Frequenze relative Se dividiamo ciascuna frequenza assoluta fi per per n otteniamo pi = fi ∀ i = 1..h n detto frequenza relativa. Tali frequenze relative sono molto importanti per esprimere un primo giudizio sul fenomeno oggetto di studio. Naturalmente si avrà che: h X pi = 1 i=1 Sarà possibile ottenere con analogo procedimento anche le frequenze relative cumulate. 4.3 Rappresentazioni grafiche Possiamo effettuare una rappresentazione grafica del fenomeno oggetto di studio utilizzando la tabella delle frequenze assolute e relative e costruendo particolari grafici quali: • i grafici a barra • i grafici a torta 4.4 La moda e la mediana La riorganizzazione dei risultati della rilevazione in tabelle con frequenze assolute e relative e la rappresentazione in grafici consentono di ottenere una panoramica di come il fenomeno X è distribuito nelle n unità della popolazione P e permettono di ottenere due valori di sintesi di tale distribuzione dati da: la moda: è data dalla modalità che presenta la frequenza relativa o assoluta più elevata e viene indicata con m0 statistica 3 rb 5 Statistica descrittiva bivariata qualitativa 4.5 La mutabilità la mediana: può essere calcolata solamente su scale di modalità ordinali e rappresenta la modalità che, una volta ordinate nel senso non decrescente le n unità di P rispetto alle modalità medesime, è posseduta da quella che occupa il posto centrale, ovvero che lascia alla sua destra ed alla sua sinistra un numero uguale di unità e cioè n−1 2 . Ta mediana viene calcolata con l’ausilio delle frequenze relative cumulate e se esiste sarà indicata con m0.5 . Si noti che si potranno verificare due casi: • se n è dispari la mediana sarà univocamente determinata e sarà data dalla modalità a cui corrisponde l’unità statistica di posto n+1 2 • se n è pari non è detto che la mediana esista in quanto essa sarà data dalle modalità a cui corrispondono le unità statistiche di posto n2 e n2 + 1. Se queste due modalità sono diverse la mediana non esiste. 4.5 La mutabilità Si nota però che la ricerca della moda e della mediana non illuminano circa il comportamento tenuto dallo stesso fenomeno nell’ambito delle n unità che costituiscono la popolazione P . Dobbiamo allora spostare la nostra attenzione ad un altro aspetto del comportamento del fenomeno X e, precisamente, alla variabilità ch’esso ha presentato ovvero, come si usa dire alla sua mutabilità. Per comprendere cosa si intende per mutabilità è opportuno introdurre il concetto di omogeneità. La popolazione P è detta omogenea se le n unità statistiche che la formano risultano caratterizzate tutte dalla medesima modalità m. Se tale fatto non si verifica, se, cioè, l rilevazione ha chiamato alla ribalta più di una modalità, si parla allora di mutabilità che, pertanto, può definirsi come assenza di omogeneità. Dobbiamo allora introdurre un indice che traduca il grado di mutabilità del fenomeno considerato e che dovrà avere le seguenti caratteristiche: • assumere il valore zero quando il fenomeno si è manifestato con una sola modalità e quindi non dimostrando alcuna mutabilità • assumere valori via via maggiori del minimo quanto più le n unità statistiche della popolazione P approssimano l’equidistribuzione fra le h modalità della scala adottata. • assumere il valore uno se l’osservazione propone una equidistribuzione La letteratura statistica propone a tal fine due indici: l’indice del Gini dato da: h G= h X pi (1 − pi ) h − 1 i=1 l’indice di Shannon dato da: H=− h X pi ln pi i=1 in cui pi come al solito identifica la frequenza relativa del fenomeno oggetto di studio. 5 5.1 Statistica descrittiva bivariata qualitativa Introduzione Fissata la popolazione P composta da n unità statistiche vogliamo rilevare da ciascuna delle unità oggetto di studio le modalità in cui si manifestano due fenomeni di tipo qualitativo che indicheremo con X e Y e le cui modalità saranno indicate rispettivamente con X m1 ,X m2 ,X m3 , . . . ,X mh e Y m1 ,Y m2 ,Y m3 , . . . ,Y mk con hq ≤ n sarà immediato costruire la seguente tabella a doppia entrata: statistica 4 rb 5 Statistica descrittiva bivariata qualitativa X \Y X m1 X m2 ... X mi ... X mh f.j m1 f11 f21 ... fi1 ... fh1 f.1 Y m2 f12 f22 ... fi2 ... fh2 f.2 Y 5.2 ... ... ... ... ... ... ... ... mj f1j f2j ... fij ... fhj f.j Y ... ... ... ... ... ... ... ... mk f1k f2k ... fik ... fhk f.k Y Frequenze relative fi. f1. f2. ... fi. ... fh. n in cui i valori di fij con i = 1..h ed j = 1..k detti frequenze assolute, rappresentano il numero delle unità statistiche caratterizzate dall’avere la coppia di modalità (X mi ,Y mj ). Per tale tabella avremmo che: • h X k X fij = n i=1 j=1 • k X fij = fi. ∀ i = 1..h j=1 • h X fij = f.j ∀ j = 1..k i=1 • k X f.j = j=1 5.2 h X fi. = n i=1 Frequenze relative Se dividiamo ciascuna frequenza assoluta fij per per n otteniamo fij ∀ i = 1..h ∀j = 1..k n detto frequenza relativa. Tali frequenze relative sono molto importanti per esprimere un primo giudizio sul fenomeno oggetto di studio. Naturalmente si avrà che: Naturalmente si avrà che: pij = • h X k X pij = 1 i=1 j=1 • k X pij = pi. ∀ i = 1..h j=1 • h X pij = p.j ∀ j = 1..k i=1 • k X j=1 5.3 p.j = h X pi. = 1 i=1 L’indipendenza tra X ed Y Fissata la popolazione P composta da n unità statistiche e rilevata da ciascuna delle unità oggetto di studio le modalità in cui si manifestano due fenomeni di tipo qualitativo indicati con X e Y possiamo come visto arrivare alla formulazione della seguente tabella a doppia entrata X \Y X m1 X m2 ... X mi ... X mh f.j statistica m1 f11 f21 ... fi1 ... fh1 f.1 Y m2 f12 f22 ... fi2 ... fh2 f.2 Y ... ... ... ... ... ... ... ... 5 mj f1j f2j ... fij ... fhj f.j Y ... ... ... ... ... ... ... ... mk f1k f2k ... fik ... fhk f.k Y fi. f1. f2. ... fi. ... fh. n rb 6 Statistica descrittiva univariata quantitativa 5.4 La connessione tra X e Y Diremo allora che il fenomeno X è indipendente dal fenomeno Y se accade che: fij = fi. f.j n e questo ∀ i = 1..h e ∀j = 1..k. Naturalmente se X e indipendente da Y anche Y è indipendente da X. Se accade che X ed Y sono indipendenti si avrà anche che: • fij fi. = f.j n • fij f.j = fi. n 5.4 La connessione tra X e Y Un aspetto al quale rivolgere l’attenzione nel caso di analisi di due fenomeni qualitativi è la connessione, intendendosi con tale nome il fatto che una o più modalità del fenomeno X manifestino una preferenza ad associarsi con una o più modalità del fenomeno Y . Cosı̀, ad esempio, facendo riferimento ai due fenomeni colore degli occhi e colore dei capelli è possibile che il castano degli occhi si associ preferibilmente con lo stesso colore dei capelli. Tenuto conto di quanto detto nel paragrafo 5.3 si può anche dire che due fenomeni qualitativi X ed Y sono tra loro connessi se fra i medesimi non esiste indipendenza, ovvero se non tutte le frequenze assolute della tabella a doppia entrata soddisfano alla relazione: fij = fi. f.j n e questo ∀ i = 1..h e ∀j = 1..k. Ne discende che per scoprire se X ed Y sono tra di loro connessi è sufficiente porre a confronto la tabella dei dati osservati con la tabella teorica costruita con le stesse frequenze marginali fi. e f.j in cui: fi. f.j ? fij = n e questo ∀ i = 1..h e ∀j = 1..k. Per lo studio della connessione tra due fenomeni vengono prevalentemente usati due indici: l’indice di Mortara: h C= k 1 XX ? |fij − fij | n i=1 j=1 l’indice di χ2 : χ2 = k h X ? 2 X (fij − fij ) 1 ? n min{(h − 1), (k − 1)} i=1 j=1 fij Entrambi questi indici godono delle seguenti proprietà: • entrambi sono uguali a zero se non c’è connessione ed anzi in questo caso le due variabili sono tra di loro indipendenti • se c’è massima connessione tale indice vale 1 anzi in questo caso le due variabili sono perfettamente dipendenti • in generale tali indici variano da 0 ad 1 6 6.1 Statistica descrittiva univariata quantitativa Introduzione Sia X un generico fenomeno di tipo quantitativo intorno al quale s’intende indagare. Fissata la popolazione P composta dalle n unità statistiche da analizzare e precisate le modalità in cui si articola il fenomeno oggetto di studio che verranno nel seguito indicate con x1 , x2 , x3 , . . . , xh con h ≤ n sarà immediato costruire la seguente tabella: statistica 6 rb 6 Statistica descrittiva univariata quantitativa 6.2 X x1 x2 ... xi ... xh Frequenze relative f f1 f2 ... fi ... fh n in cui i valori di fi con i = 1..h, detti frequenze assolute, P rappresentano il numero delle unità statistiche h caratterizzate dall’avere la stessa modalità xi . Si noti che i=1 fi = n ossia che la somma delle frequenze assolute deve essere uguale al numero delle unità statistiche che compongono la popolazione. Sarà sempre possibile in questo caso procedere alla costruzione delle frequenze cumulate che indicheremo con F e che non sono altro che la somma delle frequenze assolute dalla prima modalità a quella che stiamo considerando. Si otterrà allora la seguente tabella: X x1 x2 ... xi ... xh f f1 f2 ... fi ... fh n F F1 = f1 F2 = f1 + f2 ... Pi Fi = k=1 fk ... Fh = n Il fenomeno X di tipo quantitativo prende anche il nome di variabile 6.2 Frequenze relative Se dividiamo ciascuna frequenza assoluta fi per per n otteniamo pi = fi ∀ i = 1..h n detto frequenza relativa. Tali frequenze relative sono molto importanti per esprimere un primo giudizio sul fenomeno oggetto di studio. Naturalmente si avrà che: h X pi = 1 i=1 Sarà possibile ottenere con analogo procedimento anche le frequenze relative cumulate. 6.3 Rappresentazioni grafiche Possiamo effettuare una rappresentazione grafica del fenomeno oggetto di studio utilizzando la tabella delle frequenze assolute e relative e costruendo particolari grafici quali: • i grafici a istogramma • i grafici a boxplot 6.4 La moda e la mediana La riorganizzazione dei risultati della rilevazione in tabelle con frequenze assolute e relative e la rappresentazione in grafici consentono di ottenere una panoramica di come il fenomeno X è distribuito nelle n unità della popolazione P e permettono di ottenere due valori di sintesi di tale distribuzione dati da: la moda: è data dalla modalità che presenta la frequenza relativa o assoluta più elevata e viene indicata con m0 statistica 7 rb 6 Statistica descrittiva univariata quantitativa 6.5 Le medie algebriche potenziate la mediana: che in questo caso può sempre essere calcolata rappresenta la modalità che, una volta ordinate nel senso non decrescente le n unità di P rispetto alle modalità medesime, è posseduta da quella che occupa il posto centrale, ovvero che lascia alla sua destra ed alla sua sinistra un numero uguale di unità e cioè n−1 2 . La mediana viene calcolata con l’ausilio delle frequenze relative cumulate e sarà indicata con m0.5 . Si noti che si potranno verificare due casi: • se n è dispari la mediana sarà univocamente determinata e sarà data dalla modalità a cui corrisponde l’unità statistica di posto n+1 2 • se n è pari non è detto che la mediana sia univocamente determinata in quanto essa sarà data dalle modalità a cui corrispondono le unità statistiche di posto n2 e n2 + 1. Se queste due modalità sono diverse un procedimento per il calcolo della mediana sarà quello di effettuare la loro media aritmetica. In questo caso la mediana gode di una importante proprietà che è quella di minimizzare la somma degli scarti assoluti dei valori ossia: h X |xi − m0.5 | = minimo i=i 6.5 Le medie algebriche potenziate Sia X una variabile intorno alla quale s’intende indagare. Fissata la popolazione P composta dalle n unità statistiche da analizzare e precisate le modalità in cui si articola il fenomeno oggetto di studio che verranno nel seguito indicate con x1 , x2 , x3 , . . . , xh con h ≤ n sarà immediato ottenere come già visto le relative frequenze assolute date da f1 , f2 , f3 , . . . , fh Prende allora il nome di media algebrica potenziata di ordine r la seguente: v u Ph r u r i=1 xi fi t Ph r mX = i=1 fi Per i vari valori di r si otterranno le seguenti medie: • per r = −1 si avrà la media armonica data da Ph fi = Phi=1 f i −1 mX i=1 xi • per r → 0 si otterrà la media geometrica data da 0 mX = v u h uY f t xi Ph i=1 fi i i=1 • per r = 1 si otterrà la media aritmetica data da Ph 1 mX = Pi=1 h xi fi i=1 fi essendo la più usata, tale media verrà indicata d’ora in avanti con il simbolo mX • per r = 2 si otterrà la media quadratica data da v u Ph 2 u i=1 xi fi t P 2 mX = h i=1 fi statistica 8 rb 6 Statistica descrittiva univariata quantitativa 6.6 Valori in classi intervallari • per r = 3 si otterrà la media cubica data da v u Ph 3 u 3 i=1 xi fi =t Ph i=1 fi 3 mX Si può dimostrare che: . . . ,−2 mX ≤−1 mX ≤0 mX ≤ mX ≤2 mX ≤ . . . 6.6 Valori in classi intervallari Sia X una variabile di tipo quantitativo intorno alla quale si intende indagare. Fissata la popolazione P composta dalle n unità statistiche da analizzare potrebbe verificarsi il caso in cui le modalità non sono espresse da valori numerici ma da intervalli come specificato nella seguente tabella: X x1 ` x2 x2 ` x3 ... xi ` xi+1 ... xh ` xh+1 f f1 f2 ... fi ... fh n F F1 = f1 F2 = f1 + f2 ... Pi Fi = k=1 fk ... Fh = n In questo caso sarà sempre possibile effettuare il calcolo delle medie potenziate cosı̀ come visto nei precedenti paragrafi basterà semplicemente sostituire all’intervallo i−esimo il suo valore centrale ossia porre al posto di xi ` xi+1 il valore x∗i = xi + xi+1 2 In modo analogo si ragiona nel caso in cui • gli intervalli siano del tipo xi a xi+1 • il primo intervallo sia del tipo x < x1 o del tipo x ≤ x1 , basterà formulare delle ipotesi sulla distribuzione del valori all’interno dell’intervallo • l’ultimo intervallo sia del tipo x > xh o del tipo x ≥ xh , basterà formulare delle ipotesi sulla distribuzione del valori all’interno dell’intervallo 6.7 Il caso in cui n = h Sia X una variabile di tipo quantitativo intorno alla quale si intende indagare. Fissata la popolazione P composta dalle n unità statistiche da analizzare e precisate le modalità in cui si articola il fenomeno oggetto di studio che verranno nel seguito indicate con x1 , x2 , x3 , . . . , xh Potrebbe presentari il caso in cui h=n ossia il caso in cui il numero delle modalità del fenomeno oggetto di studio sia pari al numero delle unità statistiche su cui si effettua l’indagine. In questo caso allora si avrà che: fi = 1 ∀ i = 1..n e quindi le modalità saranno rappresentate con x1 , x2 , x3 , . . . , xn Da questo punto in avanti se non diversamente precisato • si suppone che le modalità del fenomeno siano pari al numero delle unità statistiche ossia ci si pone nel caso in cui n = h • nei casi in cui non vi siano problemi di comprensione per non appesantire la scrittura si ometteranno nelle sommatorie i relativi indici statistica 9 rb 6 Statistica descrittiva univariata quantitativa 6.8 6.8 Le medie potenziate nel caso in cui n = h Le medie potenziate nel caso in cui n = h La formula generale delle medie potenziate nel caso in cui il numero delle modalità sia uguale al numero delle unità statistiche risulta notevolmente semplificata e data da: r Pn r r i=1 xi r mX = n Per i vari valori di r si otterranno le seguenti medie: • per r = −1 si avrà la media armonica data da n = Pn −1 mX 1 i=1 xi • per r → 0 si otterrà la media geometrica data da 0 mX v un uY n = t xi i=1 • per r = 1 si otterrà la media aritmetica data da Pn 1 mX i=1 = xi n essendo la più usata, tale media verrà indicata d’ora in avanti con il simbolo mx • per r = 2 si otterrà la media quadratica data da r Pn 2 mX i=1 = x2i n • per r = 3 si otterrà la media cubica data da r Pn 3 mX 6.9 = 3 i=1 x3i n La media aritmetica La media aritmetica è la media più utilizzata nelle applicazioni statistiche. Per questo essa verrà studiata in modo più approfondito rispetto alle altre medie potenziate. Sia X una generica variabile di tipo quantitativo intorno al quale s’intende indagare. Fissata la popolazione P composta dalle n unità statistiche da analizzare e precisate le modalità in cui si articola il fenomeno oggetto di studio che verranno nel seguito indicate con x1 , x2 , x3 , . . . , xn abbiamo definito la media aritmetica con: Pn i=1 mX = xi n vogliamo ora dimostrare alcuni importanti teoremi che riguardano la media aritmetica stessa. Essi sono dati da: Teorema 6.1 (della somma degli scarti) Data la variabile X che presenta le n modalità x1 , x2 , x3 , . . . , xn , la somma degli scarti di ciascuna modalità dalla propria media aritmetica vale zero La dimostrazione di questo teorema e molto semplice infatti: X X (xi − mx ) = xi − nmX = nmX − nmX = 0 statistica 10 rb 6 Statistica descrittiva univariata quantitativa 6.9 La media aritmetica Teorema 6.2 (della devianza) Data la variabile X che presenta le n modalità x1 , x2 , x3 , . . . , xn , la quantità X (xi − a)2 avrà il suo valore minimo se e solo se a = mx . Il valore X (xi − mx )2 prende il nome di devianza Anche in questo caso la dimostrazione è molto semplice si tratta di minimizzare la funzione: X f (a) = (xi − a)2 La derivata rispetto ad a è data da: f 0 (a) = 2 X (xi − a)(−1) che si annulla nel punto P a= xi = mX n essendo quindi f 00 (a) = 1 il punto trovato è il punto di minimo relativo e ciò dimostra il teorema enunciato. Teorema 6.3 (della media di una trasformazione lineare) Data la variabile X che presenta le n modalità x1 , x2 , x3 , . . . , xn ed avente media mx se consideriamo la trasformazione lineare Y = a + bX si avrà allora che mY = a + bmX La dimostrazione di questo teorema è molto semplice infatti: Pn i=1 yi mY = Pnn i=1 (a + bxi ) = n = a + bmX Teorema 6.4 (della media della somma di due variabili) Siano X e Y due generiche variabili di tipo quantitativo aventi come modalità rispettivamente x1 , x2 , x3 , . . . , xn e y1 , y 2 , y 3 , . . . , y n e come media mX ed mY . Se costruiamo la variabile Z =X +Y si avrà che mZ = mX+Y = mX + mY Teorema 6.5 (del prodotto di due variabili) Siano X e Y due generiche variabili di tipo quantitativo aventi come modalità rispettivamente x1 , x2 , x3 , . . . , xn e y1 , y 2 , y 3 , . . . , y n e come media mX ed mY . Se costruiamo la variabile Z = XY si avrà che Pn mZ = mXY = statistica 11 i=1 xi yi n rb 6 Statistica descrittiva univariata quantitativa 6.10 6.10 La media dei quadrati La media dei quadrati Sia X una generica variabile di tipo quantitativo intorno al quale s’intende indagare. Fissata la popolazione P composta dalle n unità statistiche da analizzare e precisate le modalità in cui si articola il fenomeno oggetto di studio che verranno nel seguito indicate con x1 , x2 , x3 , . . . , xn definiamo media dei quadrati la seguente: Pn i=1 mX 2 = x2i n Attenzione a non confondere la media dei quadrati con la media quadratica. 6.11 La variabilità Analizzando un fenomeno si rileva immediatamente l’esistenza di innumerevoli distribuzioni nelle quali il valore medio assume il medesimo valore. Ad esempio 100, 100, 100 oppure 0, 100, 200 presentano la stessa media aritmetica pur essendo notevolmente diverse tra di loro. Da questa semplice constatazione merge la necessità di integrare l’informazione derivante dall’applicazione delle medie mediante altri indicatori che descrivono il grado di dispersione dei dati attorno alle medie stesse, risulta infatti evidente l’incapacità delle medie di mettere in evidenza questo interessante aspetto di un insieme di dati. La variabilità si può definire come l’attitudine di una variabile ad assumere diverse modalità quantitative. Gli indici di variabilità sono molteplici ma tutti devono soddisfare a queste due importanti proprietà: • devono annullarsi quando e solo quando tutti i termini che costituiscono la distribuzione sono uguali tra di loro • devono aumentare di valore in funzione della diversità che intercorre tra i termini Esistono innumerevoli indici di variabilità ma noi ne studieremo solamente uno, la varianza. 6.12 La varianza e lo scarto quadratico medio Data la variabile X che presenta le n modalità x1 , x2 , x3 , . . . , xn avente media mX prende il nome di varianza la quantità cosı̀ definita: Pn (xi − mX )2 2 σX = i=1 n La varianza non è altro che la media aritmetica dei quadrati degli scarti dalla media aritmetica della variabile X. Prende invece il nome di scarto quadratico medio la quantità cosı̀ definita: r Pn 2 i=1 (xi − mX ) σX = n Lo scarto quadratico medio non è altro che la radice quadrata della varianza. L’importanza dello scarto quadratico medio nell’analisi statistica dei dati è fondamentale: insieme con la media aritmetica rappresenta un parametro essenziale per descrivere le caratteristiche qualificanti di un insieme di valori. statistica 12 rb 6 Statistica descrittiva univariata quantitativa 6.13 6.13 Metodo indiretto per il calcolo della varianza Metodo indiretto per il calcolo della varianza Oltre al procedimento diretto, che si basa sulla definizione stessa di varianza, per il calcolo della stessa possiamo utilizzare un procedimento indiretto che deriva dalla seguente constatazione: Pn 2 2 i=1 (xi − mX ) σX = n Pn 2 2 (x i=1 i − 2mX xi + mX ) = n = mX 2 − 2m2X + m2X = mX 2 − m2X Ossia la varianza si può ottenere come differenza tra la media dei quadrati e il quadrato della media. 6.14 Proprietà della varianza La varianza gode di alcune proprietà molto importanti che enunceremo sotto forma di teorema: Teorema 6.6 (della varianza di una trasformazione lineare) Data la variabile X che presenta le 2 n modalità x1 , x2 , x3 , . . . , xn ed avente media mx e varianza σX se consideriamo la trasformazione lineare Y = a + bX si avrà allora che 2 σY2 = b2 σX La dimostrazione di questo teorema è molto semplice infatti: P2 2 i=1 (y − mY ) σY2 = n Pn (a + bxi − a − bmX )2 i=1 = n Pn 2 2 i=1 b (xi − mX ) = n 2 = b2 σ X Teorema 6.7 (della varianza della somma di due variabili) Siano X e Y due generiche variabili di tipo quantitativo aventi come modalità rispettivamente x1 , x2 , x3 , . . . , xn e y1 , y 2 , y 3 , . . . , y n e come media mX ed mY e varianza 2 σX e σY2 . Se costruiamo la variabile Z =X +Y si avrà che 2 2 2 σZ = σX+Y = σX + σY2 + 2σXY 6.15 Covarianza Siano X e Y due generiche variabili di tipo quantitativo aventi come modalità rispettivamente x1 , x2 , x3 , . . . , xn e y1 , y 2 , y 3 , . . . , y n e come media mX ed mY . Prende il nome di covarianza: Pn (xi − mX )(yi − mY ) σXY = i=1 n statistica 13 rb 7 Statistica descrittiva bivariata quantitativa 6.16 La media dei quadrati e la varianza nel caso in cui h < n Notiamo allora immediatamente che: Pn σXY − mX )(yi − mY ) n Pn (x y − xi mY − yi mX + mX mY ) i=1 i i = n = mXY − mX mY − mY mX + mX mY = mXY − mX mY = i=1 (xi Per cui una formula alternativa per il calcolo della media del prodotto di due variabili sarà data dalla seguente: mXY = mX mY + σXY La covarianza gode di una importante proprietà data da: −σX σY ≤ σXY ≤ σX σY ossia la covarianza è limitata. 6.16 La media dei quadrati e la varianza nel caso in cui h < n Sia X una generica variabile di tipo quantitativo aventi come modalità rispettivamente x1 , x2 , x3 , . . . , xh con h ≤ n. Fissata la popolazione P composta dalle n unità statistiche da analizzare vogliamo calcolare la media dei quadrati e la varianza nel caso in cui le modalità siano accompagnate da frequenze cosı̀ come evidenziato nella seguente tabella: X x1 x2 ... xi ... xh f f1 f2 ... fi ... fh n In questo caso si avrà allora che: • la media dei quadrati si otterrà come: Ph mX 2 = • la varianza si otterrà come 2 σX 7 7.1 Ph = i=1 i=1 (xi x2i fi n − mX )2 fi n Statistica descrittiva bivariata quantitativa Introduzione Fissata la popolazione P composta da n unità statistiche vogliamo rilevare da ciascuna delle unità oggetto di studio le modalità in cui si manifestano due variabili di tipo quantitativo che indicheremo con X e Y e le cui modalità saranno indicate rispettivamente con x1 , x2 , x3 , . . . , xn e y1 , y 2 , y 3 , . . . , y n Da tale rilevazione siamo in grado di ottenere la seguente tabella statistica 14 rb 7 Statistica descrittiva bivariata quantitativa 7.2 X x1 x2 ... xi ... xn Lo scatter plot Y y1 y2 ... yi ... yn Quando si opera con due variabili il concetto più importante da analizzare è quello che consiste nel vedere se le due variabili sono indipendenti oppure se esse sono dipendenti. Quando si verifica la prima ipotesi il problema è chiuso, nel senso che è stata raggiunta una conclusione definitiva. Non altrettanto può dirsi quando si perviene alla conclusione opposta. In questa seconda ipotesi, infatti, esistono infiniti tipi di dipendenza ossia diverse funzioni matematiche idonee a descrivere come si modifica una variabile al variare dell’altra. La procedura che viene usata per trovare queste funzioni matematiche prende il nome di interpolazione. Esistono due tipologie di interpolazione: interpolazione matematica: altrimenti detta per punti in quanto tenta di trovare la funzione matematica che passa esattamente per i punti dati interpolazione statistica: altrimenti detta tra punti in quanto non cerca di trovare la funzione che passa esattamente per i punti dati ma una funzione che passa attraverso i punti dati per mezzo di un ben determinato criterio di accostamento L’interpolazione matematica è difficile da realizzare per due ordini di motivi: • se i dati sono molto numerosi i calcoli da eseguire per trovare una funzione che passa esattamente per i punti dati sono notevoli • se ad un valore di x corrispondono più valori di y questo tipo di interpolazione non potrà ovviamente più essere effettuato. L’interpolazione statistica risolve in modo molto efficace questi due tipi di problemi ed è per questo motivo che è quella più largamente usata nella statistica descrittiva bivariata. 7.2 Lo scatter plot Effettuata la nostra indagine statistica sulle n unità della popolazione P supponiamo di essere arrivati a compilare la seguente tabella: X 1 2 3 4 5 Y 8 12 22 28 30 Stabilito ora che la variabile indipendente è la X e quella dipendente è la Y , al fine di individuare il tipo di dipendenza che lega le due variabili uno strumento grafico di fondamentale importanza da utilizza re è dato dallo scatter plot. Lo scatter plot è un grafico nel quale si evidenzia nell’asse delle ascisse la variabile indipendente ossia la X e nell’asse delle ordinate la variabile dipendente ossia la Y al fine di poter individuare attraverso tale strumento grafico il particolare tipo di dipendenza che lega le due variabili date. Lo scatter plot per i dati ottenuti dalla nostra indagine sarà quello evidenziato nella figura 1 Dal quale è immediato ricavare che il tipo di dipendenza che lega la variabile X con la variabile Y è un tipo di dipendenza lineare che potrà quindi essere rappresentato con una funzione lineare o di primo grado. E’ chiaro che per la scelta del tipo di funzione non esistono dei criteri generali validi per ogni caso e molto dipende dall’esperienza di chi effettua l’analisi statistica. 7.3 Il metodo dei minimi quadrati Stabilito mediante l’analisi dello scatter plot il tipo di dipendenza che lega la variabile indipendente X con la variabile dipendente Y ossia individuato il tipo di relazione funzionale che lega le due variabili il statistica 15 rb 7 Statistica descrittiva bivariata quantitativa 7.3 Il metodo dei minimi quadrati 30 25 20 15 10 5 1 2 3 4 5 Figura 1: Scatter plot problema che si pone ora è quello relativo alla determinazione dei parametri ignoti della funzione stessa. Nell’esempio del precedente paragrafo abbiamo individuato la relazione di dipendenza in una funzione di primo grado ossia una funzione del tipo: y = ax + b il problema che si pone ora è quello della determinazione dei parametri a e b che compongono la funzione stessa. Stabilito che il tipo di interpolazione che si utilizza per questo scopo è quella statistica sorge la necessità di stabilire un criterio di accostamento che leghi i punti trovati dalla ricerca statistica con la relazione funzionale ipotizzata. Il criterio di accostamento più utilizzato per tale scopo è quello noto come metodo dei minimi quadrati. Per capire come si utilizza questo metodo ipotizziamo che la funzione scelta per effettuare l’interpolazione sia ŷ = f (x; a1 , a2 , a3 , . . . , ak ) ossia una funzione che lega la variabile X con la variabile Y utilizzando i k parametri ignoti a1 , a2 , a3 , . . . , ak che dovranno quindi essere determinati. Se consideriamo il valore di xi ottenuto attraverso l’indagine statistica notiamo che a tale valore corrispondono • il valore yi ottenuto attraverso l’indagine statistica • il valore yˆi = f (xi ; a1 , a2 , a3 , . . . , ak ) ottenuto dalla funzione teorica di interpolazione. il tutto come evidenziato nella figura 2 In base a questo fatto per il seguito: • il valore yi prenderà il nome di valore effettivo • il valore yˆi prenderà il nome di valore teorico Detto ora errore di interpolazione la differenza tra il valore effettivo e quello teorico ossia: di = yi − yˆi il criterio dei minimi quadrati permette di determinare i valori dei parametri ignoti a1 , a2 , a3 , . . . , ak della funzione ŷ = f (x; a1 , a2 , a3 , . . . , ak ) statistica 16 rb 7 Statistica descrittiva bivariata quantitativa 7.3 Il metodo dei minimi quadrati Figura 2: Minimi quadrati mediante un criterio di accostamento che consiste nel trovare il punto di minimo rispetto ai parametri a1 , a2 , a3 , . . . , ak della funzione a k variabili: f (a1 , a2 , . . . , ak ) = n X d2i i=1 = n X (yi − yˆi )2 i=1 = n X [yi − f (xi ; a1 , a2 , . . . , ak )]2 i=1 Il punto di minimo di tale funzione viene trovato utilizzando, se applicabili, i teoremi visti per la ricerca dei punti di massimo e di minimo relativo per le funzioni a due o più variabili. Ricordiamo che il metodo per la ricerca dei punti di massimo e di minimo relativo prevede prima di tutto la soluzione rispetto ad a1 , a2 , a3 , . . . , ak del seguente sistema a k equazioni: ∂f =0 ∂a1 ∂f =0 ∂a2 ... ∂f =0 ∂ak e successivamente nella verifica per mezzo della matrice Hessiana della natura del punto critico cosı̀ trovato. Si può dimostrare che in generale la soluzione di tale sistema è proprio punto di minimo senza che sia necessario verificare anche le condizioni del secondo ordine ossia quelle che implicano lo studio della matrice Hessiana. La funzione interpolante trovata con il procedimento dei minimi quadrati prende anche il nome di funzione di regressione. Esamineremo dei paragrafi successivi la determinazione dei parametri della funzione interpolante y = f (x; a1 , a2 , a3 , . . . , ak ) nei casi relativi alle funzioni più utilizzate. statistica 17 rb 7 Statistica descrittiva bivariata quantitativa 7.4 7.4 Funzione interpolante ŷ = a + bx Funzione interpolante ŷ = a + bx Per la determinazione dei parametri ignoti a e b utilizzando il metodo dei minimi quadrati dobbiamo prima di tutto costruire la funzione a due variabili f (a, b) = n X (yi − yˆi )2 i=1 = n X (yi − a − bxi )2 i=1 della quale dobbiamo trovare il punto di minimo relativo rispetto alle variabili a e b. Da quanto detto precedentemente, il punto di minimo relativo deriverà dalla soluzione del seguente sistema a due variabili: n X ∂f = −2 (yi − a − bxi ) = 0 ∂a i=1 n X ∂f = −2 (yi − a − bxi )xi = 0 ∂b i=1 il quale potrà essere riscritto come X n n n X X y − a − bxi = 0 i i=1 i=1 i=1 n n n X X X x y − ax − bx2i = 0 i i i i=1 i=1 i=1 quindi con semplici semplificazioni arriviamo ad ottenere il seguente sistema: n n X X yi x = na + b i i=1 i=1 n n n X X X 2 xi + b xi = xi yi a i=1 i=1 i=1 Dividendo le due equazioni del sistema per n si ottiene: a + bmX = mY amX + bmX 2 = mXY Risolviamo ora il sistema cosı̀ ottenuto con il metodo dei determinanti per cui calcoliamo 1 mX 2 ∆ = = mX 2 − m2X = σX mX mX 2 mY mX ∆a = = mY mX 2 − mX mXY mXY mX 2 1 mY ∆b = = mXY − mX mY = σXY mX mXY ora nell’ipotesi che ∆ 6= 0 la soluzione del sistema sarà data da: a = b = mY mX 2 − mX mXY ∆a = 2 ∆ σX ∆b σXY = 2 ∆ σX e per quanto detto precedentemente tale punto è un punto di minimo relativo senza dover verificare anche le condizioni del secondo ordine. A questo punto notiamo le seguenti particolarità: statistica 18 rb 7 Statistica descrittiva bivariata quantitativa 7.5 Funzione interpolante ŷ = a + bx + cx2 1. dalla prima equazione del sistema scritto sopra ossia: a + bmX = mY possiamo ottenere: a = mY − bmX se ora sostituiamo questo valore nella funzione teorica interpolante ŷ = a + bx otteniamo immediatamente la retta di interpolazione teorica sarà data da: ŷ − mY = b(x − mX ) 2. la retta interpolante passa per il punto di coordinate (mX , mY ) detto baricentro della distribuzione 3. la somma degli errori di interpolazione vale zero infatti n X (di ) = i=1 = = n X i=1 n X i=1 n X (yi − yˆi ) (yi − a − bxi ) yi − na − b i=1 n X xi i=1 = nmY − na − nbmX = nmY − n(mY − bmX ) − nbmX = 0 4. la somma dei valori teorici e dei valori effettivi è uguale infatti se n X (yi − yˆi ) = 0 i=1 deriva immediatamente che n X yi = i=1 7.5 n X yˆi i=1 Funzione interpolante ŷ = a + bx + cx2 Per la determinazione dei parametri ignoti a,b e c utilizzando il metodo dei minimi quadrati dobbiamo prima di tutto costruire la funzione a tre variabili f (a, b, c) = n X (yi − yˆi )2 i=1 = n X (yi − a − bxi − cx2i )2 i=1 statistica 19 rb 7 Statistica descrittiva bivariata quantitativa Funzione interpolante ŷ = a + bx + cx2 7.5 della quale dobbiamo trovare il punto di minimo relativo rispetto alle variabili a, b e c. Da quanto detto precedentemente, il punto di minimo relativo deriverà dalla soluzione del seguente sistema a tre variabili: n X ∂f = −2 (yi − a − bxi − cx2i ) = 0 ∂a i=1 n ∂f X = −2 (yi − a − bxi − cx2i )xi = 0 ∂b i=1 n ∂f X = −2 (yi − a − bxi − cx2i )x2i = 0 ∂b i=1 il quale potrà essere riscritto come n n n n X X X X y − a − bx − cx2i = 0 i i i=1 i=1 i=1 i=1 n n n n X X X X xi yi − axi − bx2i − cx3i = 0 i=1 i=1 i=1 i=1 X n n n n X X X x2i yi − ax2i − bx3i − cx4i = 0 i=1 i=1 i=1 i=1 quindi con semplici semplificazioni arriviamo ad ottenere il seguente sistema: n n n X X X 2 na + b x + c x = yi i i i=1 i=1 i=1 X n n n n X X X xi yi x3i = x2i + c xi + b a i=1 i=1 i=1 i=1 n n n n X X X X 2 3 4 a x + b x + c x = x2i yi i i i i=1 i=1 i=1 i=1 A questo punto notiamo le seguenti particolarità: 1. la somma degli errori di interpolazione vale zero ossia anche in questo caso n X (di ) n X = i=1 i=1 n X = (yi − yˆi ) (yi − a − bxi − cx2i ) i=1 = 0 2. la somma dei valori teorici e dei valori effettivi è uguale infatti se n X (yi − yˆi ) = 0 i=1 deriva immediatamente che n X yi = i=1 statistica 20 n X yˆi i=1 rb 7 Statistica descrittiva bivariata quantitativa 7.6 Funzione interpolante ŷ = a1 + a2 x + a3 x2 + . . . + an+1 xn 7.6 Funzione interpolante ŷ = a1 + a2 x + a3 x2 + . . . + an+1 xn I due casi presentati ai punti 7.4, 7.5, possono essere generalizzati al caso in cui la funzione interpolante sia un polinomio del tipo: ŷ = a1 + a2 x + a3 x2 + . . . + an+1 xn operando in modo analogo per ottenere il valore dei parametri ignoti. Si possono notare le seguenti particolarità: 1. la somma degli errori di interpolazione vale zero ossia anche in questo caso n X (di ) n X = i=1 i=1 n X = (yi − yˆi ) (yi − a − bxi − cx2i ) i=1 = 0 2. la somma dei valori teorici e dei valori effettivi è uguale infatti se n X (yi − yˆi ) = 0 i=1 deriva immediatamente che n X yi = i=1 n X yˆi i=1 3. se abbiamo a disposizione n coppie di dati del tipo (xi , yi ) il massimo grado che potremmo usare per il polinomio interpolante sarà n − 1 7.7 Funzione interpolante ŷ = ybx , a > 0, b > 0 ∧ b 6= 1 In questo caso non si applica direttamente il metodo dei minimi quadrati in quanto il sistema che si otterrebbe non sarebbe lineare nei parametri a e b e quindi sarebbe di difficile soluzione. Si preferisce allora operare un cambiamento di variabili. Dalla funzione: ŷ = abx con a > 0, b > 0 ∧ b 6= 1 prendendo i logaritmi dei due membri si ottiene: log y = log a + x log b e posto • log a = A • log b = B • log y = z si ottiene la funzione z = A + Bx che è lineare nella variabile x. Ottenuti allora i valori di A e di B con i procedimenti visti in precedenza sarà immediato ottenere anche i valori di a e di b mediante il passaggio alla funzione esponenziale. 7.8 Funzione interpolante ŷ = axb , a > 0 In questo caso non si applica direttamente il metodo dei minimi quadrati in quanto il sistema che si otterrebbe non sarebbe lineare nei parametri a e b e quindi sarebbe di difficile soluzione. Si preferisce allora operare un cambiamento di variabili. Dalla funzione: ŷ = axb con a > 0 prendendo i logaritmi dei due membri si ottiene: log y = log a + b log x e posto statistica 21 rb 7 Statistica descrittiva bivariata quantitativa 7.9 Funzione interpolante ŷ • log a = A • log x = t • log y = z si ottiene la funzione z = A + bt che è lineare nella variabile t. Ottenuti allora i valori di A e di b con i procedimenti visti in precedenza sarà immediato ottenere anche i valori di a mediante il passaggio alla funzione esponenziale. 7.9 Funzione interpolante ŷ Il procedimento dei minimi quadrati come visto si può applicare a qualunque tipo di funzione interpolante ŷ. Si noti però che nei casi diversi dall’interpolante polinomiale veniamo a perdere le seguenti due due proprietà: • la somma degli errori di interpolazione vale zero ossia anche in questo caso • la somma dei valori teorici e dei valori effettivi è uguale 7.10 La correlazione lineare Supponendo che il legame che intercorre tra la variabile X e la variabile Y sia di tipo lineare ossia che la funzione di regressione che lega le due variabili sia del tipo ŷ = a + bx non sempre non sempre è però possibile stabilire con certezza se è la variabile X che dipende dalla variabile Y o se viceversa è la variabile Y che dipende dalla variabile X. Si pensi al caso in cui le variabili oggetto di studio siano il peso e l’altezza di un individuo. E’ il peso che influenza l’altezza o viceversa sarà l’altezza ad influenzare il peso. In questi casi non viene determinata una funzione di regressione ,in quanto priva di significato, ma si ricerca un indice detto indice di correlazione lineare in grado di misurare l’intensità del legame di tipo lineare che sussiste tra le due variabili considerate. Tale indice è definito da: r= σXY σ X σY Il coefficiente di correlazione lineare r può essere ottenuto come media geometrica dei coefficienti angolari delle due rette di regressione considerando sia la variabile X dipendente dalla variabile Y che la variabile Y dipendente dalla variabile X. Infatti supponiamo di disporre di due variabili X ed Y . Se la funzione di regressione è lineare si potranno verificare due casi: • se X è considerata variabile indipendente ed Y variabile dipendente si avrà che la retta di regressione sarà: ŷ = a1 + b1 x in cui b1 = σXY 2 σX • se Y è considerata variabile indipendente ed X variabile dipendente si avrà che la retta di regressione sarà: x̂ = a2 + b2 y in cui b2 = σXY σY2 si avrà allora che: r p b1 b2 r σXY σXY = 2 σX σY2 σXY = σX σY = Da quanto detto è anche immediato ricavare che: statistica 22 rb 7 Statistica descrittiva bivariata quantitativa 7.11 Il coefficiente di determinazione • b1 b2 = r 2 Y • b1 = r σσX • b1 2 = r σσX Y che sono di immediata verifica. Ricordando ora quanto detto nel paragrafo 7.4 ossia che: ŷ − mY = b(x − mX ) possiamo anche ottenere che: σY (x − mX ) σX σX =r (y − mY ) σY ŷ − mY = b1 (x − mX ) ⇔ ŷ − mY = r x̂ − mX = b2 (y − mY ) ⇔ x̂ − mX Il coefficiente di correlazione lineare gode di alcune importanti proprietà: • è un valore senza dimensioni e quindi non dipende dalle unità di misura delle variabili X ed Y • il suo valore è compreso tra -1 e +1 ricordando infatti che: −σX σY ≤ σXY ≤ σX σY dividendo i tre membri della disequazione per σX σY si ottiene che σXY −1 ≤ ≤ +1 σX σY ossia −1 ≤ r ≤ +1 • se r > 0 la correlazione è positiva e lo scatter plot di X e di Y evidenzierà dei punti tanto più allineati lungo una retta inclinata positivamente quanto più r sarà vicino ad 1. • se r < 0 la correlazione è negativa e lo scatter plot di X e di Y evidenzierà dei punti tanto più allineati lungo una retta inclinata negativamente quanto più r sarà vicino ad −1. • se r = 1 la correlazione è perfettamente positiva e lo scatter plot di X e di Y evidenzierà dei punti allineati perfettamente lungo una retta inclinata positivamente • se r = −1 la correlazione è perfettamente negativa e lo scatter plot di X e di Y evidenzierà dei punti allineati perfettamente lungo una retta inclinata negativamente • se r = 0 non esiste correlazione lineare tra X ed Y ma ciò non esclude che tra le due variabili possa esistere un tipo di correlazione diversa da quella di tipo lineare 7.11 Il coefficiente di determinazione Supponendo che il legame che intercorre tra la variabile X e la variabile Y sia rappresentato da un polinomio di tipo ŷ = a1 + a2 x + a3 x2 + . . . + an+1 xn oltre che determinare i coefficienti ignoti della funzione interpolante dobbiamo anche introdurre un indice che ci permetta di giudicare sulla bonta della interpolazione effettuata. A tale scopo consideriamo la seguente uguaglianza: n X (yi − mY )2 = i=1 n X (yi − yˆi )2 + i=1 n X (yˆi − mY )2 (1) i=1 facilmente dimostrabile ricordando che n X (yi − yˆi )(yˆi − mY ) = 0 i=1 Possiamo dividere la (1) ottenendo: Pn Pn Pn 2 2 (yˆi − mY )2 i=1 (yi − yˆi ) i=1 (yi − mY ) = + i=1 n n n e quindi chiamando: statistica 23 (2) rb 7 Statistica descrittiva bivariata quantitativa • varianza totale la seguente 7.12 Pn Tabella a doppia entrata − mY )2 = σY2 n i=1 (yi • varianza non spiegata la seguente Pn i=1 (yi − yˆi )2 n • varianza spiegata la seguente Pn = σd2 − mY )2 = σŷ2 n i=1 (yˆi la (2) può essere riscritta nel seguente modo: σY2 = σd2 + σŷ2 evidenziando come la varianza totale possa essere scomposta nella somma della varianza spiegata dalla regressione e della varianza non spiegata dalla regressione. Un indice che ci permette allora di valutare la bontà della interpolazione effettuata è l’indice di determinazione che sarà dato da σŷ2 r2 = 2 σY Tale indice gode di alcune fondamentali proprietà date da: • Se la funzione di regressione usata è la funzione ŷ = a + bx allora il coefficiente di determinazione è proprio il quadrato del coefficiente di correlazione lineare. Infatti in questo caso possiamo scrivere che: r2 = = = σŷ2 σY2 Pn (yˆi − mY )2 Pi=1 n (yi − mY )2 Pi=1 n 2 2 i=1 (b1 (xi − mX ) P n 2 i=1 (yi − mY ) = 2 b21 σX σY2 = [r]2 • Il coefficiente di determinazione varia tra 0 ≤ r2 ≤ 1 tanto più esso si avvicina ad uno tanto più la funzione di regressione trovata è buona. 7.12 Tabella a doppia entrata Fissata la popolazione P composta da n unità statistiche se rileviamo da ciascuna delle unità oggetto di studio le modalità in cui si manifestano due variabili di tipo quantitativo che indichiamo con X e Y e le cui modalità sono indicate rispettivamente con x1 , x2 , x3 , . . . , xn e y1 , y 2 , y 3 , . . . , y n otteniamo la seguente tabella X x1 x2 ... xi ... xn statistica Y y1 y2 ... yi ... yn 24 rb 7 Statistica descrittiva bivariata quantitativa 7.12 Tabella a doppia entrata detta tabella ad entrata semplice. Tale tabella è usata nel caso in cui ogni coppia di modalità (xi , yi ) per i = 1..n si presenta una sola volta nelle n unità statistiche oggetto di rilevazione. Quando però n ossia il numero delle unità statistiche diviene elevato, è intuitivo riconoscere che tale fatto non può essere ritenuto più valido quindi una generica coppia di modalità: (xi , yi ) può presentarsi con una frequenza diversa da uno ossia essere ripetuta più volte. In questo caso i dati dell’analisi non possono più essere riassunti in una tabella ad entrata semplice ma dovranno essere inseriti in una tabella a doppia entrata. Per chiarire il funzionamento di tale tipo di tabella ipotizziamo che fissata la popolazione P composta da n unità statistiche si rilevino da ciascuna delle unità oggetto di studio le modalità in cui si manifestano due variabili di tipo quantitativo che indicheremo con X e Y e le cui modalità saranno indicate rispettivamente con x1 , x2 , x3 , . . . , xh e y1 , y 2 , y 3 , . . . , yk tenendo conto anche del fatto che ciascuna coppia di modalità (xi , yj ) con i = 1..h e j = 1..k può essere ripetuto con una frequenza pari ad fij . Da tale rilevazione siamo in grado di ottenere la seguente tabella a doppia entrata: X \Y x1 x2 ... xi ... xh f.j y1 f11 f21 ... fi1 ... fh1 f.1 y2 f12 f22 ... fi2 ... fh2 f.2 ... ... ... ... ... ... ... ... yj f1j f2j ... fij ... fhj f.j ... ... ... ... ... ... ... ... yk f1k f2k ... fik ... fhk f.k fi. f1. f2. ... fi. ... fh. n Per una tabella a due variabili avremmo che: • k h X X fij = n i=1 j=1 • k X fij = fi. ∀ i = 1..h j=1 • h X fij = f.j ∀ j = 1..k i=1 • k X f.j = h X j=1 fi. = n i=1 Potremmo inoltre definire: h • mX t Y u = h • σX t Y u = k 1 XX t u x y fij n i=1 j=1 i j k 1 XX (xi − mX )t (yj − mY )u fij n i=1 j=1 da cui è immediato ottenere che: statistica 25 rb 7 Statistica descrittiva bivariata quantitativa h k h h k h h k k h k 7.13 • mX 1 Y 0 = 1 XX 1X xi fi. = mX xi fij = n i=1 j=1 n i=1 • mX 2 Y 0 = 1 XX 2 1X 2 x fi. = mX 2 xi fij = n i=1 j=1 n i=1 i • mX 0 Y 1 = 1 XX 1X xi f.j = mY yj fij = n i=1 j=1 n j=1 • mX 1 Y 1 = 1 XX xi yj fij = mXY n i=1 j=1 h k h k h h k k • σX 1 Y 1 = 1 XX (xi − mX )(yj − mY )fij = σXY n i=1 j=1 • σX 2 Y 0 = 1 XX 1X 2 (xi − mX )2 fi. = σX (xi − mX )2 fij = n i=1 j=1 n i=1 • σX 0 Y 2 = 1 XX 1X (yj − mY )2 f.j = σY2 (yj − mY )2 fij = n i=1 j=1 n j=1 Indipendenza e connessione Le rappresentazioni grafiche per le tabelle a doppia entrata sono più difficili da realizzare rispetto a quelle relative alle tabelle ad entrata semplice infatti necessitano l’uso di grafici tridimensionali. 7.13 Indipendenza e connessione Nel caso di una tabella a doppia entrata possiamo vale senza alcun cambiamento quanto precisato nei paragrafi 5.3 e 5.4 7.14 La funzione interpolante per una tabella a doppia entrata Per trovare i parametri di una generica funzione interpolante nel caso di una tabella a doppia entrata ci si comporta esattamente come visto nel caso della tabella a entrata semplice. In questo caso però abbiamo il problema della doppia sommatoria che potrà essere facilmente superato ricordando la simbologia scritta nel paragrafo 7.12. Ipotizzando allora che la funzione interpolante sia del tipo: ŷ = a + bx per la determinazione dei parametri ignoti a e b utilizziamo il metodo dei minimi quadrati e quindi dobbiamo prima di tutto costruire la funzione a due variabili f (a, b) = h X k X (yi − yˆi )2 fij i=1 j=1 = h X k X (yi − a − bxi )2 fij i=1 j=1 della quale dobbiamo trovare il punto di minimo relativo rispetto alle variabili a e b. Da quanto detto precedentemente, il punto di minimo relativo deriverà dalla soluzione del seguente sistema a due variabili: h X k X ∂f = −2 (yi − a − bxi )fij = 0 ∂a i=1 j=1 h X k X ∂f = −2 (yi − a − bxi )xi fij = 0 ∂b i=1 j=1 statistica 26 rb 7 Statistica descrittiva bivariata quantitativa 7.14 La funzione interpolante per una tabella a doppia entrata il quale potrà essere riscritto come h X k h X k h X k X X X y f − af − bxi fij = 0 i ij ij i=1 j=1 i=1 j=1 i=1 j=1 h X k h X k h X k X X X x y f − ax f − bx2i fij = 0 i i ij i ij i=1 j=1 i=1 j=1 i=1 j=1 che possiamo riscrivere come h X k h X k h X k X X X af + b x f = yi fij ij i ij i=1 j=1 i=1 j=1 i=1 j=1 h X k h X k h X k X X X 2 a x f + b x f = xi yi fij i ij i ij i=1 j=1 i=1 j=1 i=1 j=1 ricordando ora quanto detto nel paragrafo 7.12 si avrà che: h k X X naf + b xi fi. = yi f.j ij i=1 j=1 h h h X k X X X a xi fi. + b x2i fi. = xi yi fij i=1 i=1 i=1 j=1 Dividendo le due equazioni del sistema per n e ricordando la simbologia adottata nel paragrafo 7.12 si ottiene a + bmX = mY amX + bmX 2 = mXY sistema analogo a quello visto nel caso di una tabella ad entrata semplice, l’unica differenza ta nel diverso modo di calcolare i valori costanti in esso inseriti. La soluzione di questo sistema ci fornisce i valori cercati di a e di b. Vista la difficoltà, soprattutto simbolica, vogliamo in questo caso fornire un esempio di applicazione pratica della ricerca della funzione interpolante. Data la seguente tabella della distribuzione di 100 allievi di un istituto secondo i voti di italiano e di matematica riportati allo scrutinio finale in cui • X voto in italiano • Y voto in matematica X \Y 4 5 6 7 8 f.j 3 1 1 1 0 0 3 4 2 3 3 0 0 8 5 1 4 10 1 0 16 6 2 6 25 5 2 40 7 0 2 8 10 5 25 8 0 0 1 4 3 8 fi. 6 16 48 20 10 100 si vuole trovare il valore dei coefficienti a e b nell’ipotesi che la funzione interpolante sia lineare del tipo ŷ = a + bx Dobbiamo allora in base a quanto detto costruire le seguenti tabelle: X 4 5 6 7 8 statistica X2 16 25 36 49 64 fi. 6 16 48 20 10 100 Xfi. 24 80 288 140 80 612 27 X 2 fi. 96 400 1728 980 640 3844 mX mX 2 6.12 38.44 rb 7 Statistica descrittiva bivariata 7.15 quantitativa Il coefficiente di correlazione lineare per una tabella a doppia entrata Y 3 4 5 6 7 8 X \Y 4 5 6 7 8 f.j Y2 9 16 25 36 49 64 3 12 15 18 0 0 45 4 32 60 72 0 0 164 f.j 3 8 16 40 25 8 100 5 20 100 300 35 0 455 Y 2 f.j 27 128 400 1440 1225 512 3732 Y f.j 9 32 80 240 175 64 600 6 48 180 900 210 96 1434 7 0 70 336 490 280 1176 mY mY 2 6 37, 32 8 0 0 48 224 192 464 fi. 112 425 1674 959 568 3738 mXY 37.38 Per la ricerca dei valori di a e di b per quanto detto dobbiamo risolvere il sistema: a + 6.12b = 6 6.12a + 38.44b = 37.38 che da come soluzioni a = 1.90 b = 0.67 7.15 Il coefficiente di correlazione lineare per una tabella a doppia entrata Abbiamo visto che il coefficiente di correlazione lineare per una tabella a doppia entrata è dato da: r= σXY σ X σY che possiamo anche riscrivere come mXY − mX mY p mX 2 − m2X mY 2 − m2Y r= p ricordando allora la simbologia adottata nel paragrafo 7.12 è immediato calcolare il coefficiente di correlazione lineare. Vogliamo come esempio calcolare tale coefficiente nell’esempio inserito nel paragrafo 7.14. Si avrà che: 37.38 − (6.12)(6) p r= p = 0.5791 38.44 − (6.12)2 37.32 − (6)2 Notiamo come anche in questo caso le formule sono uguali a quelle usate nel caso di una tabella ad entrata semplice, cambieranno solamente i procedimenti di calcolo dei valori in essi indicati. statistica 28 rb Elenco delle figure Elenco delle figure Elenco delle figure 1 2 Scatter plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . Minimi quadrati . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . statistica 29 16 17 rb Indice Indice Indice 1 Introduzione 1 2 Le fasi di una ricerca statistica 1 3 Statistica descrittiva 2 4 Statistica descrittiva univariata qualitativa 4.1 Introduzione . . . . . . . . . . . . . . . . . 4.2 Frequenze relative . . . . . . . . . . . . . . 4.3 Rappresentazioni grafiche . . . . . . . . . . 4.4 La moda e la mediana . . . . . . . . . . . . 4.5 La mutabilità . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2 2 3 3 3 4 5 Statistica descrittiva bivariata qualitativa 5.1 Introduzione . . . . . . . . . . . . . . . . 5.2 Frequenze relative . . . . . . . . . . . . . 5.3 L’indipendenza tra X ed Y . . . . . . . . 5.4 La connessione tra X e Y . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 4 4 5 5 6 6 Statistica descrittiva univariata quantitativa 6.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . 6.2 Frequenze relative . . . . . . . . . . . . . . . . . . . . . . 6.3 Rappresentazioni grafiche . . . . . . . . . . . . . . . . . . 6.4 La moda e la mediana . . . . . . . . . . . . . . . . . . . . 6.5 Le medie algebriche potenziate . . . . . . . . . . . . . . . 6.6 Valori in classi intervallari . . . . . . . . . . . . . . . . . . 6.7 Il caso in cui n = h . . . . . . . . . . . . . . . . . . . . . . 6.8 Le medie potenziate nel caso in cui n = h . . . . . . . . . 6.9 La media aritmetica . . . . . . . . . . . . . . . . . . . . . 6.10 La media dei quadrati . . . . . . . . . . . . . . . . . . . . 6.11 La variabilità . . . . . . . . . . . . . . . . . . . . . . . . . 6.12 La varianza e lo scarto quadratico medio . . . . . . . . . . 6.13 Metodo indiretto per il calcolo della varianza . . . . . . . 6.14 Proprietà della varianza . . . . . . . . . . . . . . . . . . . 6.15 Covarianza . . . . . . . . . . . . . . . . . . . . . . . . . . 6.16 La media dei quadrati e la varianza nel caso in cui h < n . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6 6 7 7 7 8 9 9 10 10 12 12 12 13 13 13 14 7 Statistica descrittiva bivariata quantitativa 7.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.2 Lo scatter plot . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7.3 Il metodo dei minimi quadrati . . . . . . . . . . . . . . . . . . . . . . 7.4 Funzione interpolante ŷ = a + bx . . . . . . . . . . . . . . . . . . . . 7.5 Funzione interpolante ŷ = a + bx + cx2 . . . . . . . . . . . . . . . . . 7.6 Funzione interpolante ŷ = a1 + a2 x + a3 x2 + . . . + an+1 xn . . . . . . 7.7 Funzione interpolante ŷ = ybx , a > 0, b > 0 ∧ b 6= 1 . . . . . . . . . . 7.8 Funzione interpolante ŷ = axb , a > 0 . . . . . . . . . . . . . . . . . . 7.9 Funzione interpolante ŷ . . . . . . . . . . . . . . . . . . . . . . . . . 7.10 La correlazione lineare . . . . . . . . . . . . . . . . . . . . . . . . . . 7.11 Il coefficiente di determinazione . . . . . . . . . . . . . . . . . . . . . 7.12 Tabella a doppia entrata . . . . . . . . . . . . . . . . . . . . . . . . . 7.13 Indipendenza e connessione . . . . . . . . . . . . . . . . . . . . . . . 7.14 La funzione interpolante per una tabella a doppia entrata . . . . . . 7.15 Il coefficiente di correlazione lineare per una tabella a doppia entrata . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 14 14 15 15 18 19 21 21 21 22 22 23 24 26 26 28 . . . . Elenco delle figure statistica 29 30 rb