Appunti di Statistica Descrittiva∗ 30 dicembre 2009 1 La tabella a doppia entrata Per studiare dei fenomeni con 2 caratteristiche statistiche si utilizza l’espediente della tabella a doppia entrata. Per esempio si vuole studiare se le persone con una certa età prediligono se andare al mare o in montagna. Se X è l’età e Y il luogo di villeggiatura, la tabella a doppia entrata è un modo per descrivere la frequenza del numero di persone che, nel campione considerato, preferiscono andare in montagna o al mare a partità di età. Generalmente la tabella a doppia entrata date le caratteristiche statistiche X e Y e le modalità x1 , . . . , xh e y1 , . . . , yk si presenta in questa maniera: X/Y y1 y2 ··· yj ··· yk ni· x1 n11 n12 ··· n1j ··· n1k n1· x2 .. . n21 .. . n22 .. . ··· n2j .. . ··· n2k .. . n2· .. . xi .. . ni1 .. . ni2 .. . ··· nij .. . ··· nik .. . ni· .. . xh nh1 nh2 ··· nhj ··· nhk nh· n·j n·1 n·2 ··· n·j ··· n·k n dove nij viene chiamata genericamente la frequenza congiunta, ovvero la frequenza dell’evento che contemporaneamente possiede l’attributo della modalità xi e l’attributo della modalità yj , mentre ni· e n·j sono le frequenze marginali rispettivamente di X e di Y . La tabella delle frequenze assolute ha queste proprietà: ni· = k X nij j=1 n·j = h X nij i=1 ∗ Questa dispensa è frutto della mente malata di Federico Carlini. Quindi, se trovaste errori, mandate una mail a questo losco individuo a [email protected], così potrò sistemare il tutto. Vi ringrazio per la collaborazione! 1 n= h X k X k X nij = i=1 j=1 n·j = j=1 h X ni· i=1 La tabella con le frequenze relative invece si ottiene sostituendo le frequenze assolute nij con le frequenze relative fij calcolate in questa maniera: fij = nij n e avremo anzichè le marginali assolute n·i o nj· , le marginali relative f·i o fj· , fi· = h X fij i=1 f·j = k X fij j=1 e si può dimostrare che: h X k X fij = i=1 j=1 k X fi· = j=1 h X f·j = 1 i=1 Proviamo a vedere questi concetti in un esempio numerico. Si considerino tutti gli studenti del dipartimento di Economia che in estate sono andati al mare o in montagna. Chiamiamo X la caratteristica che distingue il luogo di villeggiatura (ovvero montagna/mare) e chiamiamo Y la caratteristica che distingue le classi di età (vale la regola che coloro che vanno in montagna non possono andare al mare). Proviamo ora a scrivere la tabella a doppia entrata con le frequenze assolute: X/Y 19 a 21 21 a 23 23 a 25 ni· montagna 40 30 50 40 + 30 + 50 = 120 mare 100 150 80 100 + 150 + 80 = 330 n·j 40 + 100 =140 30 + 150 = 180 50 + 80 = 130 140 + 180 + 130 = 450 120 + 330 = 450 Se dovessimo riscrivere la tabella con le frequenze relative, si trova che X/Y 19 a 21 21 a 23 23 a 25 fi· montagna 40/450 = 0, 089 30/450 = 0.067 50/450 = 0.111 0.267 mare 100/450 = 0.222 150/450 = 0.333 80/450 = 0.178 0.733 f·j 0.311 0.4 0.289 1 E si può notare come tutte le proprietà descritte precedentemente siano vere. 2 1.1 La distribuzione marginale La distribuzione marginale vorrebbe riassumere nient’altro che la distribuzione di X e la distribuzione di Y , senza che si osservino i legami tra le due varabili (per essere veri statistici si direbbere unconditionally o non condizionatamente). Quindi se dovessimo rappresentare la marginale assoluta di Y date le modalità y1 , . . . , yk , e la marginale relativa di X date le modalità x1 , . . . , xh , esse si possono rappresentare tramite tabelle come: Y nij X fij y1 n·1 x1 f1· y2 .. . n·2 .. . x2 .. . f2· .. . yk−1 n·(k−1) xh−1 f(h−1)· yk n·k xh fh· n 1 Oppure si può ricorrere a quest’altra notazione: nY = (n·1 , n·2 , . . . , n·k ) fX = (f1· , f2· , . . . , fk· ) Quindi, per essere più intuitivi, se volessimo calcolare la distribuzioni marginale di Y dobbiamo “fregarcene” di quello che succede alla caratteristica X. Inoltre è bene ricordarsi che dalle distribuzioni congiunte si possono ottenere le distribuzioni marginali univocamente, ma non è possibile il viceversa. Nell’esempio precedente avremo che la distribuzione marginale assoluta di Y e la distribuzione marginale relativa di X sono: Y nij 19 a 21 140 21 a 23 180 23 a 25 70 fij montagna 0.267 mare 0.733 1 450 1.2 X La distribuzione condizionata La distribuzione condizionata è un altro concetto importante e più sofisticato della marginale, in cui cerchiamo di capire le distribuzioni di una caratteristica (ad esempio la Y ) rispetto ad una modalità dell’altra caratteristica (ad esempio xi ). La distribuzione condizionata viene descritta dalle tabelle seguenti, la prima per la distribuzione assoluta, mentre la seconda per la distribuzione relativa. 3 Y |xi n Y |xi f y1 |xi ni1 y1 |xi ni1 /ni· = fi1 /fi· y2 |xi .. . ni2 .. . y2 |xi .. . ni2 /ni· = fi2 /fi· .. . yk−1 |xi ni(k−1) yk−1 |xi ni(k−1) /ni· = fi(k−1) /fi· yk |xi nik yk |xi nik /ni· = fik /fi· ni· 1 Ogni distribuzione relativa, come al solito, ha la caratteristica che le frequenze relative sommano ad 1. Ma intuitivamente cosa significa calcolare la distribuzione condizionale? In prima analisi significa vedere qual è la distribuzione delle frequenze di una caratteristica statistica (in questo caso la Y ) rispetto ad una sola modalità della caratteristica statistica X. In generale, per ogni xi 6= xj , si avranno le distribuzioni condizionate Y |xi e Y |xj diverse. Ovviamente nulla ci vieta di trovare le condizionali X|yj ,che avranno anch’esse certe caratteristiche distributive. Per ultimo si ricordi che con qualche condizione sulle distribuzioni condizionate ed alcune condizioni sulle distribuzioni marginali si possono trovare le congiunte. Se vogliamo calcolare le distribuzioni condizionate assoluta di Y |x2 e la distribuzione condizionata relativa di X|y1 nell’esempio numerico otteniamo Y |x2 n y1 |x2 100 y2 |x2 150 y3 |x2 80 X|y1 f x1 |y1 40/140 = 0.286 x2 |y2 100/140 = 0.714 1 330 2 Indipendenza stocastica Si dice che i 2 fenomeni X ed Y sono detti stocasticamente indipendenti se: 1. Le distribuzioni condizionali relative di Y |xi sono uguali per ogni i = 1, . . . , h 2. Le distribuzioni condizionali relative di X|yj sono uguali per ogni j = 1, . . . , k 3. Le distribuzioni condizionali relative di Y |xi sono uguali alla distribuzione marginale relativa di Y 4. Le distribuzioni condizionali relative di X|yj sono uguali alle distribuzioni marginali relativa di X Per capire meglio cosa sia l’indipendenza stocastica facciamo un esempio numerico. Abbiamo una tabella a doppia entrata così fatta: X/Y 2 3 5 ni· 1 5 10 20 35 2 10 20 40 70 n·j 15 30 60 105 4 Innanzitutto si osservi come le righe (e le colonne) siano proporzionali l’una con l’altra (ovvero ogni riga (colonna) è combinazione lineare delle altre righe (colonne)). Ora proviamo a calcolare le distribuzioni delle frequenze relative condizionate e otteniamo che: 5 10 20 10 20 40 fY |x1 = , , fY |x2 = , , 35 35 35 70 70 70 fX|y1 = 5 10 , 15 15 fX|y2 = 10 20 , 30 30 fX|y3 = 20 40 , 60 60 Ora calcoliamo le distribuzioni delle frequenze relative marginali per ottenere che: fY = 15 30 60 , , 105 105 105 fX = 35 70 , 105 105 A questo punto si nota facendo i calcoli che fY |x1 = fY |x2 = fY e che fX|y1 = fX|y2 = fX|y3 = fX e questa è la proprietà per la quale si definisce l’indipendenza stocastica. Quindi: Definizione 1: Parliamo di indipendenza stocastica tra X ed Y se e solo se le distribuzioni condizionate relative ad una variabile (Y e X) sono uguali alle distribuzioni delle frequenze marginali relative della stessa variabile, cioè in una tabella a doppia entrata in generale vale che: fY |x1 = fY |x2 = . . . = fY |xh = fY fX|y1 = fX|y2 = . . . = fX|yk = fX 2.1 Frequenze teoriche Ora proviamo a calcolare le frequenze teoriche dell’esercizio del paragrafo precedente, definite come: n̂ij = ni· · n·j n con n, ovvero il numero totale di osservazioni. Se si provano a calcolare quindi le frequenze teoriche nell’esercizio del paragrafo precedente si ottiene che: n̂ij 2 3 5 n̂i· 1 5 10 20 35 2 10 20 40 70 n̂·j 15 30 60 105 e si nota come esse siano identiche a quelle di partenza. Pertanto un’altra condizione che può essere utile per parlare di indipendenza stocastica è la seguente. 5 Definizione 1(bis): Parliamo di indipendenza stocastica tra Y ed X se e solo se le frequenze teoriche sono uguali alle frequenze osservate, ovvero nij = n̂ij che implica, tramite la definizione 1, che: nij n·j = = Kj ni· n ∀i = 1, . . . h ni· nij = = Hi n·j n ∀j = 1, . . . k con Hi e Kj fissati. 2.2 Indici di connessione: χ2 di Pearson Prima di definire questo indice bisogna parlare della tabella delle contingenze, dove ogni elemento della stessa è definito come cij = (nij − n̂ij ) Questa matrice ha le seguenti proprietà: h X cij = 0 i=1 k X cij = 0 j=1 h X k X cij = 0 i=1 j=1 L’indice di Pearson assoluto è un indice che serve a quantificare la dipendenza funzionale tra due variabili X ed Y . Esso viene definito in questo modo: χ2 = h X k 2 X (cij ) i=1 j=1 n̂ij = k h X 2 X (nij − n̂ij ) n̂ij i=1 j=1 Intuitivamente esso mi dice quanto dista, pesando opportunamente coi diversi valori delle frequenze teoriche, la frequenza osservata da quella teorica. Tale indice se è pari a χ2 = 0 allora vi è indipendenza stocastica mentre se tale indice è pari a χ2 = n · min{(h − 1), (k − 1)} allora vi è massima dipendenza funzionale tra i fenomeni X ed Y . A questo punto si preferisce avere un indice standard che permette comparazioni tra diverse tabelle, e si costruisce il χ2N normalizzato come χ2N = χ2 n · min{(h − 1), (k − 1)} che ha la caratteristica per cui 0 ≤ χ2N ≤ 1 6 dove per 0 si intende che vi sia indipendenza stocastica mentre per 1 si intende che esista massima dipendenza. Esso inoltre ha la caratteristica di essere simmetrico ovvero: χ2N (Y |X) = χ2N (X|Y ) (Bonus question : provare a ragionare perchè χ2 è simmetrico) 2.3 Indice χ2 e indipendenza stocastica Per capire come sono correlati l’indice χ2 e l’indipendenza stocastica, calcoliamo prima nell’esempio la tabella delle contingenze e otteniamo: cij 2 3 5 ci· 1 0 0 0 0 2 0 0 0 0 c·j 0 0 0 0 Dato che l’indice χ2 è definito come: 2 χ = h X k X (cij )2 i=1 j=1 n̂ij allora si nota come nel nostro esempio, dacchè la matrice dei cij è coperta di zeri, χ2 = 0. Quindi si può interpretare questo fatto, secondo la seguente definizione: Definizione 1(ter): Si dice che X ed Y siano indipendenti stocasticamente se e solo se la tabella delle contingenze è coperta da zeri il che implica, per la definizione stessa di χ2 , che l’indice stesso sia pari a χ2 = 0 3 Regressione in media Per andare ad analizzare se esiste una dipendenza tra i dati e descrivere quale sia l’andamento al variare di Y ad X utilizziamo modelli teorici del tipo y ∗ = g(x) che approssimino al meglio le diverse osservazioni (xi , yi ). Il modello sicuramente non rappresenterà la realtà (le frequenze osservate) , quindi esso avrà un termine di errore che lo definiamo come la differenza tra valore osservato y e il valore teorico del modello y ∗ ovvero ei = yi − yi∗ = yi − g(xi ) ∀i Questo errore di misura bisognerà minimizzarlo per ottenere la migliore interpolante tra modello teorico e dati osservati, minimizzando una funzione L(y − y ∗ ). Come funzione, in particolare, si prende la media quadratica e quindi il problema diventa min M (e) = min M [(y − g(x))2 ] 7 ovvero si cerca di minimizzare la “distanza” quadratica (sempre positiva) tra i dati osservati e il modello condizionato sulle x. Prima di partire a descrivere il modello definiamo gli ingredienti che si utilizzano per calcolare questa funzione. 3.1 Media marginale La media marginale è relativa sia ad X sia ad Y e vengono definite come: M (X) = µX = h X xi ni· /n = i=1 M (Y ) = µY = k X xi fi· i=1 yj n·j /n = j=1 3.2 h X k X yj f·j j=1 Varianza marginale La varianza marginale anch’essa e relativa sia ad X sia ad Y ed essendo il momento centrale secondo vengono definite come: Var(X) = 2 σX h h X X 2 = (xi − µX ) ni· /n = (xi − µX )2 fi· Var(Y ) = σY2 = 3.3 i=1 i=1 k X k X (yj − µY )2 f·j j=1 j=1 (yj − µY )2 n·j /n = Medie condizionate Le medie condizionate sono le medie delle distribuzioni Y |xi o X|yj e vengono definite come M (Y |xi ) = µY (xi ) = k X yj nij /ni· j=1 M (X|yj ) = µX (yj ) = h X xi nij /n·j i=1 3.4 Varianze condizionate Le varianze condizionate sono le varianze delle distribuzioni Y |xi o X|yj e vengono definite come: Var(Y |xi ) = σY2 (xi ) = k X (yj − µY )2 nij /ni· j=1 2 Var(X|yj ) = σX (yj ) = h X (xi − µX )2 nij /n·j i=1 8 3.5 La scomposizione della varianza Esiste un teorema che recita così: la varianza totale di una certa variabile aleatoria si può suddividere in 2 addendi: la varianza residua e la varianza spiegata. Ovvero: σY2 = σ̄Y2 + σY2∗ in cui σ̄Y2 = Var(µY (X)) = h X (µY (xi ) − µY )2 fi· i=1 è la varianza delle medie condizionate (o varianza spiegata o betweeness), mentre σY2∗ = h X Var(Y |xi ) = i=1 h X k X (yj − µY (xi ))2 fij i=1 j=1 è la media delle varianze condizionate (o varianza residua o within). La dimostrazione sta nel fatto di aggiungere e togliere dalla varianza totale la media condizionale delle xi e poi svolgendo i calcoli si scopre che il doppio prodotto è nullo! Dimostrazione: Partiamo dalla varianza totale per capire poi quali sono le componenti: k X (yj − µY )2 f·j = (yj − µY (xi ) + µY (xi ) − µY )2 f·j = j=1 j=1 = k X k X (yj − µY (xi ))2 f·j + j=1 j=1 {z | k k X X (µY (xi ) − µY )2 f·j + 2 (yj − µY (xi ))(µY (xi ) − µY )f·j I } | j=1 {z II } | {z III } Primo addendo: I) k X (yj − µY (xi ))2 f·j = j=1 k X (yj − µY (xi ))2 j=1 h X fij = i=1 h X k X (yj − µY (xi ))2 fij = σY2∗ i=1 j=1 Secondo addendo: h h X k k X X X (µY (xi ) − µY )2 fi· = σ̄Y2 (µY (xi ) − µY )2 fij = II) (µY (xi ) − µY )2 f·j = j=1 i=1 j=1 i=1 Terzo addendo: III) Si può dimostrare che è pari a 0, moltiplicando e dividendo per fi· , e utilizzando le proprietà della media. 3.6 L’indice di adattamento Esso viene indicato con ηY2 ed esso indica la percentuale di variabilità spiegata dal modello delle medie condizionali. Esso è pari a ηY2 = σ 2∗ σ̄Y2 = 1 − Y2 2 σY σY ed è normalizzato nel senso che vale 0 ≤ ηY2 ≤ 1 9 in cui se l’indice è pari a 0 indica indipendenza in MEDIA e mentre se l’indice è pari 1 vi è dipendenza FUNZIONALE. La differenza tra indipendenza stocastica e in media è la seguente: 1. Indipendenza stocastica : esiste se vi è uguaglianza di frequenza relativa delle variabili condizionate (quindi conserva proprietà simmetriche) 2. Indipendenza in media : esiste se vi è uguaglianza tra le medie delle variabili condizionate Y |X o X|Y (quindi non è simmetrica) Inoltre vale che: Indipendenza stocastica ⇒ Indipendenza in media ma NON è VERO il viceversa!!!!! Quindi, in generale vale che 2 ηX 6= ηY2 tranne se vi sia: 1. indipendenza stocastica 2. perfetta dipendenza funzionale biunivoca 3. uguaglianza tra la distribuzione delle medie condizionate di Y |X, la distribuzione delle medie condizionate di 2 e σY2 . X|Y e uguaglianza tra le varianze marginali σX 4 Indipendenza in media Ora proviamo a ragionare su un’altro concetto che è quello relativo alll’indipendenza in media. Partiamo da una tabella a doppia entrata per capire tramite un esempio: X/Y 5 10 20 ni· 1 0 3 2 5 3 2 0 3 5 n·j 2 3 5 10 Si può dimostrare che in questa tabella non vi sia indipendenza stocastica (dimostrarlo!) Ora calcoliamo, anzichè le distribuzioni, le medie condizionate rispetto alla Y e poi rispetto alla X e otteniamo : µY (x1 ) = 10 · µX (y1 ) = 3 · 2 2 3 5 + 20 · =3 2 5 = 14 µY (x2 ) = 5 · µX (y2 ) = 1 · 3 3 =1 2 5 + 20 · 3 5 = 14 µX (y3 ) = 1 · 2 5 +3· 3 5 = 11 5 Ora calcoliamo le medie marginali rispetto alla Y e poi rispetto alla X: µY = 5 · 2 3 5 + 10 · + 20 · = 14 10 10 10 10 µX = 1 · 5 5 +3· =2 10 10 Da qui si può notare come per la variabile Y si trovi che µY (x1 ) = µY (x2 ) = µY mentre per la variabile X abbiamo che le medie sono tutte diverse. Infatti µX (y1 ) 6= µX (y2 ) 6= µX (y3 ) 6= µX . Ora definiamo che cosa intendiamo per indipendenza in media: Definizione 2: Si dice che la variabile Y (X) ha indipendenza in media se sono tutte uguali le medie condizionali di Y (X) e tutte queste sono pari alla media marginale di Y (X). Quindi deve valere in generale che: µY (x1 ) = µY (x2 ) = . . . = µY (xh ) = µY per l’indipendenza in media della Y oppure µX (y1 ) = µX (y2 ) = . . . = µX (yk ) = µX per l’indipendenza in media della X. Da questa definizione si puo’ capire che l’indipendenza in media non è simmetrica, infatti si parla di indipendenza in media per la Y (o per la X). 4.1 La scomposizione della varianza La varianza della variabile Y si può scomporre in 2 componenti, cioè: σY2 = σ̄Y2 + σY2∗ dove σ̄Y2 è la varianza spiegata, ovvero la varianza delle medie condizionate, mentre σY2∗ è la varianza residua, ovvero la media delle varianze condizionate. Ora soffermiamoci sulla varianza residua, e proviamo a calcolarla. Per calcolarla ci servono innanzitutto le varianze condizionate di Y e otteniamo σY2 (x1 ) = M (Y 2 |x1 ) − µ2Y (x1 ) = 102 · σY2 (x2 ) = M (Y 2 |x2 ) − µ2Y (x2 ) = 52 · 2 5 3 5 + 202 · + 202 · 3 5 2 5 − 142 = 24 − 142 = 54 E ne calcoliamo la media ovvero σY2∗ = M (σY2 (xi ) = 24 · 5 5 + 54 · = 39 10 10 Poi calcoliamo la varianza di Y come σY2 = M (Y 2 ) − µ2Y = 52 · 2 3 5 + 102 · + 202 · − 142 = 39 10 10 10 Si noti come in questo caso abbiamo che M (σY2 (xi )) = σY2 . Questa è la seconda caratteristica che ci permette di dire che Y ha indipendenza in media. Si può dimostrare che in questo esempio che la variabile X ha la proprietà 2∗ 2 che σX < σX . Quindi una seconda definizione di indipendenza in media sarà: 11 Definizione 2(bis): Si dice che la caratteristica Y ha indipendenza in media se e solo se σY2∗ = σY2 4.2 Indice di adattamento L’indice di adattamento per la Y (analogamente viene definito per la X cambiando i pedici) viene definito in questo modo: ηY2 = σ̄Y2 σY2∗ = 1 − σY2 σY2 Dalla definizione 2(bis) abbiamo che se σY2∗ = σY2 allora vale che quindi: ηY2 = 1 − σY2∗ = 1 se vi è indipendenza in media per la Y , σY2 σY2∗ =1−1=0 σY2 Perciò si può scrivere che in generale vale che: Definizione 2(ter): Si dice che la caratteristica Y ha indipendenza in media se e solo se ηY2 = 0 5 Relazione tra indipendenza stocastica e indipendenza in media Esiste una relazione tra indipendenza stocastica e indipendenza in media. Teorema 3: L’indipendenza stocastica implica l’indipendenza in media, ma non il viceversa. Questo lo si può dimostrare nel primo esercizio, come? Ad esempio dimostrando che esiste indipendenza in media per l’esercizio del paragrafo 1! Invece si può dimostrare facilmente che nell’esercizio del paragrafo 2, esiste indipendenza in media per la Y , ma non è vero che vi è indipendenza stocastica. Il teorema 3 può essere riscritto anche attraverso gli indici χ2 e ηY2 cioè Teorema 3(bis): Per l’indipendenza stocastica e l’indipendenza in media valgono le seguenti relazioni: 2 χ2 = 0 ⇒ ηY2 = 0 e ηX = 0 contemporaneamente mentre 2 ηY2 = 0 oppure ηX = 0 ; χ2 = 0 6 La regressione lineare Osserviamo le variabili (xi , yi ) per i = 1, . . . , n ponendo il caso che la frequenza delle osservazioni sia pari ad 1 (questo per farci sveltire i calcoli). Il modello di regressione lineare parte con l’idea che ciò che possa descrivere meglio la dipendenza funzionale dei due fenomeni sia una retta. Quindi ora costruiamo il modello ŷi = a + bxi 12 che descrive la media condizionale di Y |X. Come in tutti i modelli, la media condizionale, espressa dalla retta, ha un errore che, se yi sono i valori osservati, viene espresso da ei = yi − ŷi = yi − a − bxi che viene chiamato residuo. Per stimare poi i parametri del modello si procede come nella regressione in media ovvero si minimizza la media quadratica dei residui, ovvero min e2 = min(y − a − bx)2 e a,b e sta a significare che si risolve il problema di massimizzazione. 6.1 La covarianza Ci serve ancora un ingrediente per capire come si stimino i parametri, ovvero il concetto di covarianza che, in questo caso con frequenza pari ad 1, lo si può scrivere come Cov(X, Y ) = n X n X [(xi − µX )(yi − µY )] n i=1 j=1 P = i xi yi − µX µY n mentre se le frequenze non fossero pari ad 1 si avrà Cov(X, Y ) = h X k h X k X X [(xi − µX )(yi − µY )] · fij = xi yi fij − µX µY i=1 j=1 i=1 j=1 e ricordiamo anche che Var(X ± Y ) = Var(X) + Var(Y ) ± 2Cov(X, Y ) Si può dimostrare infatti, grazie a questa condizione (facendo prima il modulo e poi la radice quadrata di tutto) che: |Cov(X, Y )| ≤ σX σY 6.2 La correlazione lineare E’ un indice che serve ad identificare qual’è la correlazione lineare tra due variabili X ed Y , cercandola di normalizzare. Essa viene espressa con ρ= Cov(X, Y ) σX σY ed ha la proprietà di essere compresa nell’intervallo −1 ≤ ρ ≤ 1 ed essa assume valore pari a 0 se vi è incorrelazione, pari ad 1 se la correlazione è perfettamente lineare e diretta (il coefficiente angolare della retta è positivo) ed è pari a -1 se la correlazione è perfettamente lineare ma inversa (il coefficiente angolare della retta è negativo). 13 6.3 Stima dei parametri Per stimare i parametri bisogna minimizzare lo squarto quadratico medio, ovvero min e2 = min(yi − a − bxi )2 = min f (xi ) e a,b a,b si ottiene che le condizioni di minimizzazione, per una singola osservazione saranno date da ∂f = −2(yi − a − bxi ) = 0 ∂a ∂f = −2(yi − a − bxi )xi = 0 ∂b da cui sommando i termini si ottiene che Pn y − Pn a − Pn bx = 0 i i=1 i=1 i=1 i P P P n n n 2 i=1 xi yi − i=1 axi − i=1 bxi = 0 che mi danno le soluzioni b̂ = Cov(X, Y ) 2 σX â = M (Y ) − b̂M (X) = µY − b̂µX È bene ricordarsi che X può essere qualsiasi funzione degli x quindi se dovessimo studiare per esempio la retta di regressione1 y = a + b log x basta sostituire ad x la trasformazione logaritmica log x e si completano così i calcoli. 6.4 L’indice ρ2 Questo è un indice di bontà di adattamento della regressione lineare ovvero quanto il mio modello (la retta) descrive bene il comportamento dei dati. Quindi diciamo che si può vedere come un indice ηY2 particolare, ovvero l’interpolante qua è per forza di cose lineare. Anche in questo caso, prima di parlare dell’indice ρ2 dobbiamo parlare di varianza totale, varianza residua e varianza totale. Esse seguono, tramite un teorema, questa relazione: 2 σY2 = σSP + σY2 R dove la prima è la varianza totale la seconda è la varianza spiegata e la terza è la varianza totale. Ne segue qui che l’indice di bontà di adattamento lineare è descritto da ρ2 = 2 σSP σY2 R = 1 − σY2 σY2 1 Una particolare trasformazione è ey = abx che può diventare attraverso una trasformazione logaritmica una regressione lineare del tipo y = log a + (log b)x e chiamando α = log a e β = log b si ottiene y = α + βx 14 e vale che 0 ≤ ρ2 ≤ 1 a stare a dire che se ρ2 = 0 allora vi è incorrelazione tra i dati mentre se ρ2 = 1 la dipendenza lineare è massima (ovvero che i dati osservati stanno effettivamente su una retta). 7 Per ricapitolare... Si NOTI bene: 1. L’indice η 2 si riferisce a qualsiasi funzione di regressione (ciò implica che può anche non essere una retta...) 2. L’indice ρ2 si riferisce solo ad una retta di regressione!!! 15