Elementi di Statistica descrittiva Parte III 1 Elementi di Statistica descrittiva – Parte III Paaina 1 Indice di asimmetria (1/2) Indice di forma che esprime il grado di asimmetria (skewness) di una distribuzione. Siano u1, u2,…,un osservazioni numeriche. Chiamiamo indice di asimmetria l’espressione: 1 ca = n n i =1 ui − x 3 σ Questo indice misura la tendenza di una distribuzione di valori ad assumere valori in modo asimmetrico rispetto alla media. Questo indice è chiamato anche indice beta di Fisher, oltre ad esso sono stati proposti altri indici per valutare l’asimmetria. 2 La tipologia della distribuzione è visualizzata bene da un istogramma. Da un’ispezione visiva dell’istogramma si ha infatti una sensazione immediata riguardo al fatto che la distribuzione sia più o meno raccolta/dispersa oppure simmetrica/asimmetrica. Gli indici di forma (di cui il coefficiente di asimmetria è l’ultimo che prendiamo in esame) hanno lo scopo di esprimere una valutazione oggettiva di tali caratteristiche. Elementi di Statistica descrittiva – Parte III Paaina 2 Indice di asimmetria (2/2) 1 ca = n n i =1 ui − x 3 σ PROPRIETÀ: • Se ca > 0 la distribuzione ha una coda verso destra • Se ca < 0 la distribuzione ha una coda verso sinistra • Se ca = 0 la distribuzione è simmetrica Questa espressione dell’indice fornisce una valutazione distorta, più sensibile quanto più piccolo è il campione. Per eliminare questa distorsione si usa l’indice di asimmetria corretto: c aCORR n = ( n − 1)( n − 2 ) n i =1 ui − x s 3 dove s è la deviazione standard campionaria. 3 La funzione ASIMMETRIA di Excel fornisce l’indice di asimmetria corretto. La relazione fra indice corretto e indice è: caCORR = ca(n(n-1))1/2/(n-2) Elementi di Statistica descrittiva – Parte III Paaina 3 Esempio di indice di asimmetria dati 0 fa 8 0 .5 1 18 22 1 .5 21 2 2 .5 13 10 3 4 3 .5 4 5 4 4 .5 2 5 5 .5 1 2 6 1 6 .5 7 1 1 7 .5 2 ca = 1.1 positiva, istogramma con coda a destra 4 Il risultato illustrato è l’indice senza correzione. Elementi di Statistica descrittiva – Parte III Paaina 4 Sintesi dei dati Correlazione fra variabili 5 Correlazione fra variabili Analisi di tipo comparativo: indagine per stabilire se esiste una connessione tra due caratteri rilevati su ogni unità statistica. Effettuiamo lo studio di correlazione fra due variabili statistiche utilizzando un diagramma di dispersione (scatter plot). Dall’analisi si può concludere che: •esiste una correlazione diretta; •esiste una correlazione inversa; •non esiste alcuna correlazione. 6 Esempi di analisi di correlazione possono riguardare: Correlazione fra redditi e consumi di una popolazione; Correlazione fra statura e peso; Correlazione fra la cilindrata del motore e consumo di carburante in una popolazione di automobili; Correlazione fra colore degli occhi e colore dei capelli. L’ultimo esempio si riferisce a caratteristiche non numeriche. Nel seguito consideriamo il solo caso di caratteristiche numeriche. Si tratta in ogni caso di analisi effettuate su una doppia serie di dati ricavati da una popolazione (o da un campione): da ogni unità statistica otteniamo due valori, uno di tipo x, uno di tipo y. Elementi di Statistica descrittiva – Parte III Paaina 6 Esempio A Si considerino 2 variabili statistiche di tipo numerico relative al peso in Kg e all’altezza in m di un campione di 20 persone. Il peso è stato attribuito ad una variabile x, l’altezza è stata attribuita ad una variabile y ottenendo le due seguenti serie di valori: x1 =64 x2 = 70 x3 =65 x4 =64 x5 = 58 x6 =55 x7 =61 x8 = 48 x9 = 71 x10 = 79 x11 = 63 x12 = 69 x13 = 64 x14 = 58 x15 = 54 x16 = 66 x17 =64 x18 = 72 x19 =52 x20 =60 y1 =1.70 y2 =1.73 y3 =1.67 y4 =1.65 y5 =1.60 y6 =1.58 y7 =1.67 y8 =1.61 y9 =1.72 y10 =1.74 y11 =1.68 y12 =1.70 y13 =1.66 y14 =1.61 y15 =1.63 y16 =1.65 y17 =1.68 y18 =1.72 y19 =1.60 y20 =1.63 7 Elementi di Statistica descrittiva – Parte III Paaina 7 Esempio A: diagramma di dispersione Ponendo in ascissa la variabile x (altezza) e in ordinata la variabile y (peso), si ottiene il diagramma (“nuvola di punti”): Baricentro della nuvola di punti y x Si nota una relazione tra le due variabili: i punti di minore ascissa hanno (in genere) anche minore ordinata. Esiste una correlazione diretta 8 Correlazione diretta significa: “al crescere della variabile x la variabile y – di massima – cresce”. Il baricentro è il punto del piano xy che ha per coordinate le medie delle due distribuzioni. Elementi di Statistica descrittiva – Parte III Paaina 8 Esempio B Si considerino 2 variabili statistiche, relative a un campione di 10 unità, che forniscono la seguente tabella: x 1 = 100 x 2 = 110 x 3 = 120 x 4 = 130 x 5 = 140 y 1 = 89 y 2 = 85 y 3 = 78 y 4 = 74 y 5 = 70 x 6 = 150 x 7 = 160 x 8 = 170 x 9 = 180 x 10 = 190 y 6 = 66 y 7 = 61 y 8 = 54 y 9 = 51 y 10 = 45 9 Elementi di Statistica descrittiva – Parte III Paaina 9 Esempio B: diagramma di dispersione Ponendo in ascissa la variabile x e in ordinata la variabile y, si ottiene: Si nota una relazione tra le due variabili: i punti di minore ascissa hanno maggiore ordinata ordinata. Esiste una correlazione inversa 10 Correlazione inversa significa: “al crescere della variabile x la variabile y – di massima – diminuisce”. Rispetto al caso A notiamo inoltre che qui la correlazione è molto più stretta: non esiste ad esempio alcun punto che, al crescere dell’ascissa, diminuisca la propria ordinata. Elementi di Statistica descrittiva – Parte III Paaina 10 Esempio C: diagramma dispersione Un diagramma di dispersione del tipo: non suggerisce alcuna relazione tra le variabili. Non esiste correlazione. correlazione 11 Elementi di Statistica descrittiva – Parte III Paaina 11 Indicatori di correlazione Sono espressioni legate alla correlazione tra due variabili. Covarianza: σ xy 1 = n n i =1 ( x i − x )( y i − y ) La covarianza è la media dei prodotti degli scostamenti dalla media. Si dimostra che la covarianza può essere espressa come: σ xy 1 =( n n i =1 x i y i ) − x ⋅ y = xy − x ⋅y Coefficiente di correlazione: ρ xy = σ xy σ xσ y Il coefficiente di correlazione è il rapporto fra l’indice di covarianza e il prodotto delle deviazioni standard di x e y. 12 Elementi di Statistica descrittiva – Parte III Paaina 12 Proprietà degli indicatori di correlazione 1. σxy può essere positiva o negativa 2. ρxy ha lo stesso segno di σxy 3. ρxy è un numero puro (quantità adimensionale). • • • Se σxy >0 x e y sono dette direttamente correlate Se σxy <0 x e y sono dette inversamente correlate Se σxy =0 x e y sono dette non correlate 13 Elementi di Statistica descrittiva – Parte III Paaina 13 Osservazioni sugli indicatori di correlazione Si dimostra che: • σ xy ≤ σ x σ y → ρ xy≤1 → -1≤ ≤ ρ xy ≤1 • ρ xy= ±1 ⇔ esistono due costanti a, b tali che yi= a +b xi (i=1,2,…,n) • In particolare ρxy =1 allora b>0, se ρxy = -1 allora b<0 Di conseguenza: • Se ρ xy =1 tra le variabili esiste correlazione diretta completa: completa tutti i punti sono disposti su una retta e tra le due variabili c’è una relazione funzionale lineare per cui yi= a+bxi con b>0. • Se ρ xy = -1 tra le variabili esiste correlazione inversa completa: completa tutti i punti sono disposti su una retta e tra le due variabili c’è una relazione funzionale lineare per cui yi= a+bxi con b<0. • Se ρ xy = 0 le variabili sono non correlate; correlate • Se ρ xy ≅ 0 fra le variabili esiste scarsa correlazione; correlazione • Se ρ xy ≅ 1 fra le variabili c’è forte correlazione lineare diretta; diretta • Se ρ xy ≅ -1 fra le variabili c’è forte correlazione lineare inversa. inversa 14 Elementi di Statistica descrittiva – Parte III Paaina 14 Retta di regressione È la rappresentazione grafica di una possibile relazione lineare fra le due variabili. Date n coppie di valori osservati (x1,y1),(x2,y2)…,(xn,yn), si vuole determinare l’equazione y=a+bx di una retta che passi “il più possibile vicino” ai punti (xi,yi). a = INTERCETTA sull’asse y; b = PENDENZA (coeff. angolare della retta). y Retta di regressione tgα = PENDENZA x INTERCETTA 15 Le funzioni INTERCETTA e PENDENZA di Excel forniscono direttamente l’intercetta e la pendenza. NB: queste due funzioni richiedono come 1° parametro la tabella delle y (variabile dipendente) e come 2° parametro la tabella delle x (variabile indipendente). Ad esempio: INTERCETTA(D8:D34;C8:C34) calcola l’intercetta sull’asse y della retta di regressione che approssima una nuvola di punti aventi i valori x contenuti nelle celle C8:C34 e i valori y contenuti nelle celle D8:D34, similmente il coefficiente angolare della retta è dato da PENDENZA(D8:D34;C8:C34). Si deve porre attenzione a introdurre i parametri della funzione nell’ordine corretto. In Excel la nuvola di punti viene generata mediante il comando (dalla barra dei menu) Inserisci-Grafico… e scegliendo il tipo “Dispers. (X,Y)”. Una volta generata la nuvola di punti è possibile sovrapporvi la retta di regressione selezionando il grafico generato e inserendo il comando Grafico-Aggiungi linea di tendenza… Elementi di Statistica descrittiva – Parte III Paaina 15 Determinazione della retta di regressione (1/2) a e b vengono determinati attraverso il metodo dei minimi quadrati, ossia in modo da rendere minima la somma degli scarti elevati al quadrato, quindi l’espressione: n S (a , b ) = i =1 ( y i − ( a + bx i )) 2 S (a , b ) = ( y 1 − a − bx 1 ) + ( y 2 − a − bx 2 )2 + ... + ( y n − a − bx n )2 2 Derivate parziali: Sa (a,b) = −2(y1 − a − bx1) − 2(y2 − a − bx2 ) + ...− 2(yn − a − bxn ) Sb (a,b) = −2x1(y1 − a − bx1) − 2x2(y2 − a − bx2 ) − ...− 2xn (yn − a − bxn ) n Sa (a,b) = −2 (yi − a − bxi ) i =1 n Sb (a,b) = −2 xi (yi − a − bxi ) i =1 16 Gli scarti presi in considerazione sono le differenze fra il generico valore yi della variabile indipendente e il corrispondente valore che l’ordinata della retta di regressione assume per x=xi. Queste differenze sono poi elevate al quadrato in modo da ottenere valori tutti positivi evitando così che scarti uguali in valore assoluto ma di segno opposto si neutralizzino. Scambiando fra di loro le variabili (ossia assumendo alternativamente una oppure l’altra come variabile indipendente x) si ottengono in genere due diverse rette di regressione. Elementi di Statistica descrittiva – Parte III Paaina 16 Determinazione della retta di regressione (2/2) Uguagliando a zero le derivate parziali si ottiene il sistema: n i =1 n i =1 (yi − a − bxi ) = 0 xi (yi − a − bxi ) = 0 le cui soluzioni risultano essere: a=y − b= σ xy σ x2 σ xy x σ x2 In corrispondenza di tali valori la funzione S(a,b) ha un minimo. 17 L’annullamento delle due derivate parziali fornisce a rigore solo un punto di stazionarietà (punto critico) della funzione. Tuttavia, dato che la funzione S(a,b) ha solo questo punto critico, non è mai negativa e può assumere valori positivi comunque grandi, si conclude che tale punto è un minimo. Il coefficiente b (PENDENZA) può assumere valori positivi o negativi comunque grandi in valore assoluto (il valore assoluto può tendere a ∞ per σ2X→0), pertanto la retta di regressione può assumere qualunque inclinazione nel piano. Il segno di b è lo stesso segno della covarianza. Esaminando la struttura di a e di b si vede che la retta di regressione passa per il baricentro della nuvola di punti. Elementi di Statistica descrittiva – Parte III Paaina 17 Osservazioni sul metodo dei minimi quadrati Con il metodo dei minimi quadrati è possibile determinare altri tipi di curve, oltre la retta, che interpretino l’andamento del fenomeno osservato. Ad esempio: 1. Si osserva che i valori rilevati si dispongono lungo una linea di tipo parabolico; o più in generale: 2. Si nota che tra le due variabili c’è un legame di potenza y=xn (si visualizza facilmente utilizzando un diagramma a scala logaritmica sull’asse delle y, l’andamento risulta lineare con pendenze proporzionali alla potenza) 3. … Conseguenze: Si utilizza nella ricerca di minimizzazione di un funzionale la curva approssimante più opportuna. 18 In Excel è possibile sovrapporre a una nuvola di punti invece che una retta di regressione una curva più complessa (ad esempio una polinomiale di grado dato) e inserendo il comando Grafico-Aggiungi linea di tendenza… e quindi selezionando l’appropriato tipo di curva dal menu che viene presentato (cartella Tipo). Elementi di Statistica descrittiva – Parte III Paaina 18 Esempio A: retta di regressione Tenendo presente il diagramma di dispersione dell’esempio A, e tenendo conto che ρ ≅ 0.89, costruiamo la retta di regressione: Se ne osserva la significatività sia in termini di aderenza alla nuvola di punti, sia attraverso il coefficiente angolare positivo (correlazione diretta) 19 Questo esempio è stato generato con Excel. Dopo avere richiesto grafico della nuvola di punti si è dato il comando Grafico-Aggiungi linea di tendenza…, selezionato il tipo Lineare (cartella Tipo), e infine selezionato Visualizza l’equazione sul grafico (cartella Opzioni). In tal modo sul grafico appaiono immediatamente visualizzati i due valori dell’intercetta a (-168,18) e del coefficiente angolare b (139,05). Per avere i valori più precisi (ad esempio per utilizzarli in calcoli ulteriori) occorrono le due funzioni INTERCETTA e PENDENZA. Elementi di Statistica descrittiva – Parte III Paaina 19 Esempio B: retta di regressione Tenendo presente il diagramma di dispersione dell’esempio B, e tenendo conto che ρ ≅ -0.99, costruiamo la retta di regressione: Se ne osserva la significatività sia in termini di aderenza alla nuvola di punti, sia attraverso il coefficiente angolare negativo (correlazione inversa) 20 Anche questo esempio è stato generato con Excel, con le stesse modalità del precedente Elementi di Statistica descrittiva – Parte III Paaina 20