Statistica Sociale e Criminale (12 CFU) A.A. 2015/2016 CdL Sociologia e Criminologia Simone Di Zio Dove siamo… MODULO 2. La Statistica descrittiva 2.1 La rilevazione del dato statistico 2.2 La rappresentazione dei dati statistici 2.3 Le misure di tendenza centrale 2.4 Le misure di variabilità 2.5 Le Misure delle relazioni tra variabili Le Misure delle relazioni tra variabili Data una matrice di dati, è possibile calcolare per ognuna di esse gli indici di tendenza centrale e gli indici di variabilità. Altro aspetto è quando si vuole capire se fra due variabili possano sussistere delle relazioni. Nome Alessandro Alessia Andrea Angelo Carmine Daniele Dario Donatello Eros Federica Francesca Ivan Luca Mattia Mauro π½π π½π π½π Colore occhi Neri Marroni Marroni Azzurri Marroni Neri Marroni Azzurri Marroni Neri Marroni Azzurri Verdi Neri Marroni età 15 12 20 30 35 40 20 22 24 60 65 40 35 38 59 titolo di studio Licenza media Licenza Elem. Diploma Laurea Licenza media Diploma Laurea Laurea Laurea Diploma Licenza media Diploma Diploma Diploma Licenza media Moda Omogeneità Media Varianza Mediana Dispersione La variabile doppia e le sue rappresentazioni Per studiare la “relazione” fra due (o più) variabili bisogna: ο· individuare un possibile legame fra due (o più) variabili. ο· misurare statisticamente l’intensità del legame. La distribuzione doppia di frequenze si rappresenta in una tabella a doppia entrata. Titolo di studio Esempio: Licenza Media Diploma Laurea Totali di colonna Reddito (migliaia di €) Totali 0β’15 15β’30 30β’80 di riga 100 80 60 240 75 105 50 230 10 33 55 98 185 218 165 568 Titolo di studio Distribuzioni Condizionate Licenza Media Diploma Laurea Totali di colonna Reddito (migliaia di €) Totali 0β’15 15β’30 30β’80 di riga 100 80 60 240 75 105 50 230 10 33 55 98 185 218 165 568 Se consideriamo la modalità “diploma” assieme alle modalità della variabile reddito costituiscono la distribuzione del reddito condizionata al titolo di studio diploma. Se estrapoliamo le frequenze della classe di reddito 30 β’ 80 e le uniamo alle modalità della variabile titolo di studio, otteniamo la distribuzione del titolo di studio condizionata alla classe di reddito 30-80. Diploma 75 0-15 105 15-30 50 30-80 Totali 230 30-80 60 Lic. Media 50 Diploma 55 Laurea Totali 165 Dalle distribuzioni marginali e condizionate si possono calcolare tutti gli indici di sintesi e variabilità valide per le distribuzioni semplici di frequenza. Tipologie di relazioni fra variabili Relazione Causa-Effetto Date due variabili π e π, il rapporto causa-effetto, indica che al variare della π varia di conseguenza anche la π. Questa relazione può derivare dalle conoscenze scientifiche. Esempio: secondo una delle leggi di Newton sul moto, quando una forza (π) è applicata a un oggetto, esso accelera (π). La relazione sarà del tipo: all’aumentare di π aumenta π. Dipendenza logica Per i fenomeni sociali non ci sono leggi esatte. Il rapporto causa/effetto non deriva da conoscenze acquisite ma da ragionamenti di tipo logico-deduttivo. Tali legami sono definiti prima dell’osservazione del fenomeno. Tecnicamente si parla di dipendenza logica. Esempio: la spesa per beni di lusso dipende dal reddito. All’aumentare del reddito aumenta anche la spesa per alcune tipologie di beni particolarmente costosi. Se però osserviamo statisticamente un collettivo di famiglie e rileviamo su di esse le due variabili π= reddito e π=spesa per beni di lusso, probabilmente la relazione non è ESATTA. La relazione fra due variabili in un contesto sociale può essere misurata solo in parte. La rimanente parte non spiegata, è legata ad una serie di altre relazioni che possono rimanere completamente ignote. Indipendenza logica Sempre da un punto di vista logico-deduttivo, possiamo affermare che fra due variabili non esiste nessun tipo di relazione causa/effetto. Esempio: prezzo delle arance a Torino ed età media degli abitanti della Cina. In questi casi si parla di indipendenza logica. Indipendenza Statistica Quando due variabili sono logicamente indipendenti ci aspettiamo che siano anche statisticamente indipendenti. In statistica due variabili si dicono indipendenti se la conoscenza delle modalità di una delle due non ci permette di fare ipotesi sulle modalità dell’altra. Analisi della dipendenza La dipendenza logica sottintende una direzione nel legame fra due variabili. Il legame di causa-effetto è quindi unidirezionale. La variabile π è l’antecedente logico della relazione La variabile π è il conseguente logico. Esempio: π = statura, π = peso Possiamo affermare che π dipende da π (relazione di dipendenza logica) Ma non vale il viceversa. πΏ π Analisi della inter-dipendenza Spesso non è possibile definire a priori il senso della relazione, cioè non è noto sapere se da un punto di vista logico π dipende da π oppure π dipende da π. Esempio: π = consumo di birra π = consumo di vino. È probabile che all’aumentare di π aumenti anche π ma non è in genere definibile a priori una direzione nel legame πΏ In questi casi si parla di interdipendenza fra le due variabili. Siamo nel contesto dell’analisi dell’interdipendenza. π MISURE STATISTICHE L’indipendenza può essere verificata o meno. Solo se si esclude l’indipendenza allora si parla di dipendenza o interdipendenza, e a qual punto si pone il problema di misurarne il grado. SI INDIPENDENZA NO STOP SI min Legame Unidirezionale NO DIPENDENZA INTERDIPENDENZA MISURA MISURA Dipendenza Max Perfetta min Interdipend. Max Perfetta Importante: a) indipendenza b) dipendenza perfetta c) interdipendenza perfetta a) Indipendenza Situazione di indipendenza (o connessione nulla). ππ ππ ππ Totale ππ 1 2 4 7 ππ 3 6 12 21 Totale 4 8 16 28 Per verificarla bisogna calcolare le frequenze relative condizionate di una variabile rispetto alle modalità dell’altra. Frequenze relative condizionate Frequenze relative condizionate di π rispetto alle modalità di π di π rispetto alle modalità di π ππ 0.14 ππ 0.29 ππ 0.57 ππ Totale 1.00 ππ Totale 0.14 0.14 0.29 0.29 0.57 0.57 1.00 1.00 ππ 0.25 ππ 0.25 ππ 0.25 ππ Totale 0.25 ππ Totale 0.75 1.00 0.75 1.00 0.75 1.00 0.75 1.00 Le distribuzioni relative condizionate sono tutte uguali. Quindi, due variabili sono indipendenti, o non connesse, se le distribuzioni relative di una variabile rispetto alle modalità dell’altra sono identiche. Quando π è indipendente da π vale anche il viceversa, pertanto l’indipendenza è una relazione bidirezionale. Relazione fra le frequenze assolute marginali Quando due variabili sono indipendenti si verifica che la generica frequenza assoluta (che ricordiamo si indica con πππ ) è uguale a: ππ° β π°π πππ = π΅ Ogni frequenza, posta all’incrocio di una riga e una colonna, equivale al prodotto delle rispettive frequenze marginali ο (totale della riga e totale della colonna) diviso la numerosità del collettivo π. ππ 4β7 ππ 1= 28 πβ7 ππ 2= ππ 16 β 7 ππ 4= 28 Totale 7 Totale ππ 4 β 21 4 3= 28 8 β 21 8 6= 28 16 β 21 16 12 = 28 21 28 ππ ππ ππ Totale ππ 1 2 4 7 ππ 3 6 12 21 Totale 4 8 16 28 b) Dipendenza perfetta Il caso opposto all’indipendenza (o connessione nulla) è la dipendenza perfetta. Esempio di una situazione in cui Y dipende perfettamente da X. ππ 15 ππ 0 ππ 0 ππ 0 ππ Totale 15 ππ 0 25 0 14 39 ππ Totale 0 15 0 25 17 17 0 14 17 71 Ad ogni modalità della variabile πΏ corrisponde una, e solo una, modalità della variabile π Quindi, per ogni riga della tabella è presente una sola frequenza diversa da zero, ma non è vero il viceversa. Conoscendo una modalità di π è possibile individuare con esattezza una modalità di π, ma non vale il contrario. È il comportamento di π a determinare quello di π, cioè π dipende da πΏ, e non viceversa. c) Interdipendenza perfetta Quando ad ogni modalità di π corrisponde una e una sola modalità di π e viceversa, allora si ha interdipendenza perfetta. Ciò è possibile solo se le variabili π e π hanno lo stesso numero di modalità. ππ 11 ππ 0 ππ 0 ππ Totale 11 ππ 0 34 0 34 ππ Totale 0 11 0 34 28 28 28 73 Per l’analisi di queste relazioni fra coppie di variabili, dobbiamo sempre tener conto della tipologia delle variabili contenute nella distribuzione doppia. X Y Nominale Ordinale Intervalli Nominale Ordinale Intervalli a d g b e h c f i Frequenze percentuali di una distribuzione doppia Le frequenze %uali evidenziano in prima approssimazione eventuali relazioni. Dati i totali di riga (ππ° ), i totali di colonna (π°π ) e il totale generale (π), possiamo aver tre diversi tipi di percentuali, che hanno tre significati diversi. Percentuali di riga Dividere ogni frequenza per il totale di riga ππ° moltiplicando per 100. I valori si interpretano quindi per riga: ad esempio, fra i possessori di licenza media, il 41.7% percepisce un reddito fino a 15 mila euro, il 33.3% un reddito fra 15 e 30 mila e il 25% un reddito fino a 80 mila. Titolo Licenza M. Diploma Laurea 0β’15 41.7% 32.6% 10.2% Reddito 15β’30 33.3% 45.7% 33.7% 30β’80 Totali di riga 25.0% 100.0% 21.7% 100.0% 56.1% 100.0% Percentuali di colonna Dividere ogni frequenza per il totale di colonna π°π moltiplicando per 100. I valori si interpretano ora per colonna: ad esempio, fra coloro che percepiscono un reddito fino a 15 mila euro annui, il 54.1% possiede la licenza media, il 40.5% il diploma e solo il 5.4% è laureato. Titolo Licenza M. Diploma Laurea Totali colon. Reddito 0β’15 15β’30 30β’80 54.1% 36.7% 36.4% 40.5% 48.2% 30.3% 5.4% 15.1% 33.3% 100.0% 100.0% 100.0% Percentuali sul totale Dividere ogni frequenza nij per il totale generale N e moltiplicando per 100. Questo tipo di tabella non è molto utile per esplorare la relazione fra le due variabili. Titolo Lic. M. Diploma Laurea Totali 0β’15 17.6% 13.2% 1.8% 32.6% 15β’30 30β’80 Totali 14.1% 10.6% 42.3% 18.5% 8.8% 40.5% 5.8% 9.7% 17.3% 38.4% 29.0% 100.0% Quali frequenze utilizzare? A seconda delle relazioni che si vogliono studiare, bisogna ragionare su % di riga o di colonna. ο· Se si suppone che la variabile posta in colonna influenzi (come dipendenza logica) la variabile in riga allora bisogna utilizzare le percentuali di colonna. ο· Se si suppone che la variabile di riga influenzi la variabile di colonna (come nel nostro esempio) allora bisogna ragionare sulle percentuali di riga. Titolo Licenza M. Diploma Laurea 0β’15 41.7% 32.6% 10.2% Reddito 15β’30 33.3% 45.7% 33.7% 30β’80 25.0% 21.7% 56.1% Totali di riga 100.0% 100.0% 100.0% Nel nostro caso diciamo che la maggiore quota di chi ha la licenza media percepisce un reddito basso (41.7%), la maggioranza relativa dei diplomati un reddito medio (45.7%) e la maggior parte dei laureati un redito alto (56.1%). Questo evidenzia un certo grado di dipendenza fra titolo di studio e reddito. Relazioni fra variabili qualitative Siamo nel caso delle variabili qualitative. Almeno una delle due variabili è qualitativa. X Y Nominale Ordinale Intervalli Nominale Ordinale Intervalli Connessione Connessione Connessione Connessione Connessione Connessione Connessione Connessione Regressione e correlazione Si parla in tal casso di CONNESSIONE La connessione (o dipendenza) si misura con opportuni indici. La costruzione e l’interpretazione delle frequenze percentuali vale solo come descrizione dei dati, utile per avere una prima idea delle possibili relazioni fra le variabili. Ora bisogna quantificare tale relazione. Connessione Nell’ambito delle variabili qualitative, la dipendenza prende il nome tecnico di connessione o associazione. La frequenza che si ha nel caso particolare di indipendenza: ′ πππ ππ° β π°π = π Si chiama appunto frequenza teorica di indipendenza e la indichiamo con π′ππ A partire da una qualunque distribuzione doppia di frequenze è sempre possibile ′ calcolare una tabella contenente le frequenze teoriche πππ , tabella che rappresenta il caso (appunto teorico) di indipendenza fra le due variabili. Tabella osservata e tabella teorica Tabella osservate delle frequenze πππ ′ πππ ππ° β π°π = π Tabella delle frequenze teoriche, che rappresentano la situazione di indipendenza ′ πππ Sono due tabelle aventi le stesse dimensioni e gli stessi totali di riga e colonna. Esempio numerico SITUAZIONE OSSERVATA X - Giudizio sul divorzio Favorevole Contrario Non so Totali Y - Stato civile Celibe Coniugato Altro Nubile 100 80 60 75 105 50 10 33 55 185 218 165 SITUAZIONE TEORICA DI INDIPENDENZA Totali 240 230 98 568 X - Giudizio sul divorzio Favorevole Contrario Non so Totali Y - Stato civile Celibe Coniugato Altro Nubile 78.169 92.113 69.718 74.912 88.275 66.813 31.919 37.613 28.468 185 218 165 Totali 240 230 98 568 Distanza fra due tabelle Se potessimo calcolare una distanza fra le due tabelle avremmo un indicatore di quanto la situazione reale si discosta da quella teorica di indipendenza. Se la distanza è 0: fra le due variabili c’è indipendenza Se la distanza è > 0: fra le due variabili c’è dipendenza (o connessione) All’aumentare della distanza significa che la tabella osservata si allontana sempre di più dalla situazione di indipendenza, per cui vuol dire che la connessione aumenta. Tab. Tab. Osserv. Teorica Tab. Osserv. Tab. Osserv. Indipendenza o connessione nulla Tab. Teorica Dipendenza bassa Tab. Teorica Dipendenza alta Distanza fra due tabelle Per costruire una distanza partiamo dalla semplice differenza fra i valori corrispondenti delle due tabelle. Questa grandezza si chiama contingenza: ′ πππ = πππ − πππ Ne risulta una terza tabella, che viene chiamata tabella delle contingenze. Esempio numerico TABELLA OSSERVATA Favorevole Contrario Non so Totali TABELLA TEORICA Cel-Nub Coniugato Altro 100 80 60 75 105 50 10 33 55 185 218 165 Totali 240 230 98 568 Favorevole Contrario Non so Totali Cel-Nub Coniugato Altro Totali 78.169 92.113 69.718 240 74.912 88.275 66.813 230 31.919 37.613 28.468 98 185 218 165 568 TABELLA DELLE CONTINGENZE X - Giudizio sul divorzio Favorevole Contrario Non so Totali Cel-Nub Coniugato Altro Totali 21.831 -12.113 -9.718 0 0.088 16.725 -16.813 0 -21.919 -4.613 26.532 0 0 0 0 0 Chi-quadrato ο£ 2 Ma non è ancora una distanza, perché ci serve un numero e non una tabella. Sommando tutti i rapporti fra contingenze al quadrato e frequenze teoriche otteniamo una distanza fra le due tabelle. Indice di associazione Chi-quadrato di Pearson: π π 2 π ππ ο£2 = ∑ ∑ ′ πππ π=1 π=1 ο· Se la tabella teorica coincide con quella osservata, πππ = 0 quindi ο£2 = 0. ο· In tutti gli altri casi ο£2 > 0 ο· Assume valori tanto più grandi quanto più le frequenze osservate si discostano da quelle teoriche. Esempio numerico: π π ο£ = ∑∑ 2 π=1 π=1 1 - TABELLA OSSERVATA 78.169 92.113 69.718 240 74.912 88.275 66.813 230 31.919 37.613 28.468 98 185 218 165 568 240 230 98 568 3 - TABELLA DELLE CONTINGENZE πππ = πππ − π′ππ 21.831 0.088 -21.919 0 -12.113 -9.718 16.725 -16.813 -4.613 26.532 0 ′ πππ 2 - TABELLA TEORICA π′ππ πππ 100 80 60 75 105 50 10 33 55 185 218 165 2 πππ 0 0 0 0 0 4 - TABELLA DEI TERMINI DELLA SOMMATORIA ππππ ⁄π′ππ 6.097 0.001 15.051 1.593 1.355 3.169 4.231 0.566 24.727 La somma di tutti questi valori restituisce il valore dell’indice di associazione Chiquadrato: ο£π = ππ. πππ Livello della dipendenza Fra le due variabili c’è dipendenza perché ο£2 > 0 Non possiamo ancora dire alcunché sull’intensità dell’associazione. Questo indice dipende dalla numerosità del collettivo: aumenta all’aumentare di π. Un indice che non dipende da π è l’indice di contingenza quadratica media: ο2 = ο£2 π Nel nostro esempio: 56.7889 ο = = 0.0999 568 2 Il valore massimo che può assumere ο2 è il più piccolo fra il numero delle righe meno uno (π − 1) e il numero delle colonne meno uno (π − 1), cioè: maxο2 = πππ[(π − 1), (π − 1)] Nel nostro esempio: π = 3 e π = 3. ( π − 1) = 2 e ( π − 1 ) = 2 il minimo tra 2 e 2 è 2, Per cui: maxο2 = 2 Un indice relativo di connessione che varia fra 0 e 1, si ottiene rapportando l’indice di contingenza quadratico medio al suo valore massimo: οͺ2 = ο2 maxο2 Indice di contingenza quadratica media relativa. Nel nostro esempio: 0.0999 = = 0.049 2 Interpretazione: fra stato civile e l’essere o meno favorevole al divorzio non c’è indipendenza, ma comunque vi è un grado di associazione molto basso. οͺ2 Le relazioni fra variabili quantitative: La Regressione X Y Nominale Ordinale Intervalli Nominale Ordinale Intervalli Connessione Connessione Connessione Connessione Connessione Connessione Connessione Connessione Regressione e correlazione ο· Se si ci sono informazioni a priori che permettono di stabilire quale delle due variabili è l’antecedente logico, allora si utilizza la regressione. ο· Quando invece non è possibile sapere quale variabile dipende dall’altra, si utilizza la correlazione. Esempio: Peso Grafico a Dispersione Statura/Peso 95 90 85 80 75 70 65 60 55 50 45 145 150 155 160 165 170 175 180 185 Statura La regressione presuppone una relazione di dipendenza logica fra le due variabili, cioè è un legame con una direzione: da π verso ο π Concordanza Dall’esame visivo del grafico si nota una concordanza, o relazione positiva, fra statura e peso. A valori bassi della statura corrispondono valori bassi del peso e a valori alti di statura corrispondono valori alti del peso. Discordanza Il caso opposto si ha quando i punti si posizionano attorno a una linea con pendenza negativa, cioè parte dall’alto verso sinistra e scende in basso verso destra. Questo è il caso di regressione negativa, e significa che fra le due variabili vi è discordanza. 95 90 85 80 75 70 65 60 55 50 45 145 155 165 175 185 195 In entrambi i casi ci troviamo in una situazione particolare: la regressione lineare Regressione lineare e non lineare La relazione che lega due variabili quantitative può assumere anche altre forme, ad esempio curvilinee. Importante conseguenza: se con gli strumenti della regressione lineare fra due variabili π e π non emerge nessuna relazione, non significa assenza di qualunque relazione ma solo assenza di relazione lineare. Quindi, non si possono escludere altri tipi di relazioni. 75 70 65 60 55 50 45 145 155 165 175 185 195 Il modello statistico Con l’analisi di regressione si cerca un modello statistico che può essere utilizzato a scopi descrittivi, interpretativi e previsivi. Si parla pertanto anche di modello di regressione. Un modello è la rappresentazione semplificata di alcuni aspetti della realtà. Esso contiene solo ciò che interessa per il raggiungimento degli scopi, mentre tutto il resto non conta. Anche un modello statistico è una rappresentazione semplificata, ma auspicabilmente soddisfacente, della realtà osservabile. In genere è definito da una legge che lega le due variabili π e π, ovvero una funzione: Modello matematico Il modello matematico che lega due variabili si ha quando π è una funzione di π, cioè ad ogni valore di π corrisponde uno e un solo valore di π. π = π (π ) Se stabiliamo che la π è una retta, significa che fra tutti i possibili modelli matematici scegliamo quello lineare: π = π + ππ Gli elementi π e π sono due parametri. Quando nella realtà trattiamo un caso specifico partendo dai dati osservati, i due parametri assumeranno un valore numerico: π = 3.5 + 2π Modello Matematico: 3 step importanti Il Modello, che esprime una relazione esatta fra le due variabili Specificazione del modello, data una teoria scelgo un modello, ad esempio il modello lineare Stima dei parametri π = π (π ) π = π + ππ π = 3.5 + 2π Aspetti grafici Graficamente il modello lineare è rappresentato da una retta su un piano cartesiano. 300 9 8 250 7 6 200 5 150 4 3 100 2 50 1 0 0 0 0.5 1 1.5 π = 3.5 + 2 β π 2 0 100 200 300 400 500 600 π = 0.4536 β π Il parametro π è l’intercetta. Il parametro π è la pendenza della retta, ed è chiamato coefficiente angolare. Questo parametro esprime la variazione che subisce la π all’aumentare di una unità della π. Nell’esempio a sinistra, al varare di 1 unità di π la π varia di 2 unità. RICORDARE QUESTO ASPETTO QUANDO SI DOVRA’ INTERPRETARE Pendenza della retta ο· Caso π > π: la retta ha pendenza positiva, e tra la π e la π vi è una relazione lineare di concordanza. Al crescere di π anche π aumenta. Nel grafico la retta “sale” andando verso destra; ο· Caso π < π: la retta ha pendenza negativa, e tra la π e la π vi è una relazione lineare di discordanza. Al crescere di π la π diminuisce. Nel grafico la retta “scende” andando verso destra; ο· Caso π = π: la retta non ha pendenza, quindi è parallela all’asse delle ascisse. Tra π e π non c’è nessuna relazione lineare. Al crescere di π la π rimane costante. Nel grafico la retta è orizzontale. Retta con pendenza positiva CONCORDANZA Retta con pendenza nulla Retta con pendenza negativa DISCORDANZA 4 6 4 3.9 5.5 3.5 3.8 3.7 5 3 3.6 3.5 4.5 2.5 3.4 4 2 3.3 3.2 3.5 1.5 3.1 3 3 0 0.2 0.4 0.6 π>π 0.8 1 1 0 0.2 0.4 0.6 π=π 0.8 1 0 0.2 0.4 0.6 π<π 0.8 1 Le relazioni statistiche e il modello di regressione lineare Un modello di tipo lineare che lega reddito (variabile π) e consumi (variabile π) può spiegare solo in parte il complesso di relazioni che si cela dietro queste due variabili. Esempio: Spesa media per beni alimentari 160 140 120 100 80 60 40 20 0 0 10 20 30 40 50 60 Reddito famigliare 70 80 90 100 Non c’è una relazione esatta che possa rappresentare un modello matematico. Però, il grafico mostra mediamente un aumento della spesa all’aumentare del reddito Quindi c’è una relazione crescente fra reddito e consumo, relazione che non può essere di tipo matematico ma è di tipo statistico. Relazione statistica Una relazione fra una variabile π (variabile esplicativa) e una variabile π (variabile risposta) del tipo: π = π (π) + π. Rispetto al modello matematico, il modello statistico ha una componente in più, cioè epsilon (π). La π(π₯ ) esprime la parte del fenomeno π spiegata dalla variabile π, mentre la componente aggiuntiva π esprime il contributo di tutti gli altri fattori non osservati (numero di componenti, livello culturale, eccetera). La variabile πΊ racchiude tutta la nostra ignoranza rispetto alla vera relazione fra π e π, quindi una componente casuale che ingloba tutto ciò che non conosciamo. Dalla relazione generica a un modello specifico: la retta Passiamo dalla legge generica π (π) al modello della retta. Si ha il modello di regressione lineare semplice: ππ = π + πππ + ππ per ogni osservazione π = 1,2, … , π. La regressione lineare consiste nella determinazione (tecnicamente stima) dei due parametri π e π del modello lineare, partendo dai dati osservati, in modo da esprimere statisticamente la relazione funzionale tra π e π. Metodo di stima ππ = π + πππ + ππ Abbiamo bisogno di un metodo di stima dei due coefficienti π e π. Intuitivamente vogliamo un metodo per cui la retta stimata pasi il più “vicino” possibile ai punti osservati. Il metodo comunemente utilizzato in questi casi è il metodo dei minimi quadrati. Le stime dei parametri e i Valori Teorici ππ = π + πππ + ππ Dato questo modello e dato un metodo di stima, otteniamo due valori numerici (detti stime) per i due parametri del modello. Ad esempio: πΜ = 4.5 πΜ = 3.3 Da cui ottengo la retta stimata π¦Μπ = 4.5 + 3.3π₯π Il valore π¦Μπ è detto valore teorico di π, per distinguerlo da quelli osservati che invece si indicano con π¦π . π₯π π¦π 1 2 3 4 5 7 12 15 17 21 Μπ π 7.8 11.1 14.4 17.7 21 π¦Μ1 = 4.5 + 3.3π₯1 = 4.5 + 3.3 × 1 = π. π π¦Μ2 = 4.5 + 3.3π₯2 = 4.5 + 3.3 × 2 = ππ. ππ π¦Μ3 = 4.5 + 3.3π₯3 = 4.5 + 3.3 × 3 = ππ. π π¦Μ4 = 4.5 + 3.3π₯4 = 4.5 + 3.3 × 4 = ππ. π π¦Μ5 = 4.5 + 3.3π₯5 = 4.5 + 3.3 × 5 = ππ Modello Statistico: 3 step importanti Il Modello, che esprime una relazione statistica di dipendenza logica π = π (π ) + π Specificazione del modello, Nella regressione lineare scegliamo la retta ππ = π + πππ + ππ Stima dei parametri Tramite il metodo dei Minimi Quadrati π¦Μπ = 4.5 + 3.3π₯π RESIDUI Si chiama residuo i-esimo, indicato con πΜπ , la differenza fra valore osservato iesimo (cioè π¦π ) e il corrispondente valore teorico (cioè π¦Μπ ): πΜπ = π¦π − π¦Μπ π₯π π¦π 1 2 3 4 5 7 12 15 17 21 Μπ π 7.8 11.1 14.4 17.7 21 πΜπ -0.8 0.9 0.6 -0.7 0 Nel modello di regressione lineare i due parametri da stimare si chiamano πΜ ο coefficiente di regressione πΜ ο intercetta Il coefficiente di regressione lineare πΜ La stima dei minimi quadrati del coefficiente di regressione lineare è data dalla seguente espressione: ∑π Μ ) π=1(π₯π − π₯Μ )(π¦π − π¦ Μ π= 2 ∑π π=1(π₯π − π₯Μ ) Dove π₯Μ e π¦Μ sono, rispettivamente, le medie di π e π. ο· Il numeratore si chiama anche codevianza fra π e π ο· Il denominatore è la devianza della πΏ. Quindi la formula equivale a: πππππ£(π, π) πΜ = πππ£(π) L’intercetta πΜ La stima dei minimi quadrati dell’intercetta della retta di regressione è: πΜ = π¦Μ − πΜπ₯Μ Esempio numerico π Unità 1 2 3 4 5 6 7 8 9 ππ Statura ππ Peso (in cm) (in Kg) 150 153 160 167 172 178 179 181 183 π₯Μ = 169.22 55 58 70 69 73 80 78 83 90 π¦Μ = 72.89 (ππ − π ( ππ − π Μ ) Μ ) (ππ − π Μ )(ππ − π Μ ) (ππ − π Μ ) π Scarti di π Scarti di π Prodotti Scarti di x al fra gli scarti quadrato dalla media dalla media -19.22 -17.89 343.85 369.41 -16.22 -14.89 241.52 263.09 -9.22 -2.89 26.65 85.01 -2.22 -3.89 8.64 4.93 2.78 0.11 0.31 7.73 8.78 7.11 62.43 77.09 9.78 5.11 49.98 95.65 11.78 10.11 119.10 138.77 13.78 17.11 235.78 189.89 1088.22 1231.56 Data la relazione logica fra peso e statura, consideriamo la statura variabile indipendente π e il peso variabile dipendente π. π Unità 1 2 3 4 5 6 7 8 9 ππ Statura ππ Peso (in cm) (in Kg) 150 153 160 167 172 178 179 181 183 π₯Μ = 169.22 55 58 70 69 73 80 78 83 90 π¦Μ = 72.89 (ππ − π ( ππ − π Μ ) Μ ) (ππ − π Μ )(ππ − π Μ ) (ππ − π Μ ) π Scarti di π Scarti di π Prodotti Scarti di x al fra gli scarti quadrato dalla media dalla media -19.22 -17.89 343.85 369.41 -16.22 -14.89 241.52 263.09 -9.22 -2.89 26.65 85.01 -2.22 -3.89 8.64 4.93 2.78 0.11 0.31 7.73 8.78 7.11 62.43 77.09 9.78 5.11 49.98 95.65 11.78 10.11 119.10 138.77 13.78 17.11 235.78 189.89 1088.22 1231.56 La prima cosa da fare è calcolare le medie aritmetiche delle due variabili π₯Μ = 169.22 π¦Μ = 72.89. π Unità 1 2 3 4 5 6 7 8 9 ππ Statura ππ Peso (in cm) (in Kg) 150 153 160 167 172 178 179 181 183 π₯Μ = 169.22 55 58 70 69 73 80 78 83 90 π¦Μ = 72.89 (ππ − π ( ππ − π Μ ) Μ ) (ππ − π Μ )(ππ − π Μ ) (ππ − π Μ ) π Scarti di π Scarti di π Prodotti Scarti di x al fra gli scarti quadrato dalla media dalla media 343.85 369.41 -19.22 -17.89 241.52 263.09 -16.22 -14.89 26.65 85.01 -9.22 -2.89 8.64 4.93 -2.22 -3.89 0.31 7.73 2.78 0.11 62.43 77.09 8.78 7.11 49.98 95.65 9.78 5.11 119.10 138.77 11.78 10.11 235.78 189.89 13.78 17.11 1088.22 1231.56 Con tali medie è possibile calcolare gli scarti dei valori delle due variabili dalle rispettive medie ∑π Μ ) π=1(π₯π − π₯Μ )(π¦π − π¦ Μ π= 2 ∑π π=1(π₯π − π₯Μ ) π Unità 1 2 3 4 5 6 7 8 9 ππ Statura ππ Peso (in cm) (in Kg) 150 153 160 167 172 178 179 181 183 π₯Μ = 169.22 55 58 70 69 73 80 78 83 90 π¦Μ = 72.89 (ππ − π ( ππ − π Μ ) Μ ) (ππ − π Μ )(ππ − π Μ ) (ππ − π Μ ) π Scarti di π Scarti di π Prodotti Scarti di x al fra gli scarti quadrato dalla media dalla media -19.22 -17.89 369.41 343.85 -16.22 -14.89 263.09 241.52 -9.22 -2.89 85.01 26.65 -2.22 -3.89 4.93 8.64 2.78 0.11 7.73 0.31 8.78 7.11 77.09 62.43 9.78 5.11 95.65 49.98 11.78 10.11 138.77 119.10 13.78 17.11 189.89 235.78 1088.22 1231.56 Poi si fa il prodotto degli scarti Di cui serve anche la somma ∑π Μ ) π=1(π₯π − π₯Μ )(π¦π − π¦ Μ π= 2 ∑π π=1(π₯π − π₯Μ ) π Unità 1 2 3 4 5 6 7 8 9 ππ Statura ππ Peso (in cm) (in Kg) 150 153 160 167 172 178 179 181 183 π₯Μ = 169.22 55 58 70 69 73 80 78 83 90 π¦Μ = 72.89 (ππ − π ( ππ − π Μ ) Μ ) (ππ − π Μ )(ππ − π Μ ) (ππ − π Μ ) π Scarti di π Scarti di π Prodotti Scarti di x al fra gli scarti quadrato dalla media dalla media -19.22 -17.89 343.85 369.41 -16.22 -14.89 241.52 263.09 -9.22 -2.89 26.65 85.01 -2.22 -3.89 8.64 4.93 2.78 0.11 0.31 7.73 8.78 7.11 62.43 77.09 9.78 5.11 49.98 95.65 11.78 10.11 119.10 138.77 13.78 17.11 235.78 189.89 1088.22 1231.56 Infine elevando al quadrato gli scarti di πΏ dalla sua media si ottengono i valori dell’ultima colonna che sono i termini per il calcolo della devianza di π. ∑π Μ ) π=1(π₯π − π₯Μ )(π¦π − π¦ Μ π= 2 ∑π π=1(π₯π − π₯Μ ) π Unità 1 2 3 4 5 6 7 8 9 ππ Statura ππ Peso (in cm) (in Kg) 150 153 160 167 172 178 179 181 183 π₯Μ = 169.22 55 58 70 69 73 80 78 83 90 π¦Μ = 72.89 (ππ − π ( ππ − π Μ ) Μ ) (ππ − π Μ )(ππ − π Μ ) (ππ − π Μ ) π Scarti di π Scarti di π Prodotti Scarti di x al fra gli scarti quadrato dalla media dalla media -19.22 -17.89 343.85 369.41 -16.22 -14.89 241.52 263.09 -9.22 -2.89 26.65 85.01 -2.22 -3.89 8.64 4.93 2.78 0.11 0.31 7.73 8.78 7.11 62.43 77.09 9.78 5.11 49.98 95.65 11.78 10.11 119.10 138.77 13.78 17.11 235.78 189.89 1088.22 1231.56 Il coefficiente di regressione lineare risulta essere: πΜ = πππππ£(π, π) 1088.22 = = 0.8836 ( ) πππ£ π 1231.56 L’intercetta πΜ = π¦Μ − πΜπ₯Μ Possiamo ora ricavare la stima dei minimi quadrati dell’intercetta: π¦Μ = 72.89 − πΜ = 0.8836 π₯Μ = 169.22 πΜ = 72.89 − 0.8836 β 169.22 = −76.635 La retta stimata dei minimi quadrati risulta pertanto essere: π¦Μπ = −76.635 + 0.8836π₯π Retta stimata e rappresentazione grafica π¦Μπ = −76.635 + 0.8836π₯π 95 y = 0.8836x - 76.639 90 85 Y - Peso 80 75 70 65 60 55 50 145 150 155 160 165 X - Statura 170 175 180 185 Interpretazione dei risultati πΜ = −76.635 L’intercetta negativa, in questo esempio, non ha un significato pratico: dice il peso che presumibilmente avrebbe una persona con statura nulla. πΜ = 0.8836 Il coefficiente angolare, invece, ha il seguente significato: Il valore 0.8836 indica che all’aumentare di un cm di statura, il peso aumenta in media di 883.6 grammi. L’aumento “in media” significa che gli scostamenti da questa legge sono dovuti ad altri fattori, non noti o non osservabili. Calcolo dei valori teorici di π Utilizzando l’equazione della retta stimata π¦Μπ = −76.635 + 0.8836π₯π si calcolano i valori teorici di π, cioè π¦Μπ , quindi i residui (πΜπ ), e i residui al quadrato (πΜπ2 ). ππ 150 153 160 167 172 178 179 181 183 ππ 55 58 70 69 73 80 78 83 90 Μπ Μπ π πΜπ = ππ − π πΜππ 55.91 -0.91 0.819 58.56 -0.56 0.309 64.74 5.26 27.657 70.93 -1.93 3.710 75.34 -2.34 5.495 80.65 -0.65 0.417 81.53 -3.53 12.457 83.30 -0.30 0.088 85.06 4.94 24.366 75.318 PREVISIONI Il modello di regressione lineare può esser utilizzato a fini previsivi. Supponiamo di voler prevedere il peso di un individuo con una statura di 190 cm. Si “inserisce” questo valore nell’equazione della retta stimata sostituendolo alla π₯ π¦Μπ = −76.635 + 0.8836π₯π −76.635 + 0.8836 β 190 = ππ. ππ Quindi, si prevede che un individuo alto 1 metro e 90 pesi (in media) 91.25 kg. L’indice di determinazione La retta dei minimi quadrati è la migliore fra tutte le possibili rette. Ma questo non significa che la retta in sé sia il modello migliore per rappresentare i dati. Infatti la relazione fra π e π può anche essere curvilinea o di altro tipo. Per capire quanto la retta sia adatta a rappresentare i dati osservati c’è bisogno di un opportuno indice, che è l’indice di determinazione. È utilizzato come misura della bontà di adattamento della retta ai dati osservati: π ( 2 ∑ ) π¦ Μ − π¦ Μ π π=1 π 2 = π ∑π=1(π¦π − π¦Μ )2 Questo indice è un numero puro che varia da 0 a 1. ο· Più è vicino a 1 e migliore è la bontà di adattamento della retta ai dati ο· Più è vicino a 0, peggiore è l’adattamento. . R² = 0.9891 . R² = 0.7088 . R² = 0.319 . R² = 0.0041 Esempio di calcolo ππ Statura ππ Peso (in cm) (in Kg) (ππ − π Μ ) Valori Scarti di π teorici di π dalla media 55.91 -17.89 58.56 -14.89 64.74 -2.89 70.93 -3.89 75.34 0.11 80.65 7.11 81.53 5.11 83.30 10.11 85.06 17.11 π¦Μπ 150 55 153 58 160 70 167 69 172 73 178 80 179 78 181 83 183 90 π₯Μ = 169.22 π¦Μ = 72.89 (π¦π − π¦Μ )2 320.01 221.68 8.35 15.12 0.01 50.57 26.12 102.23 292.79 1036.89 (π Μπ − π Μ ) Μ Scarti di π dalla media -16.98 -14.33 -8.15 -1.96 2.46 7.76 8.64 10.41 12.17 π¦Μπ = −76.635 + 0.8836π₯π 2 ∑π Μ π −π¦Μ )2 π=1(π¦ π = ∑π Μ )2 π=1(π¦π −π¦ 961.54 = 1036.89 = 0.927 (π¦Μπ − π¦Μ )2 288.45 205.44 66.39 3.85 6.03 60.17 74.66 108.32 148.23 961.54 Le relazioni fra variabili quantitative: La Correlazione X Y Nominale Ordinale Intervalli Nominale Ordinale Intervalli Connessione Connessione Connessione Connessione Connessione Connessione Connessione Connessione Regressione e correlazione ο· Se si ci sono informazioni a priori che permettono di stabilire quale delle due variabili è l’antecedente logico, allora si utilizza la regressione. ο· Quando invece non è possibile sapere quale variabile dipende dall’altra, si utilizza la correlazione. La Correlazione Se non si può stabilire quale delle due variabili sia l’antecedente logico, si ricorre al coefficiente di correlazione, che misura il grado di concordanza o discordanza fra due variabili quantitative senza presumere un verso nella relazione. ο· Concordanza fra due variabili: a valori alti di una variabile si associano valori alti dell’altra variabile ο· Discordanza: a valori alti di una variabile si associano valori bassi dell’atra. Un indice che misura la concordanza o discordanza tra due variabili quantitative è la covarianza, che si indica con il simbolo πππ . Media dei prodotti degli scostamenti delle variabili X e Y dalle rispettive medie: π πππ 1 = ∑(π₯π − π₯Μ ) (π¦π − π¦Μ ) π π=1 Concordanza e discordanza ο· La covarianza è positiva (πππ > 0) se prevalgono i prodotti di scostamenti concordi, cioè entrami positivi o entrambi negativi. ο· La covarianza è negativa (πππ < 0) se prevalgono i prodotti di scostamenti discordi, cioè a quelli positivi di X si associano quelli negativi di Y e viceversa. Ecco perché la covarianza concordanza/discordanza. può essere assunta come indice di Come accade spesso con gli indici, il problema è che la covarianza è legata all’unità di misura delle due variabili. Un indice relativo Con ππ e ππ , rispettivamente, si indicano le deviazioni standard di π e π: ∑π (π₯π − π₯Μ )2 π=1 ππ = √ π Queste due grandezze sono sempre positive ∑π (π¦π − π¦Μ )2 π=1 ππ = √ π Da cui si ricava il coefficiente di correlazione lineare di Bravais-Pearson: πππ π= ππ ππ πππ π= ππ ππ Dato che al denominatore vi sono quantità sempre positive il segno di questo indice dipende solo ed esclusivamente dal segno della covarianza (numeratore). Pertanto: ο· se c’è concordanza fra le due variabili si ha π>0 ο· in caso di discordanza l’indice è negativo π<0. Il coefficiente di correlazione assume valori nel seguente intervallo: −1 ≤ π ≤ 1 I vari casi per i valori di π ο· π = −π: discordanza perfetta. Fra π e π sussiste un perfetto legame lineare. I punti del diagramma a dispersione sono perfettamente allineati, lungo una retta decrescente; ο· π < π: discordanza. Il grado di discordanza dipende dal valore assunto da r. I punti del diagramma a dispersione non sono allineati, ma seguono un andamento decrescente; ο· π = π: indifferenza. In questo caso o c’è indipendenza lineare fra π e π, oppure sussiste una relazione di altro tipo; ο· π > π: concordanza. Il grado di concordanza dipende dal valore assunto da r. I punti del diagramma a dispersione non sono allineati perfettamente, e seguono un andamento crescente; ο· π = +π: concordanza perfetta. Fra π e π sussiste un perfetto legame lineare. I punti del diagramma a dispersione sono perfettamente allineati, lungo una linea crescente. Esempio numerico π 1 2 3 4 5 6 7 ππ 42.5 42.7 43.0 44.1 44.4 44.6 45.5 306.8 ππ 18.3 18.9 20.0 20.2 19.5 20.3 22.0 139.2 ( ππ − π Μ ) -1.329 -1.129 -0.829 0.271 0.571 0.771 1.671 ( ππ − π Μ ) -1.586 -0.986 0.114 0.314 -0.386 0.414 2.114 ( ππ − π Μ )(ππ − π Μ ) 2.107 1.112 -0.095 0.085 -0.220 0.320 3.534 6.843 Per prima cosa calcoliamo le due medie, che sono: π₯Μ = πππ.π 7 = 43.83; π¦Μ = πππ.π 7 = 19.89 ( ππ − π Μ ) π 1.765 1.274 0.687 0.074 0.327 0.595 2.794 7.514 ( ππ − π Μ )π 2.514 0.972 0.013 0.099 0.149 0.172 4.470 8.389 π 1 2 3 4 5 6 7 ππ 42.5 42.7 43.0 44.1 44.4 44.6 45.5 306.8 ( ππ − π Μ ) -1.329 -1.129 -0.829 0.271 0.571 0.771 1.671 ππ 18.3 18.9 20.0 20.2 19.5 20.3 22.0 139.2 ( ππ − π Μ ) -1.586 -0.986 0.114 0.314 -0.386 0.414 2.114 ( ππ − π Μ )(ππ − π Μ ) 2.107 1.112 -0.095 0.085 -0.220 0.320 3.534 6.843 ( ππ − π Μ ) π 1.765 1.274 0.687 0.074 0.327 0.595 2.794 7.514 ( ππ − π Μ )π 2.514 0.972 0.013 0.099 0.149 0.172 4.470 8.389 Poi calcoliamo le deviazioni standard, sfruttando i totali delle ultime due colonne: ππ = √ ππ = √ 2 ∑π π=1(π₯π −π₯Μ ) π 7.514 7 = π. πππ ππ = √ ππ = √ ∑π Μ )2 π=1(π¦π −π¦ π 8.389 7 = π. πππ π 1 2 3 4 5 6 7 ππ 42.5 42.7 43.0 44.1 44.4 44.6 45.5 306.8 ππ 18.3 18.9 20.0 20.2 19.5 20.3 22.0 139.2 ( ππ − π Μ ) -1.329 -1.129 -0.829 0.271 0.571 0.771 1.671 ( ππ − π Μ ) -1.586 -0.986 0.114 0.314 -0.386 0.414 2.114 ( ππ − π Μ )(ππ − π Μ ) 2.107 1.112 -0.095 0.085 -0.220 0.320 3.534 6.843 ( ππ − π Μ ) π 1.765 1.274 0.687 0.074 0.327 0.595 2.794 7.514 ( ππ − π Μ )π 2.514 0.972 0.013 0.099 0.149 0.172 4.470 8.389 Ricordando che la codevianza (nell’esempio è 6.843) è il numeratore della covarianza, quest’ultima l’otteniamo facilmente con il seguente rapporto: π πππ = 1 ∑(π₯π − π₯Μ ) (π¦π − π¦Μ ) π π=1 πππ 6.843 = = 0.978 7 A questo punto possiamo applicare la formula per il coefficiente di correlazione: πππ 0.978 π= = = 0.862 ππ ππ 1.036 β 1.095 Interpretazione “La correlazione fra i tempi della bicicletta e quelli della corsa è positiva ed è anche molto alta. Un valore di 0.86 è molto vicino al massimo dell’indice, che sappiamo essere 1. Quindi, a tempi alti nella corsa corrispondono tempi alti anche nella prova di bicicletta e viceversa. In altri termini, i bravi nella bicicletta sono anche bravi nella corsa e i meno bravi in una specialità sono meno bravi anche nell’altra.” Importante puntualizzazione Una correlazione fra due variabili non significa causazione, cioè che una variabile è conseguenza dell’altra, ma soltanto che le variabili sono altamente correlate. Le cause della correlazione vanno spiegate in altri ambiti che non sono propri della statistica. A volte si è in presenza di correlazione spuria. Se ad esempio dovessimo rilevare una correlazione fra il prezzo del pesce a Palermo e i voti in statistica di un gruppo di studenti dell’università G. d’Annunzio di Chieti-Pescara, si tratta di una correlazione spuria, non potendo esserci in nessun modo un legame logico fra queste due variabili. π = π. π