05/10/2016 ANALISI DEI DATI PER IL MARKETING 2016 Marco Riani [email protected] http://www.riani.it Misura della relazione tra coppie di variabili • Matrice di correlazione quantitative) (variabili • Matrice di cograduazione (ranking) Associazione (variabili qualitative, nominali o ordinali con poche categorie) CAP. IV 1 05/10/2016 Formulazioni alternative di domande qualitative • Nella scelta d’un punto vendita quali aspetti consideri importanti? • Risposte aperte (max tre caratteristiche) • ….. ….. ….. • Pregi: scoperta di aspetti nuovi, il rispondente non è vincolato; è utile nelle indagini preliminari • Difetti: necessità di codifica a posteriori, categorie simili da raggruppare. Continua 1 • Nella scelta d’un punto vendita quali sono per te gli aspetti più importanti? • • (barrare al max tre risposte) (variante: una sola risposta) • • • • • • • Convenienza prezzi Ampiezza dell’assortimento Vicinanza a casa Comodità parcheggio Cortesia del personale Offerte promozionali …… □ □ □ □ □ □ 2 05/10/2016 Continua 2 (formulazione alternativa) • Nella scelta d’un punto vendita quali aspetti ritieni importanti? • Convenienza prezzi sì □ 1 no □ 2 • Ampiezza dell’assortimento sì □ 1 no □ 2 • Vicinanza a casa sì □ 1 no □ 2 • Comodità parcheggio sì □ 1 no □ 2 • Cortesia del personale sì □ 1 no □ 2 • Offerte promozionali sì □ 1 no □ 2 • …… Continua 3 (scala ordinale di Likert) • Nella scelta d’un punto vendita quale importanza attribuisci ai seguenti aspetti? • Convenienza prezzi • Pochissima □1 moltissima □ 5 poca □2 media □3 molta □4 • Ampiezza dell’assortimento • Pochissima □1 moltissima □ 5 poca □2 media □3 molta □4 …… 3 05/10/2016 Continua 4 (scala da 1 a 10) • Su una scala da 1 a 10 quale importanza attribuisci ai seguenti aspetti nella scelta d’un punto vendita? • Convenienza prezzi • □1 □2 □3 □4 □5 □6 □7 □8 □9 □10 • Ampiezza dell’assortimento • □1 □2 □3 □4 □5 □6 □7 □8 □9 □10 …… Indici di associazione per tabelle 22 La tabella 22 è generata da variabili dicotomiche (binarie) o da variabili (qualitative o quantitative) ricondotte a due sole modalità. L’associazione tra le variabili è definita in funzione delle frequenze riportate nella tabella (frequenze di cella o casella). 4 05/10/2016 Tabella 2 2 A e B 2 prodotti (items) del «paniere» A/B Acquistato Non acquistato Tot. Acquistato n11 n12 n1 Non acquistato n21 n22 n2 Tot. n1 n2 n n11 = numero di transazioni in cui A e B sono acquistati insieme n = numero totale di transazioni A e B 2 pagine web (visitate / non visitate) Tabella di contingenza 22 1 grado di libertà: se si mantengono costanti le distribuzioni marginali basta fissare una sola frequenza in una qualunque cella affinché le altre tre siano determinate in modo univoco y y1 y2 Tot x1 n11 n12 n1. x2 n21 n22 n2. Tot n.1 n.2 n x 5 05/10/2016 Definizione: Indipendenza • Teorema della probabilità composta per eventi indipendenti • Due variabili dicotomiche X ed Y si dicono indipendenti, con riferimento alle n unità statistiche analizzate, se e solo se: y1 y2 Tot x1 n11 n12 n1. = distribuzione x2 n21 n22 n2. condizionata Tot n.1 n.2 n Implicazioni dell’indipendenza Cioè 6 05/10/2016 Interpretazione In caso di indipendenza, la modalità assunta da X è irrilevante rispetto alla modalità assunta da Y. In tale circostanza, la proporzione di unità statistiche che presentano la categoria x1 di X risulta la medesima in entrambe le classi di Y. Esempio • X = ricordo della pubblicità • Y = acquisto del prodotto • Tabella delle frequenze teoriche in caso di indipendenza: • (275 ×129)/723 = 49.1 y sì no Tot 87 188 275 no 42 406 448 Tot 129 594 723 sì no Tot sì no Tot 49,1 225,9 275 79,9 368,1 448 129 594 723 x sì 7 05/10/2016 Associazione positiva Consideriamo le modalità di maggior rilievo per l’analisi: in questo caso sono date dalla presenza dei fenomeni (modalità “sì”). Se si verifica che: (frequenza teorica) si dice che le variabili mostrano associazione positiva (sono associate positivamente). Nell’esempio si ha n11> n*11 per cui vi è associazione positiva tra il ricordo della pubblicità e l’acquisto del prodotto. Associazione negativa Se si verifica che: si dice che le variabili mostrano associazione negativa (sono associate negativamente) 8 05/10/2016 Osservazioni • L’associazione si misura con riferimento alle frequenze teoriche in caso di indipendenza • Se i fenomeni dicotomici non sono del tipo presenza / assenza, la scelta delle modalità di riferimento è arbitraria. Esercizio • Implementare il calcolo delle frequenze teoriche in Excel 9 05/10/2016 Definizione: statistica 2 (chi quadrato) Si dice statistica di Pearson, e si indica con 2 la seguente quantità: 2 0 ed è funzione crescente dell’associazione 2 = 0 se i fenomeni sono indipendenti E’ una misura globale della “discrepanza” tra le frequenze osservate e le frequenze teoriche nell’ipotesi di indipendenza. Definizione: statistica (phi) Poiché 2 dipende da n, ed in particolare tende a crescere al divergere di n, si introduce una misura relativa, che assume valore nell’intervallo [-1, +1]: ove il simbolo ± significa che alla radice quadrata è attribuito il segno della differenza (n11n22 – n21n12) 10 05/10/2016 Associazione assoluta sì no Tot sì n11 0 n1. no 0 n22 Tot n.1 n.2 sì no Tot sì 0 n12 n1. n2. no n21 0 n2. n Tot n.1 n.2 n = +1 = -1 Proprietà di • E’ funzione anche delle frequenze marginali • = -1 se e solo se n11 = n22 = 0 • = +1 se e solo se n12 = n21 = 0 • Nel caso di variabili del tipo presenzaassenza, si ha = +1 solo se tutte le unità statistiche che possiedono X possiedono anche Y e, viceversa, tutte quelle che non presentano X non presentano neanche Y. Si parla di associazione assoluta 11 05/10/2016 Esempio • X = ricordo pubblicità • Y = acquisto prodotto sì no Tot sì 87 188 275. no 42 406 448 Tot 129 594 723 sì no Tot sì no Tot 49,1 225,9 275 79,9 368,1 448 129 594 723 Osservazioni • Inconvenienti degli indici precedenti • X2 dipende da n • dipende dalle distribuzioni marginali 12 05/10/2016 Misura alternativa di associazione in tabelle 2x2 Rapporto dei prodotti incrociati (cross product ratio) L’indice dipende solo dalle frequenze di cella • = 0 se n11=0 o n22=0, (convenzione) • = + se n12=0 o n21=0 • = 1 se le variabili sono indipendenti = 1 se le variabili sono indipendenti y1 y2 Tot x1 n11 n12 n1. x2 n21 n22 n2. Tot n.1 n.2 n 13 05/10/2016 Proprietà del Cross Product Ratio 1.E’ invariante se si inverte l’ordine delle righe e delle colonne 2.E’ invariante se si moltiplicano per delle costanti le frequenze di riga e di colonna 3.Se > 1 si ha associazione positiva o diretta Esempio X = ricordo pubblicità Y = acquisto prodotto sì no Tot sì no Tot sì no 87 188 42 406 129 594 Tot 275. 448 723 sì Tot 0.38 0.62 1.00 no 0.120 0.260 0.058 0.562 0.178 0.822 RAPPORTO DI RAPPORTI: Il rapporto tra acquirenti e non acquirenti è 0,462 per coloro che ricordano la pubblicità e 0,103 per coloro che non la ricordano (è 4,48 volte più alto per coloro che ricordano) 14 05/10/2016 Indice normalizzato del rapporto dei prodotti incrociati Assume valori nell’intervallo [-1, +1] Risulta pari a 0 se le variabili sono indipendenti ed è simmetrico rispetto allo 0 Proprietà dell’indice Q • Q = +1 se n12 = 0 oppure n21 = 0 • Q = -1 se n11 = 0 oppure n22 = 0 In questi due casi l’associazione è completa, cioè è la massima associazione che si può verificare dati i totali marginali. 15 05/10/2016 Indice U • Altro indice normalizzato tra [-1 1] • Nel file di Excel Theta_and_Q.xlsx si esplora la relazione tra U, Q e Esempio X = ricordo pubblicità Y = acquisto prodotto sì no Tot sì 87 188 275. no 42 406 448 Tot 129 594 723 16 05/10/2016 Esempio X = sesso, Y = iscrizione società sportiva n*11 = ? 2 = ? =? =? Q=? M F Tot sì 35 18 53 no 37 70 107 Tot 72 88 160 ASSOCIAZIONE COMPLETA M F Tot sì 53 0 53 no 19 88 107 Tot 72 88 160 Esempio X = sesso, Y = iscrizione società sportiva n*11 = 23,85 2 = 14,17 = 0,298 = 3,68 Q = 0,57 M F Tot sì 35 18 53 no 37 70 107 Tot 72 88 160 ASSOCIAZIONE COMPLETA M F Tot sì 53 0 53 no 19 88 107 Tot 72 88 160 17 05/10/2016 Tabella di contingenza rc (pag. 109 e seg.) gradi di libertà: (r-1) (c-1) y X Variabili indipendenti se: y1 ... yc Tot x1 n11 n1c n1. ... xr Tot nr1 n.1 nrc nr. n.c n Tabella di contingenza rc (pag. 109 e seg.) gradi di libertà: (r-1) (c-1) Variabili indipendenti se: y X y1 ... yc Tot x1 n11 n1c n1. ... xr Tot nr1 n.1 nrc nr. n.c n 18 05/10/2016 Definizione: Indipendenza In caso di indipendenza, la modalità assunta da X non influenza le modalità assunte da Y. Due variabili nominali X ed Y si dicono indipendenti, con riferimento alle n unità statistiche analizzate, se e solo se, per ogni i e j: Tabella • Occorre generalizzare la statistica di Pearson per tabelle 2 x 2 al caso di tabella rxc 19 05/10/2016 Indice X2 (CHI QUADRATO) di Pearson Contingenze Φ compreso tra -1 e +1 in tabella 2x2 (attribuzione convenzionale del segno in base a: n11 n22 – n12 n21) • non normalizzato in tabella rxc (può risultare >1) Indice di Cramer V = 1 nell’ipotesi di massima dipendenza tra i caratteri (per qualsiasi valore di r e c) V = Φ se r =2 e/o c =2 20 05/10/2016 Esercizio • Il file SONDAGGIOUSA è una parte di un’indagine multiscopo • Per ciascun intervistato sono riportate informazioni anagrafiche, sulle tendenze politiche e il pensiero a riguardo di alcune tematiche di stretta attualità. Gli studiosi sono interessati ad indagare su relazioni intercorrenti tra le variabili • Obiettivo 1 È sostenibile la tesi secondo la quale la tendenza politica (var. partito) influenzi in qualche modo il parere riguardo alla pena capitale (var. penacap)? Esercizio • Costuire la tabella di contingenza tra le variabili partito e penacap • Mostrare tramite un grafico a barre sovrapposto (in pila al 100% l’andamento dei favorevoli e contrari al progredire della tendenza politica) • Calcolare il X2 e l’indice di Cramer per misurare l’associazione tra le due variabili 21 05/10/2016 Soluzione SPSS : Grafici|A barre Soluzione obiettivo 3 22 05/10/2016 Barre in pila al 100% Con i grafici interattivi a barre 23 05/10/2016 Output Excel: tabella pivot Grafico associato alla tabella pivot 24 05/10/2016 Concetto di dipendenza e interdipendenza • Dipendenza: • Esiste un antecedente (logico o temporale) ed un conseguente • Interdipendenza: • Le due variabili sono sullo stesso piano Massima interdipendenza e dipendenza (p. 116) y1 y2 Tot x1 n11 0 n1. x2 0 n22 n2. x3 0 n32 n3. Tot n.1 n.2 n Max dipendenza di Y da X y1 y2 y3 Tot 0 n12 0 n1. 0 n2. n33 n3. Tot n.1 n.2 n.3 n x1 x2 n21. 0 x3 0 0 Max interdipendenza La dipendenza di Y da X (r c) si definisce massima quando vi è una sola frequenza non nulla per ogni riga 25 05/10/2016 Dipendenza ed Interdipendenza La dipendenza di Y da X (r c) si definisce massima quando vi è una sola frequenza non nulla per ogni riga La dipendenza di X da Y (c r) si definisce massima quando vi è una sola frequenza non nulla per ogni colonna Si ha massima interdipendenza quando nij = ni. = n.j (c = r) INFERENZA SULLA ASSOCIAZIONE (pag. 148 e seg.) Obiettivo dell’inferenza: Estendere la conoscenza da un campione di osservazioni ad una popolazione (universo) più ampia è un processo che ha a che fare con l’estrazione della conoscenza (in una fase confermativa, non esplorativa) ASSUNZIONE: le n osservazioni bivariate presentate nella tabella di contingenza costituiscono un campione casuale 26 05/10/2016 • Chi quadrato: X2 > 0 come si interpreta? Test di significatività dell’associazione (calcolo p-value) Se X2 è significativo: Misura dell’entità della relazione: • indici di associazione (simmetrici) ottenuti da X2 •Il più utile è V di Cramer varia in [0, 1] Distribuzione di 2 sotto H0 IPOTESI DI INDIPENDENZA STOCASTICA Stima di nij : = variabile aleatoria Se H0 è vera 27 05/10/2016 Variabile aleatoria 2 Y = (Z1)2 + (Z2)2 + ... + (Zg)2 ove Zi ~ N(0,1) i = 1, ..., g Y ~ 2(g) 1. E (2 (g)) = g 2.VAR (2 (g)) = 2g 3. f (2 (g)) è asimmetrica, ma se g → la 2(g) standardizzata →NORMALE Verifica di ipotesi sulla 2 TAVOLA SUL TESTO (Ultima) f(2) g=4 2 2 28 05/10/2016 DECISIONE • • • • Calcolo del valore di χ2 campionario H0: indipendenza; H1: associazione (significativa) g = (r-1)(c-1) Scelta di α (livello di significatività = prob. di errore di prima specie) • Lettura sulla tavola del valore χ2 α • RIFIUTO H0 SE: • χ2 camp > χ2 α • • Con SPSS: RIFIUTO H0 se: p-value <α La probabilità di errore è minore di Esercizio • Nell’esercizio sull’associazione tra partitato e penacap (file SONDUSA) calcolare il p-value e commentare la significatività della relazione. 29 05/10/2016 Osservazioni conclusive • La verifica della significatività dell’associazione è una condizione preliminare al calcolo degli indici • Se non vi è associazione significativa (almeno al 10%) non si può rifiutare l’ipotesi di indipendenza stocastica • Quindi la misura dell’associazione è priva di senso • Nel caso di un campione piccolo, è opportuno aumentare la numerosità (se possibile!) per verificare se permane la non significatività dell’associazione Osservazioni • Gli indici visti finora sono poco interpretabili. • Ad es V=0.3 significa che la relazione è pari al 30% del valore massimo possibile • Obiettivo = trovare indici di associazione di chiaro significato operativo e un modello probabilistico sottostante 30 05/10/2016 Esempio: previsione del settore conoscendo la laurea X / Y Economia Giurisprud. Lettere Totale Azienda Privata 150 80 30 260 Azienda pubblica 80 250 50 380 Libero Profes 20 30 0 50 Non occup Tot 50 300 140 500 120 200 310 1000 Indici con interpretazione operativa (pag. 117 e seg.) Previsione della modalità di Y • 1) In assenza d’informazioni • 2) Conoscendo la modalità di X 31 05/10/2016 Esempio: previsione del settore conoscendo la laurea X / Azienda Privata Y Economia Giurisprud. Lettere Totale 150 80 30 260 Azienda pubblica 80 250 50 380 Libero Profes Non occup 20 30 0 50 Tot 50 300 140 500 120 200 310 1000 Probabilità di errore nel caso 1): 1-380/1000 =0.62 Probabilità di errore nel caso 2): 1-(150+250+120)/1000=0.48 Probabilità di errore • Probabilità di errore nel caso 1): • Probabilità di errore nel caso 2): Proportional Reduction Error (PRE): 32 05/10/2016 Probabilità di errore Proportional Reduction Error (PRE): ove ni(max) = max(j) nij n.(max) = max(j) n.j Proportional Reduction Error Indice di Goodman-Kruskal (p. 119) y|x = 0 Indipendenza y|x = 1 Dipendenza Predittiva (max dipendenza di Y da X) PROPRIETA’ • Invarianza per permutazione di righe o colonne • Asimmetria: y|x x|y 33 05/10/2016 Esempio Economia Giurisprud. Lettere Totale Azienda Privata Azienda pubblica Libero Profes Non occup Tot 150 80 30 260 80 250 50 380 20 30 0 50 50 140 120 310 300 500 200 1000 Commento al valore di lambda • Riduzione della probabilità di errore nella previsione del settore conoscendo la laurea del 22.58% 34 05/10/2016 INDICI BASATI SULLA RIDUZIONE PROPORZIONALE DELL’ETEROGENEITÀ Eterogeneità e Variabilità • Variabilità differenze tra i valori di un fenomeno quantitativo • Eterogeneità differenze tra le modalità di un fenomeno qualitativo Frequenze ni Frequenze fi x1 n1 f1 x2 n2 f2 … … … xi ni fi … … xp Tot np n fp 1 35 05/10/2016 Casi estremi • Perfetta omogeneità (eterogenità nulla) = il fenomeno presenta una sola modalità con frequenza non nulla. Esempio Frequenze ni Frequenze fi x1 0 0 x2 n 1 … … … xi 0 0 … … xp 0 0 Tot n 1 Casi estremi • Massima eterogeneità = le p modalità del fenomeno qualitativo presentano uguale frequenza. Frequenze ni Frequenze fi x1 n/p 1/p x2 n/p 1/p … … … xi n/p 1/p … … xp Tot n/p n 1/p 1 36 05/10/2016 Indici di eterogeneità • Misure che consentono di valutare in che posizione si colloca la distribuzione di frequenze di un fenomeno qualitativo rispetto ai casi estremi di perfetta omogeneità e massima eterogeneità Indice di eterogeneità di Gini • Perfetta omogeneità • Max eterogeneità G =0 G = (p-1)/p 37 05/10/2016 Indice di entropia (eterogeneità di Shannon) • Perfetta omogeneità • Max eterogeneità H =0 H = log p Esempio • Distribuzione del numero di protesti (in migliaia) in Italia. File di Excel entropia.xlsx • Calcolare gli indici di eterogeneità di Gini e di Shannon 38 05/10/2016 Definizione • Si dice indice di associazione basato sulla riduzione proporzionale dell’eterogeneità una misura che assume la seguente forma Indice tau di Goodman e Kruskal • Se 39 05/10/2016 Coefficiente di incertezza di Theil • Se Proprietà di H e Tau • [0 1] • 0 se e solo se i due caratteri sono indipendenti • 1 se vi è la massima dipendenza di Y da X • Sono invarianti per permutazioni di righe e colonne • Tau = Φ2 • Sono indici asimmetrici 40 05/10/2016 Esercizio • Aprire il file spumanti.xlsx. • 1) Costruire la tabella di contigenza tra le variabili Gusto (x) e Abbinamento (y) • 2) Calcolare y|x di Goodman e Kruskall, l’indice tau di Goodman e Kruskall e il coefficiente di incertezza di Theil RELAZIONI TRA VARIABILI ORDINALI •Cograduazione in serie doppia •Associazione in tabella di contingenza con variabili ordinali 41 05/10/2016 ASSOCIAZIONE per variabili ordinali Esempio: outlet, soddisfazione per due aspetti ASSOCIAZIONE per variabili ordinali (pag. 127 e seg.) TABELLA DI CONTINGENZA r x c Relazione fra coppie di unità: • Concordante se l’unità che ha livello più elevato su X ha pure livello più elevato su Y. • Discordante se l’unità che ha livello più elevato su X ha livello più basso su Y. • A pari merito se le due unità hanno livello uguale per X e/o per Y (è sufficiente l’uguaglianza di una delle due modalità) 42 05/10/2016 Risultati di due prove: Calcolo di C e D X = prova scritta; Y = orale X Y Suff Discreto Buono Tot Suff 20 10 0 30 Discreto 40 45 5 90 Buono 20 45 15 80 Tot 80 100 20 200 Concordanze: 20(45+45+5+15) + 40(45+15) + 10(5+15) + 45(15) = 5475 Discordanze: 40(10) + 20(10+45+5) + 45(5) = 1825 Indice di Goodman- Kruskal (simmetrico) Si basa sul numero di coppie concordanti (C) e discordanti (D): È compreso nell’intervallo [-1, 1]: +1 quando l’ordinamento delle coppie rispetto ai due caratteri è sempre concorde; -1 quando è sempre discorde E’ uguale a 0 quando C=D 43 05/10/2016 Risultati delle due prove: calcolo di La concordanza è pari al 50% del valore massimo possibile (secondo l’indice utilizzato). Ad un risultato migliore nella prima prova corrisponde più frequentemente un esito migliore anche nella seconda. L’indice gamma tiene conto solo delle coppie concordanti e discordanti, per cui un elevato numero di coppie a pari merito tende ad elevarne il valore in maniera artificiosa. Indice b di Kendall Tiene conto delle coppie a pari merito -1 b 1 Vale la relazione |b | | | 44 05/10/2016 Indice b (tau) di Kendall Misura di interdipendenza ordinale +1 quando l’ordinamento delle coppie rispetto ai due caratteri è sempre concorde; -1 quando è sempre discorde E’ uguale a 0 quando C=D Indice d di Somers Misura di dipendenza ordinale (di tipo asimmetrico) Y dipendente X esplicativa -1 dy|x 1 45 05/10/2016 Indice d di Somers Y dipendente X esplicativa -1 dy|x 1 Esempio X Y Suff Discreto Buono Suff 20 40 20 Tot 80 Discreto 10 45 45 100 Buono Tot 0 30 5 90 15 80 20 200 C = 5475 D = 1825 = 0.5 46 05/10/2016 Esempio: X = prova scritta; Y = orale X Y Suff Discreto Buono Suff 20 40 20 Tot 80 Discreto 10 45 45 100 Buono Tot 0 30 5 90 15 80 20 200 Relazione tra indici tau e d • dy | x = 0,315 • dx | y = 0,297 47 05/10/2016 Esempio: Indagine su 100 imprenditori X Y Diminuzione Uguale Aumento Tot Peggiore 28 1 0 29 Stazionario 17 26 10 53 Migliore 0 5 13 18 Tot 45 32 23 100 X = Giudizio sull’andamento congiunturale dell’economia Y = Intenzioni di investimento 2 = 65,52 20,01(4) = 13,277 → rifiuto H0 Calcolo di Lambda e d di Somers C = 28(26+10+5+13) + 1(10+13) + 17(5+13) + 26(13) = 2179 D = 1(17) + 10(5) = 67 48 05/10/2016 Interpretazione λy|x Riduzione della probabilità di errore nella previsione delle «Intenzioni di investimento» conoscendo il «giudizio sull’andamento congiunturale dell’economia» del 40% Interpretazione dy|x L differenza tra la proporzione di coppie concordanti e la proporzione di coppie discordanti (calcolata con riferimento solo alle coppie di osservazioni che non sono a pari merito sulla variabile esplicativa X ("Giudizio sull’andamento congiunturale dell’economia") è positiva ed è pari al 70 per cento (circa) del valore massimo possibile. C'è quindi una sostanziale concordanza tra il giudizio sull’andamento congiunturale dell’economia e le intenzioni di investimento 49 05/10/2016 Scelta dell’indice di associazione più appropriato Occorre considerare: • In via preliminare, chi quadrato significativo • Scala dei fenomeni (nominale o ordinale) • Relazione di dipendenza o di interdipendenza Comportamento d’acquisto per beni di largo consumo IMPORTANZA MARCA E PREZZO 50 05/10/2016 INDICI DI ASSOCIAZIONE ASSOCIAZIONE TRA UN FENOMENO ORDINALE E UNO NOMINALE 51 05/10/2016 Notazione • Tabella 2 x c • X due soli livelli (esplicativa) • Y c livelli ordinati (variabile dipendente) Es. penacap /partito (partito come variabile ordinale) • Delta=P(Y1>Y2)-P(Y2>Y1) • P(Y1>Y2)= Probabilità che l'elemento estratto nella prima riga della tabella presenti un livello del fenomeno Y superiore a quello dell'elemento estratto nella seconda riga 52 05/10/2016 • P(Y1>Y2)= Probabilità che l'elemento estratto nella prima riga della tabella presenti un livello del fenomeno Y superiore a quello dell'elemento estratto nella seconda riga • Casi favorevoli =126(76+…+19)+203(40+ -…19)+…+222(19)=328416 • Casi possibili = 1056*311 ASSOCIAZIONE TRA UN FENOMENO QUANTITATIVO ED UNO NOMINALE 53 05/10/2016 Rapporti di correlazione (p.143) X nominale Y quantitativo • Scomposizione della varianza di Y nei gruppi e fra i gruppi: • I gruppi sono le categorie di X (es. Maschi e Femmine; Y = voto in statistica) • Var(Y) = Var FRA + Var NEI • Var FRA : funzione delle differenze tra le medie dei gruppi e la media generale • Var NEI : funzione delle differenze tra i singoli valori e la media del rispettivo gruppo Scomposizione della varianza • Notazione • g gruppi • nj = numero di unità statistiche appartenenti al gruppo j • n = n1+ …+ ng 54 05/10/2016 Scomposizione della varianza Significato delle varianze • Var FRA = 0 → Var (Y) = Var NEI • Non vi sono differenze tra le medie dei gruppi (categorie) (voto medio maschi = voto medio femmine) • Var Nei = 0 → Var (Y) = Var FRA • La variabilità di Y è dovuta interamente alle differenze fra le medie dei gruppi. Ogni gruppo è perfettamente omogeneo nel suo interno (assume un solo valore) 55 05/10/2016 Rapporto di correlazione • ɳ y│x eta di Y dato X • ɳ y│x = Var FRA / Var (Y) • ɳ y│x = 1 - [Var NEI/ Var (Y)] • ɳ y│x = 0 sse Y è indip. in media da X • ɳ y│x = 1 sse vi è massima dipendenza in media di Y da X Osservazione • SPSS invece di calcolare ɳ y│x calcola la radice quadrata di ɳ y│x 56 05/10/2016 Esercizio. • File UNIVUSAanova. • Si può sostenere l’ipotesi che le rette medie per iscriversi a scuole statali, private o del clero differiscano tra loro significativamente? (variabile “retta”, variabile di raggruppamento “affil”). Effettuare analisi preliminari (boxplot e intervallo di confidenza per ogni gruppo) • Scomporre la variabilità totale della spesa di iscrizione (variabile “retta” nella quota tra i gruppi e nei gruppi). Analisi esplorativa preliminare 57 05/10/2016 Scomposizione della varianza • V. file di Excel UnivUSAanova.xlsx Intervallo di confidenza degli indici di associazione (p.154) • Intervallo che con probabilità 1 – contiene l’ignoto valore del parametro della popolazione • Se le variabili sono indipendenti (nella popolazione): non si può escludere che il valore dell’indice di associazione >0 calcolato nel campione sia dovuto solo alle “fluttuazioni campionarie”: Associazione (positiva) osservata nel campione non è significativa 58 05/10/2016 STANDARD ERROR Il valore degli indici campionari varia da campione a campione c’è variabilità campionaria Come si misura la variabilità campionaria? STANDARD ERROR = s. q. m. stimato della distribuzione campionaria • è calcolato dai software statistici (SPSS) • è inversamente proporzionale a Esempio: associazione pizza-coca cola (modalità: mai o quasi mai, qualche volta, spesso) (indice Gamma) Ad esempio: 1 – = 0.95 z(0.05) = 1.96 59 05/10/2016 • L’int. di confidenza per fornisce le seguenti informazioni: non si può escludere che il valore campionario = 0.28 sia dovuto solo alle “fluttuazioni campionarie” e che il “vero” di nell’universo sia uguale a 0 (l’associazione positiva osservata nel campione non è significativa) • Ad una conclusione analoga si perviene anche attraverso la verifica dell’ipotesi nulla: H0: = 0 sulla base della statistica test • T = 1.398 (v. SPSS) p-value = 0.162 Esercizio: Indagine campionaria sugli effetti del fumo Respirazione Normale Parzialmente compromessa Compromessa Non Fuma 164 4 0 Fuma occasional. 145 25 7 Fuma abitualmente 245 47 27 Fumo 60 05/10/2016 Valori degli indici b → d y|x = 0,575 = 0,224 = 0,146 A.S.E. = 0,071 A.S.E. = 0,028 A.S.E. = 0,021 NON INCLUDE LO ZERO TABELLE SPARSE 61 05/10/2016 TABELLA CON ACCORPAMENTO DI MODALITA’ INDICI DI ASSOCIAZIONE 62 05/10/2016 Esempio riepilogativo • Per 127 modelli di frigoriferi di varie marche si è calcolata la tabella di contingenza tra la classe energetica e la classe climatica (entrambe le variabili espresse su scala ordinale). Una parte dell’output della procedura di SPSS è riportata nella slide successiva. • Si verifichi la significatività dell’associazione. • Si commenti il significato di tutti gli indici che compaiono nella tabella e si dica qual è l’indice più appropriato per il caso in esame. • Si costruisca l’intervallo di confidenza con probabilità 0.99 dell’indice tau di Kendall e si illustrino le informazioni che esso fornisce. Output SPSS Tavola di contingenza Classe energetica * Classe climatica Conteggio 63 05/10/2016 Soluzione • Il chi-quadrato può essere calcolato direttamente sulla tabella, oppure molto più rapidamente si può ricavare dalla relazione: 2 = 18.5 Commento sulla significatività dell’indice 2 • Per g = 8, sulla tavola della variabile aleatoria chi-quadrato per = 0.02 si legge un valore critico uguale a 18.17, e per = 0.01 si legge un valore critico uguale a 20.09, per cui 2 campionario risulta significativo al livello del 2%, ma non significativo al livello dell’uno%. DISTRIB.CHI.QUAD(18.17;8;1)=0.980013 DISTRIB.CHI.QUAD(20.09;8;1)=0.989999 DISTRIB.CHI.QUAD(18.5;8;1)=0.982225 64 05/10/2016 Significato degli indici di associazione riportati nella tabella • L’indice Φ (phi) è di scarso interesse nel caso in esame, poiché essendo la tabella di dimensioni 3×5 esso può assumere anche valori maggiori di 1. • L’indice V di Cramer segnala un’associazione uguale al 27% del valore massimo possibile, considerando però i fenomeni come nominali. Commento indice tau-b di Kendall |b | | | 65 05/10/2016 Significato indice tau di Kendall L’indice tau di Kendall segnala una concordanza tra le due variabili pari al 30,5% del valore massimo possibile ed è quello più appropriato per il caso in esame poiché le due variabili sono ordinali; esso è preferibile rispetto all’indice Gamma, in quanto tiene conto anche delle coppie a pari merito. |b | | | Costruzione intervallo di confidenza dell’indice tau di Kendall • L’intervallo di confidenza risulta: • P{0.305 – 2.58 × 0.068 ≤ τ ≤ 0.305 + 2.58 × 0.068} = 0.99 • P{0.1296 ≤ τ ≤ 0.4804} = 0.99 • Dato che il suddetto intervallo non contiene lo zero, la concordanza tra classe energetica e la classe climatica è significativa al livello dell’uno% 66 05/10/2016 RIEPILOGO ANALISI UNIVARIATE E BIVARIATE • Per ogni variabile qualitativa (e quantitativa discreta): distribuzione di frequenze • Per ogni variabile binaria (codificata come numerica 0-1): media = frequenza relativa • Per ogni variabile quantitativa: media e deviazione standard, CV = σ/M, in % oppure MAD/Me • Per tutte le coppie di variabili qualitative: tavole di contingenza, verifica dell’ipotesi d’indipendenza (chiquadrato) e indici di associazione • Per tutte le coppie di variabili quantitative: matrice di correlazione con P-VALUE(eventualmente anche di matrice di cograduazione) 67