Capitolo 12 Suggerimenti agli esercizi a cura di Elena Siletti Esercizio 12.1: Suggerimento Per verificare se due fenomeni sono dipendenti in media sarebbe necessario confrontare le medie condizionate, in questo caso è bene osservare la tabella a doppia entrata per vedere se ci si ritrova in un caso particolare. Per calcolare il χ2 è possibile utilizzare la seguente formula: k X h 2 X f ij − 1 χ2 = N f · f.j i. i=1 j=1 Senza effettuare calcoli, ma in base ai risultati ottenuti precedentemente, è facile chiarire se la varianza FRA è nulla oppure è uguale alla varianza marginale di Y . Esercizio 12.2: Suggerimento Osservando la tabella a doppia entrata è possibile stabilire se i due fenomeni sono statisticamente indipendenti. Dire che due fenomeni sono statisticamente indipendenti significa che non esiste una relazione generica (connessione) tra loro. Per verificare se le due variabili sono statisticamente indipendenti è necessario valutare le distribuzioni condizionate. È utile ricordare che l’indipendenza statistica implica l’indipendenza in media,ma non è vero il contrario. Si dice che Y dipende in media da X se le medie condizionate ȳ|xi risultano diverse tra loro al variare della modalità di X, mentre si dice che X dipende in media da Y se le medie condizionate x̄|yj risultano diverse tra loro al variare della modalità di Y . Le dipendenze in medie si quantificano rispettivamente utilizzando le seguenti formule: k P 2 1 (ȳ|xi − ȳ) fi· 2 N σ i=1 = ηY2 = F RA h P σY2 1 yj2 f.j − ȳ 2 N j=1 c 2010 The McGraw-Hill Companies, srl F. Mecatti, Statistica di base 1 2 Capitolo 12 - Suggerimenti agli esercizi 2 ηX = σF2 RA 2 σX 1 N = h P 2 (x̄|yj − x̄) f.j j=1 1 N k P i=1 x2i fi. − x̄2 Il diagramma a dispersione o scatter plot è uno strumento grafico utile per visualizzare il tipo di relazione esistente tra due variabili. È un diagramma cartesiano con gli assi intestati alle modalità dei due fenomeni, ad esempio X sulle ascisse ed Y sulle ordinate. Le coppie di valori osservati sono viste come coordinate di punti sul diagramma. La tabella osservata è rappresentata sullo scatter plot come una nuvola di punti. Per misurare la correlazione lineare si utilizza il coefficiente di correlazione lineare rho: σXY ρXY = p 2 2 σX σY In generale rho assume valori tra -1 ed +1 e dà indicazioni circa il verso e l’intensità della correlazione tra X ed Y . Quando è uguale a -1 i fenomeni sono perfettamente e negativamente correlati, i punti sono perfettamente allineati lungo una retta con pendenza negativa; quando è uguale a +1 sono perfettamente e positivamente correlati, i punti sono perfettamente allineati lungo una retta con pendenza positiva; quando è nullo sono incorrelati. I valori intermedi sono interpretabili come percentuale di correlazione. Esercizio 12.3: Suggerimento Per risolvere l’esercizio è utile ricordare cosa rappresentano e quantificano gli indici utilizzati. La connessione si misura mediante l’indice chi quadro: k X h X χ2 = N i=1 j=1 2 fij − 1 fi. · f.j ma il valore assoluto di questo indice non consente una valutazione dell’entità della connessione in quanto cresce al crescere della numerosità N , un indice normalizzato si ottiene dividendo il chi quadro con il suo massimo, ottenendo: χ2 N · min {k − 1, h − 1} c 2010 The McGraw-Hill Companies, srl F. Mecatti, Statistica di base Capitolo 12 - Suggerimenti agli esercizi 3 che varia tra 0, indipendenza statistica, ed 1 massima connessione. La dipendenza in media si misura mediante l’indice di dipendenza eta quadro: ηY2 = σF2 RA σY2 1 N = k P i=1 h P 1 N 2 (ȳ|xi − ȳ) fi· j=1 yj2 f.j − ȳ 2 che varia tra 0, indipendenza in media, ed 1 massima dipendenza. Per la varianza marginale vale la proprietà della scomposizione, ovvero: 2 2 σY2 = σN EI + σF RA = k k 1 X 2 1 X 2 σY |xi · fi· + (ȳ|xi − ȳ) fi· N i=1 N i=1 Per misurare la correlazione lineare si utilizza il coefficiente di correlazione lineare rho: σXY ρXY = p 2 2 σX σY In generale rho assume valori tra -1 ed +1 e dà indicazioni circa il verso e l’intensità della correlazione tra X ed Y . Quando è uguale a -1 i fenomeni sono perfettamente e negativamente correlati, i punti sono perfettamente allineati lungo una retta con pendenza negativa; quando è uguale a +1 sono perfettamente e positivamente correlati, i punti sono perfettamente allineati lungo una retta con pendenza positiva; quando è nullo sono incorrelati. I valori intermedi sono interpretabili come percentuale di correlazione. Esercizio 12.4: Suggerimento Dire che due fenomeni sono statisticamente indipendenti significa che non esiste una relazione generica (connessione) tra loro. Se due variabili sono statisticamente indipendenti le distribuzioni condizionate sono tutte uguali ed uguali alla rispettiva distribuzione marginale. È utile ricordare che l’indipendenza statistica implica l’indipendenza in media,ma non è vero il contrario. Si dice che Y dipende in media da X se le medie condizionate ȳ|xi risultano diverse tra loro al variare della modalità di X, mentre si dice che X dipende in media da Y se le medie condizionate x̄|yj risultano diverse tra loro al variare della modalità di Y . Esercizio 12.5: Suggerimento Dire che due fenomeni sono statisticamente indipendenti significa che non esiste una relazione generica (connessione) tra loro. Se due variabili sono statisticamente indipendenti le distribuzioni condizionate sono tutte uguali ed uguali alla rispettiva distribuzione marginale. Si ha la massima connessione quando esiste un legame c 2010 The McGraw-Hill Companies, srl F. Mecatti, Statistica di base 4 Capitolo 12 - Suggerimenti agli esercizi perfetto tra le due variabili considerate, si ricorda che tale condizione può essere biunivoca e univoca a seconda del numero di righe e di colonne della distribuzione. Si dice che Y dipende in media da X se le medie condizionate ȳ|xi risultano diverse tra loro al variare della modalità di X, mentre si dice che X dipende in media da Y se le medie condizionate x̄|yj risultano diverse tra loro al variare della modalità di Y . Esercizio 12.6: Suggerimento Dire che due fenomeni sono statisticamente indipendenti significa che non esiste una relazione generica (connessione) tra loro. Se due variabili sono statisticamente indipendenti le distribuzioni condizionate sono tutte uguali ed uguali alla rispettiva distribuzione marginale. Si ha la massima connessione quando esiste un legame perfetto tra le due variabili considerate, si ricorda che tale condizione può essere biunivoca e univoca a seconda del numero di righe e di colonne della distribuzione. La connessione si misura mediante l’indice chi quadro: k X h 2 X f ij − 1 χ2 = N f · f i. .j i=1 j=1 ma il valore assoluto di questo indice non consente una valutazione dell’entità della connessione in quanto cresce al crescere della numerosità N , un indice normalizzato si ottiene dividendo il chi quadro con il suo massimo, ottenendo: χ2 N · min {k − 1, h − 1} Si dice che Y dipende in media da X se le medie condizionate ȳ|xi risultano diverse tra loro al variare della modalità di X, mentre si dice che X dipende in media da Y se le medie condizionate x̄|yj risultano diverse tra loro al variare della modalità di Y . Le dipendenze in media si quantificano rispettivamente utilizzando le seguenti formule: k P 2 1 (ȳ|xi − ȳ) fi· 2 N σ i=1 ηY2 = F RA = h P σY2 1 yj2 f.j − ȳ 2 N j=1 2 ηX σ2 = F 2RA = σX 1 N h P 2 (x̄|yj − x̄) f.j j=1 1 N k P i=1 x2i fi. − x̄2 l’indice di dipendenza in media η 2 varia tra 0, indipendenza in media, ed 1 dipendenza perfetta. c 2010 The McGraw-Hill Companies, srl F. Mecatti, Statistica di base Capitolo 12 - Suggerimenti agli esercizi 5 Il diagramma a dispersione o scatter plot è uno strumento grafico utile per visualizzare il tipo di relazione esistente tra due variabili. È un diagramma cartesiano con gli assi intestati alle modalità dei due fenomeni, ad esempio X sulle ascisse ed Y sulle ordinate. Le coppie di valori osservati sono viste come coordinate di punti sul diagramma. La tabella osservata è rappresentata sullo scatter plot come una nuvola di punti. Per misurare la correlazione lineare si utilizza il coefficiente di correlazione lineare rho: σXY ρXY = p 2 2 σX σY In generale rho assume valori tra -1 ed +1 e dà indicazioni circa il verso e l’intensità della correlazione tra X ed Y . Quando è uguale a -1 i fenomeni sono perfettamente e negativamente correlati, i punti sono perfettamente allineati lungo una retta con pendenza negativa; quando è uguale a +1 sono perfettamente e positivamente correlati, i punti sono perfettamente allineati lungo una retta con pendenza positiva; quando è nullo sono incorrelati. I valori intermedi sono interpretabili come percentuale di correlazione. Esercizio 12.7: Suggerimento Dire che due fenomeni sono statisticamente indipendenti significa che non esiste una relazione generica (connessione) tra loro. Se due variabili sono statisticamente indipendenti le distribuzioni condizionate sono tutte uguali ed uguali alla rispettiva distribuzione marginale. Si ha la massima connessione quando esiste un legame perfetto tra le due variabili considerate, si ricorda che tale condizione può essere biunivoca e univoca a seconda del numero di righe e di colonne della distribuzione. La connessione si misura mediante l’indice chi quadro: k X h 2 X f ij χ2 = N − 1 f · f i. .j i=1 j=1 ma il valore assoluto di questo indice non consente una valutazione dell’entità della connessione in quanto cresce al crescere della numerosità N , un indice normalizzato si ottiene dividendo il chi quadro con il suo massimo, ottenendo: χ2 N · min {k − 1, h − 1} Si dice che Y dipende in media da X se le medie condizionate ȳ|xi risultano diverse tra loro al variare della modalità di X, mentre si dice che X dipende in media da Y se le medie condizionate x̄|yj risultano diverse tra loro al variare della modalità di Y . Le dipendenze in media si quantificano rispettivamente utilizzando le seguenti c 2010 The McGraw-Hill Companies, srl F. Mecatti, Statistica di base 6 Capitolo 12 - Suggerimenti agli esercizi formule: ηY2 2 ηX = σF2 RA σY2 1 N = σ2 = F 2RA = σX 1 N k P 2 (ȳ|xi − ȳ) fi· i=1 h P 1 yj2 f.j − ȳ 2 N j=1 h P 2 (x̄|yj − x̄) f.j j=1 1 N k P i=1 x2i fi. − x̄2 l’indice di dipendenza in media η 2 varia tra 0, indipendenza in media, ed 1 dipendenza perfetta. Il diagramma a dispersione o scatter plot è uno strumento grafico utile per visualizzare il tipo di relazione esistente tra due variabili. È un diagramma cartesiano con gli assi intestati alle modalità dei due fenomeni, ad esempio X sulle ascisse ed Y sulle ordinate. Le coppie di valori osservati sono viste come coordinate di punti sul diagramma. La tabella osservata è rappresentata sullo scatter plot come una nuvola di punti. Per misurare la correlazione lineare si utilizza il coefficiente di correlazione lineare rho: σXY ρXY = p 2 2 σX σY In generale rho assume valori tra -1 ed +1 e dà indicazioni circa il verso e l’intensità della correlazione tra X ed Y . Quando è uguale a -1 i fenomeni sono perfettamente e negativamente correlati, i punti sono perfettamente allineati lungo una retta con pendenza negativa; quando è uguale a +1 sono perfettamente e positivamente correlati, i punti sono perfettamente allineati lungo una retta con pendenza positiva; quando è nullo sono incorrelati. I valori intermedi sono interpretabili come percentuale di correlazione. Esercizio 12.8: Suggerimento Per risolvere l’esercizio è utile ricordare cosa rappresentano e quantificano gli indici utilizzati. La connessione si misura mediante l’indice chi quadro: k X h 2 X f ij χ2 = N − 1 f · f i. .j i=1 j=1 ma il valore assoluto di questo indice non consente una valutazione dell’entità della connessione in quanto cresce al crescere della numerosità N , un indice normalizzato c 2010 The McGraw-Hill Companies, srl F. Mecatti, Statistica di base Capitolo 12 - Suggerimenti agli esercizi 7 si ottiene dividendo il chi quadro con il suo massimo, ottenendo: χ2 N · min {k − 1, h − 1} che varia tra 0, indipendenza statistica, ed 1 massima connessione. La dipendenza in media si misura mediante l’indice di dipendenza eta quadro: ηY2 = σF2 RA σY2 1 N = k P 2 (ȳ|xi − ȳ) fi· i=1 h P 1 yj2 f.j N j=1 − ȳ 2 che varia tra o, indipendenza in media, ed 1 massima dipendenza. Per la varianza marginale vale la proprietà della scomposizione, ovvero: 2 2 σY2 = σN EI + σF RA = k k 1 X 1 X 2 2 σY |xi · fi· + (ȳ|xi − ȳ) fi· N i=1 N i=1 Per misurare la correlazione lineare si utilizza il coefficiente di correlazione lineare rho: σXY ρXY = p 2 2 σX σY In generale rho assume valori tra -1 ed +1 e dà indicazioni circa il verso e l’intensità della correlazione tra X ed Y . Quando è uguale a -1 i fenomeni sono perfettamente e negativamente correlati, i punti sono perfettamente allineati lungo una retta con pendenza negativa; quando è uguale a +1 sono perfettamente e positivamente correlati, i punti sono perfettamente allineati lungo una retta con pendenza positiva; quando è nullo sono incorrelati. I valori intermedi sono interpretabili come percentuale di correlazione. c 2010 The McGraw-Hill Companies, srl F. Mecatti, Statistica di base