Scienze Politiche © 1999-2000 www.profste.com Email: [email protected] RIPASSO teorico e dimostrazioni per esame di STATISTICA Note. Qui troverai le domande teoriche e le relative risposte ad alcuni tra i più importanti quesiti teorici dell'esame di Statistica. Questo lavoro non ha alcuna pretesa di completezza e probabilmente conterrà degli errori (nessuno è perfetto). Anzi se ne trovi segnalali all’indirizzo Email [email protected] Col presente lavoro non si è voluto nemmeno sostituire i testi e le lezioni universitarie, che restano le principali fonti della preparazione all'esame, cui ci si dovrà SEMPRE riferire. Tuttavia, SOLAMENTE in fase di ripasso finale, può essere utile riferirsi a questi appunti, al fine di verificare la propria preparazione teorica prima dell’esame. Se hai trovato utili questi esercizi e questo metodo di preparazione dell’esame collegati al sito internet www.profste.com dove troverai altre informazioni utili ai tuoi studi e non solo. Potrai inoltre scaricare una copia aggiornata e gratuita di questo file. RIPASSO teorico e dimostrazioni per esame di STATISTICA 1 © 1999-2000 www.profste.com Email: [email protected] Scienze Politiche © 1999-2000 www.profste.com Email: [email protected] RIPASSO teorico e dimostrazioni per esame di STATISTICA 1. Dare la definizione della scala di modalità nominale e fornire un esempio oppure definire le scale di modalità (appunti) 2. Dare la definizione/formula di mediana e indicarne le/la proprietà (appunti). 3. Dare la definizione/formula e indicare o dimostrare le proprietà della media aritmetica (appunti). 4. Dimostrare la proprietà di minimo della media aritmetica oppure si dimostri che (xi – A) fi (xi –) fi con A costante reale (appunti). 5. Dimostrare che y = a x + b , sapendo che il fenomeno x, con media paria x , è legato al fenomeno Y dalla relazione Y = a X + b oppure sapendo che Y = a + b X dimostrare che y = a + bx oppure proprietà della trasformazione lineare di 6. Dimostrare la proprietà di internalità di Cauchy. 7. Dare la definizione/formula e indicare o dimostrare le proprietà della media geometrica. 8. Dare la definizione/formula della media geometrica e indicarne il metodo indiretto di calcolo attraverso i logaritmi, con dimostrazione (appunti). 9. Dare la definizione/formula e indicare o dimostrare le proprietà della media armonica. 10. Siano X e Y due fenomeni quantitativi, legati dalla relazione Y = a /X, con a > 0, dimostrare che -1(y)= a / x . 11. Si fornisca la definizione/formula di media potenziata di ordine s e si elenchino le proprietà di cui essa gode (appunti). 12. Criteri per la scelta delle medie oppure Chisini e CENTRI 13. Dimostrare che 2= (2) - 2 oppure Metodo indiretto di calcolo della varianza. 14. Si cosideri la relazione lineare Y = a + bX , ( a e b costanti reali, b0), tra le due variabili statistiche X e Y e si dimostri che VAR(Y) = b2 Var (X) opppure se Y = aX + b si dimostri che 2y = a2 2x 15. Definire gli impieghi e fornire la formula/definizione del coefficente di variazione CV (appunti). 16. Definire la differenza media quadratica con ripetizione e dimostrare il legame con lo 17. 18. 19. 20. 21. 22. 23. 24. 25. 26. 27. scarto quadratico medio oppure dimostrare che (2)R = √2 ̅ La concentrazione: per quali fenomeni è possibile valutarla, come si rappresenta graficamente e l’indice utilizzato per misurarla (con relativa formula). Definire i concetti di connessione e di indipendenza statistica e, dopo aver deciso quale delle due si presta ad essere valutato tramite un indice, si fornisca la formula dell’indice opportuno. Definire l’indice di connessione 2 di Pearson e indicarne il metodo indiretto di calcolo. Dimostrare che 2max = n min (h - 1) , (k – 1 ) oppure 2max = n (min tra h e k) - 1 Dimostrare che, in una tabella a doppia entrata, la media generale è ottenibile sia mediante la media delle medie parziali o condizionate (proprietà associativa)che calcolandola sulla distribuzione marginale. Proprietà di scomposizione della varianza. Fornire la definizione e le formule della varianza spiegata e della varianza residua della funzione di regressione Definire i concetti di dipendenza in media e di indipendenza in media e, dopo aver deciso quale delle due si presta ad essere valutato tramite un indice, si fornisca la formula dell’indice opportuno. Definire l’indice di dipendenza in media x2 di Pearson. Siano X eY due fenomeni quantitativi statisticamente indipendenti. Dimostrare che x2 = 0 oppure y2 = 0 oppure Dimostrare che, in caso di indipendenza statistica, x2= 0 e/o y2= 0 oppure vi è anche indipendenza in media oppure assenza di dipendenza in media. Dare la formula/definizione della covarianza xy e discuterne il segno e/o.i suoi utilizzi. RIPASSO teorico e dimostrazioni per esame di STATISTICA 2 © 1999-2000 www.profste.com Email: [email protected] Scienze Politiche © 1999-2000 www.profste.com Email: [email protected] RIPASSO teorico e dimostrazioni per esame di STATISTICA 28. Fissata l’attenzione sulla covarianza xy , si dica di quale momento si tratta e si dimostri che: xy = xy - x y oppure metodo indiretto di calcolo della covarianza. 29. Dare la formula/definizione della covarianza xy e indicarne le proprietà. 30. Dati due fenomeni quantitativi x e y dimostrare che l’indipendenza statistica implica l’incorrelazione oppure dimostrare che se 2.= 0 allora xy = 0 e/o =0 31. Dati due fenomeni quantitativi x e y dimostrare che è invariante alle trasformazioni lineari. 32. Dati due fenomeni quantitativi, dimostrare che l’indipendenza in media implica l’incorrelazione oppure dimostrare che se x2= 0 e/o y2= 0 allora xy = 0. 33. Si dia la definizione e si indichino gli impieghi del coefficente di correlazione lineare di BRAVAIS oppure di BRAVAIS PEARSON. 34. Enunciare e discutere la condizione dei minimi quadrati oppure retta interpolante ai minimi quadrati oppure retta di regressione 35. Definire la doppia interpolante l’uso del coefficente di correlazione lineare . 36. Fornire la definizione di probabilità oppure le definizioni di probabilità (appunti). 37. Fornire la definizione assiomatica di probabilita’ oppure fornire i 3 assiomi di probabilità (appunti). 38. I teoremi di probabilità (appunti). 39. Dare la definizione di eventi incompatibili e di evanti indipendenti (appunti). 40. Dare la definizione di eventi complementari e verificare che sono anche incompatibili (appunti). 41. Definizione di evento condizionato oppure di probabilità condizionata (appunti). 42. Fornire la definizione di variabile casuale (v.c.) (appunti). 43. Fornire la definizione di variabile casuale (v.c.) e si dica cosa differenzia le v.c. discrete dalle v.c. continue(appunti). 44. Proprietà del valore atteso E(X) e della varianza VAR(X) di una variabile casuale v.c. 45. Sia X una variabile casuale (v.c.) disceta. Dare la definizione/formula ed un esempio della corrispondente funzione di ripartizione (appunti). 46. Si dia la definizione di variabile casuale (v.c.) Bernoulliana e si fornisca un esempio di esperimento casuale interpretabile mediante tale v.c. (appunti) 47. Si dia la definizione di variabile casuale (v.c.) Binomiale e si fornisca un esempio di esperimento casuale interpretabile mediante tale v.c. (appunti) 48. Si dia la definizione di variabile casuale (v.c.) Normale o Gaussiana. (appunti) 49. Sia X una variabile casuale (v.c.) normale oppure gaussiana, con media E(X) = e varianza VAR(X) = 2. Definita la v.c. Z = (X - )/ , si calcolino, fornendo tutti i passaggi, la media/valore attteso e la varianza .di Z oppure definire la v.c. Normale Standardizzata. (appunti) 50. Fornire le proprietà degli stimatori. 51. Fornire la definizione dello stimatore media campionaria X oppure variabile casuale media campionaria e sue proprietà RIPASSO teorico e dimostrazioni per esame di STATISTICA 3 © 1999-2000 www.profste.com Email: [email protected] Scienze Politiche © 1999-2000 www.profste.com Email: [email protected] RIPASSO teorico e dimostrazioni per esame di STATISTICA RISPOSTA 5: Proprietà trasformazione lineare di Se y = a + b X si ha che y = a + b x Dimostrazione: y = 1/n ∑ yi = 1/n ∑ ( a + b xi ) = 1/n ∑ a + 1/n ∑ b xi = = 1/n n a + 1/n b ∑ xi = a + b x c.v.d. RISPOSTA 6: Proprietà di internalità di Cauchy Si dimostra questa proprietà con riferimento alla media aritmetica X1 ≤ ≤ xkù Dimostrazione: È sicuramente possibile affermare che: ∑ X1 fi ≤ ∑ Xi fi ≤ ∑ Xk fi da cui: X1 ∑ fi ≤ ∑ Xi fi ≤ Xk ∑ fi dato che: ∑ fi = n si ha che: n X1 ≤ ∑ Xi fi ≤ n Xk n X1 ≤ n ≤ n X k dividendo i tre membri della diseguaglianza per n, si ottiene: X1 ≤ ≤ Xk c.v.d. RISPOSTA 7: Proprietà della media geometrica 0 1. Se Y = a Xb si ha che 0Y = a ( 0X)b Dimostrazione: 0Y = ( yi)1/n = ( a xib)1/n = ( an xib)1/n= = (an)1/n ( xi1/n)b= a ( xi1/n)b = a ( 0X)b c.v.d. 2. Se Z = x/y si ha che 0Z = 0X/ 0Y ovvero la media geometrica di un rapporto è pari al rapporto tra le medie geometriche. Dimostrazione: 0Z = ( zi)1/n = ( xi/ yi)1/n = ( xi/yi)1/n = = ( xi)1/n /(yi)1/n = 0X/ 0Y c.v.d. 3. Vedi appunti RISPOSTA 8: Metodo indiretto di calcolo della media geometrica 0 0 = ( xi )1/n facendo il log di entrambe i membri si ottiene: log 0 = log( xi )1/n log 0 = 1/n log xi log 0 = 1/n log xi si è così mostrato come il log della 0 è pari alla µ dei log delle intensità xi Viene così prima calcolato log 0 per poi farne l’antilog determinando 0 RIPASSO teorico e dimostrazioni per esame di STATISTICA 4 © 1999-2000 www.profste.com Email: [email protected] Scienze Politiche © 1999-2000 www.profste.com Email: [email protected] RIPASSO teorico e dimostrazioni per esame di STATISTICA RISPOSTA 9: Proprietà della media armonica -1 1. Se Y = a/X si ha che -1Y = a/X Dimostrazione: -1Y = n/(1/yi) = n/ (1/a/xi) = an/xi = a/(1/nxi) = a/X c.v.d. 2. Proprietà di omogeneità che viene dimostrata per µ per semplicità, ma vale per tutte le medie analitiche appartenenti alla famiglia delle medie potenziate µs Se Y = aX si ha che Y = aX Y = 1/n yi = 1/n axi = a/n xi = aX c.v.d. 3. Vedi appunti RISPOSTA 12: Criteri per la scelta delle medie/Chisini e CENTRI Per prima cosa è necessario tener presenti i limiti nella scelta della media più opportuna derivanti dal tipo di carattere e dalla scala sulla quale lo stesso viene rilevato. Ad es.un carattere qualitativo su scala nominale permette di determinare solo la moda. Se si dispone di un carattere quantitativo, è possibile applicare i seguenti due criteri formali: 1. Criterio di invarianza di Chisini, secondo il quale non erano importanti tanto i singoli valori, quanto una funzione degli stessi, da lasciare inalterata mediante una media opportuna: f(x1,x2,x3,…,xn) = f(x,x,x,…,x) Ad esempio, se la funzione dei valori è la somma, questa viene lasciata inalterata dalla media aritmetica µ 2. Criterio di ottimizazione di Herzel, il quale concentra la propria attenzione sulla funzione di perdita definita come: |xi - |s dove , chiamato centro di ordine s, è una media opportunamente scelta al fine di minimizzare la funzione di perdita, che varia a seconda dell’ordine s dato alla funzione di perdita. In particolare: per s=1 si ha =m0,5 per s=2 si ha =µ per s=0 si ha =m0 RIPASSO teorico e dimostrazioni per esame di STATISTICA 5 © 1999-2000 www.profste.com Email: [email protected] Scienze Politiche © 1999-2000 www.profste.com Email: [email protected] RIPASSO teorico e dimostrazioni per esame di STATISTICA RISPOSTA 13: Metodo indiretto di calcolo della varianza 2 2 = 1/n (xi - µ )2 fi svolgendo il quadrato del binomio si ottiene: 2 = 1/n (xi2 + µ2 – 2 xi µ) fi applicando la proprietà associativa di e moltiplicando nel contempo per 1/n e per fi si ha: 2 = 1/n xi2 fi + 1/n µ2 fi – 2/n xi µ fi applicando la proprietà di omogeneità di si ottiene: 2 = 1/n xi2 fi + µ21/n fi – 2µ 1/n xi fi da cui: 2 = µ(2) + µ2 n/n - 2µ µ 2 = µ(2) + µ2 - 2µ2 2 = µ(2) - µ2 RISPOSTA 14: Proprietà trasformazione lineare per la varianza 2 Se Y = a + bX si ha che 2y = b2 2x Dimostrazione: 2y = 1/n (yi - µy)2 fi 2y = 1/n (a+bxi – a-bµx)2 fi 2y = 1/n b2 (xi - µx)2 fi 2y = b2/n (xi - µx)2 fi 2y = b2 2x c.v.d. (2) R RISPOSTA 16: Legame tra e (2) R = { 1/n2 ij (xi – xj)2}1/2 Si toglie e aggiunge µ ottenedo: (2) R = { 1/n2 ij (xi – µ + µ - xj)2}1/2 (2) R = { 1/n2 ij [(xi – µ) - (xj - µ)]2}1/2 Svolgendo il quadrato del binomio si ha: (2) R = {1/n2 ij [(xi – µ)2 + (xj - µ)2 - 2(xi – µ) (xj - µ)]}1/2 Si applica la proprietà associativa di e nel contempo si moltiplica per 1/n2, ottenendo: (2) R = {1/n2 ij (xi – µ)2 + 1/n2 ij (xj - µ)2 - 2/n2 ij (xi – µ) (xj - µ)}1/2 Applicando la proprietà di omogeneità di si ha: (2) R = {n/n2 i (xi – µ)2 + n/n2 J (xj - µ)2 - 2/n2 i (xi – µ) j (xj - µ)}1/2 (2) R = {1/n i (xi – µ)2 + 1/n J (xj - µ)2 - 2/n2 i (xi – µ) j (xj - µ)}1/2 (2) R = {2 + 2 - 2/n2 0 0}1/2 (2) R = {22}1/2 (2) R = {2}1/2 RIPASSO teorico e dimostrazioni per esame di STATISTICA 6 © 1999-2000 www.profste.com Email: [email protected] Scienze Politiche © 1999-2000 www.profste.com Email: [email protected] RIPASSO teorico e dimostrazioni per esame di STATISTICA RISPOSTA 17: Concentrazione La concentrazione è l’attitudine di un fenomeno a distribuire frazioni elevate della propria intensità su frazioni ridotte della popolazione. Ad es. Il 90% del reddito è nelle mani del 5% della popolazione. La concentrazione è perciò, ovviamente, studiabile solo per fenomeni trasferibili o completamente trasferibili, come appunto ad esempio il reddito, dove cioè sia possibile pensare di spostare l’intensità da un’unità statistica all’altra. Per rappresentare la concentrazione si utilizza il diagramma o spezzata di Lorenz. Per misurare la concentrazione si utilizza il Rapporto di concentrazione R o Area di concentrazione normalizzata Ã, dato dal rapporto tra A (area di concentrazione) e AMAX (area di massima concentrazione): R= Ã = [1 - (Vi + Vi-1)fi/n]/Pk-1 Questo indice normalizzato assume valore 0 in caso di assenza di concentrazione/equidistribuzione, cresce al crescere della concentrazione presente, fino ad assumere valore 1 in caso di massima concentrazione. RISPOSTA 18: Connessione-Indipendenza Statistica (IS) Si ha ad es. IS di Y da X se le distribuzioni condizionate di Y/Xi sono simili tra loro e simili alla distribuzione marginale di Y. In questo caso infatti non c’è influenza di un carattere sull’altro, dato che al variare di X non muta la proporzione che assume ciascuna modalità yj. L’ IS è una relazione SEMPRE biunivoca ovvero se c’è IS di Y da X necessariamente si avra anche IS di X da Y. E’ raro che vi sia IS tra due caratteri, più spesso si osservano fenomeni di connessione, ovvero di una certa influenza di un carattere sull’altro, che può essere più o meno elevata. Sarà quindi utile misurare la connessione attraverso un opportuno indice, che assuma valore 0 in assenza di connessione (IS) e cresca all’aumentare della connessione presente. Per poter poi effettivamente valutare se la connesione presente è più o meno elevata, è necessario disporre di un indice di connessione normalizzato, che vari tra 0 (assenza di connessione/IS) e 1 (massima connessione). L’indice di connesione è 2 di Pearson, per normalizzarlo è necessario rapportarlo al suo massimo 2MAX, cioè al valore che lo stesso indice assume in caso vi sia massima connessione. Si indicherà di seguito la formula indiretta di calcolo dell’indice suddetto. 2 = n[(f2ij/fi. f.j) – 1] 2max = n min (h - 1) , (k – 1 ) ̃2 = 2/2MAX RIPASSO teorico e dimostrazioni per esame di STATISTICA 7 © 1999-2000 www.profste.com Email: [email protected] Scienze Politiche © 1999-2000 www.profste.com Email: [email protected] RIPASSO teorico e dimostrazioni per esame di STATISTICA RISPOSTA 19: Indice di connessione 2 di Pearson 2 = ij(fij - f*ij)2/f*ij 2 = ij[fij – (fi. f.j)/n]2/(fi. f.j)/n 2 = nij[fij – (fi. f.j)/n]2/(fi. f.j) Svolgendo il quadrato del binomio e facendo il m.c.m. si ottiene: 2 = nij(n2f2ij + f2i. f2.j – 2n fij fi. f.j)/(fi. f.j) Semplificando opportunamente si ha: 2 = n[(f2ij/fi. f.j) – 1] che è la formula indiretta di calcolo del 2 RISPOSTA 20: Dimostrazione 2max = n (min h e k) – 1 Essendo 2 = n[ij (f2ij/fi. f.j) – 1] Si concentri l’attenzione sulla ij (f2ij/fi. f.j) Si può certamente affermare che: ij (f2ij/fi. f.j) ≤ ij (fij fi./fi. f.j) = ij (fij/f.j) = j1/ f.j i fij = jf.j/f.j = h Analogamente si può affermare che: ij (f2ij/fi. f.j) ≤ ij (fij f.j /fi. f.j) = ij (fij/ fi.) = i1/ fi. j fij = ifi./fi. = k Riassumendo si è mostrato come: ij (f2ij/fi. f.j) ≤ h e nel contempo ij (f2ij/fi. f.j) ≤ k E’ per cui chiaro come: il massimo valore della ij (f2ij/fi. f.j) sia il minore tra h e k Sostituendo nella formula del 2 si ottiene: 2max = n (min h e k) – 1 RISPOSTA 21: Proprietà associativa µ in statistica bivariata Questa è la formula di µy calcolata sulla distribuzione marginale µy = 1/n j yj f.j Si dimostrerà come la stessa media sia ottenibile anche mediante le medie parziali o condizionate, infatti: µy = 1/n i µy/Xi fi. Sapendo che: µy/Xi = 1/ fi. j yj fij Sostituendo si ottiene: µy = 1/n i (1/ fi. j yj fij ) fi.= 1/n i (1/ fi. j yj fij ) fi.= = 1/n i fi. (1/ fi. j yj fij) = 1/n j yj i fij = 1/n j yj f.j = µy RIPASSO teorico e dimostrazioni per esame di STATISTICA 8 © 1999-2000 www.profste.com Email: [email protected] Scienze Politiche © 1999-2000 www.profste.com Email: [email protected] RIPASSO teorico e dimostrazioni per esame di STATISTICA RISPOSTA 22: Proprietà di scomposizione della varianza 2y = 1/n j (yi - µy)2 fi. = 1/n j (yj - µy)2 i fij = = 1/n ij (yj - µy)2 fij Si toglie e aggiunge µy/Xi : 2y = 1/n ij [(yj - µy/Xi)+(µy/Xi - µy)]2 fij Svolgendo il quadrato del binomio si ottiene: 2y = 1/n ij[(yj - µy/Xi)2+(µy/Xi - µy)2+2(yj - µy/Xi) (µy/Xi - µy)]fij Si applica ora la proprietà associativa di e nel contempo si moltiplica per 1/n e per fij : 2y =1/nij(yj -µy/Xi)2fij+1/n ij(µy/Xi-µy)2fij+2/n ij (yj - µy/Xi) (µy/Xi - µy)fij Grazie alla proprietà di omogeneità di si ha: 2y =1/nij(yj -µy/Xi)2fij+1/n i(µy/Xi-µy)2jfij+2/n i(µy/Xi - µy)j (yj - µy/Xi) fij Sapendo che, per la proprietà di µ, j (yj - µy/Xi) fij = 0 l’espressione si semplifica e diventa: 2y =1/nij(yj -µy/Xi)2fij+1/n i(µy/Xi-µy)2fi. Dove il secondo addendo: 1/n i(µy/Xi-µy)2fi. = 2y è una varianza delle medie parziali ed è detto varianza spiegata che si indica con 2y Concentrandosi invece sul primo addendo: 1/nij(yj -µy/Xi)2fij moltiplicando e dividendo per fi. si ottiene: 1/ni fi. [1/fij j(yj -µy/Xi)2fij] 2 essendo 1/fij j(yj -µy/Xi) fij = 2y/Xi si ha: 1/ni2y/Xi fi. = 2y che è una media delle varianze parziali, detta varianza residua che si indica con 2y Si è così dimostrata la scomposizione della varianza come: VAR TOTALE = VAR RESIDUA + VAR SPIEGATA RIPASSO teorico e dimostrazioni per esame di STATISTICA 9 © 1999-2000 www.profste.com Email: [email protected] Scienze Politiche © 1999-2000 www.profste.com Email: [email protected] RIPASSO teorico e dimostrazioni per esame di STATISTICA RISPOSTA 23: Definizione di VAR RESIDUA e VAR SPIEGATA Si dimostra che la varianza può essere scomposta come: VAR TOTALE = VAR RESIDUA + VAR SPIEGATA La varianza residua è una media delle varianze parziali, anche detta varianza nei gruppi ed è definita come 1/ni2y/Xi fi. = 2y La varianza spiegata è una varianza delle medie parziali, anche detta varianza fra i gruppi ed è definita come 1/n i(µy/Xi-µy)2fi. = 2y RISPOSTA 24:Dipendenza in Media(DM)/Indipendenza inMedia(IM) Dato un carattere quantitativo, ad es. Y, in una tabella a doppia entrata, si dice che y è indipendente in media da X se le medie condizionate di Y/Xi sono uguali tra loro e uguali alla media generale µy quindi se si ha: µy/Xi = µy i E’ raro che vi sia IM, più frequentemente si ha Dipendenza in Media(DM), che può essere più o meno elevata. E’ perciò utile misurare attraverso un opportuno indice normalizzato di DM che assume valore 0 in caso di assenza di DM( quindi IM), cresce al crescere della DM presente e assume valore 1 in caso di massima DM. L’indice è definito dal rapporto tra la varianza spiegata e il suo valore massimo, che è la varianza totale, data la scomposizione VAR TOT = VAR RES + VAR SPIEG. L’indice è chiamato y2 di Pearson: y2 = 2y/2y 2 RISPOSTA 25: Indice x di Pearson Vedi risposta 23 da riferire a X invece che a Y RISPOSTA 26: Due caratteri quantitativi tra loro IS sono anche IM La dimostrazione viene fatta per Y, ma è analogamente estensibile anche aX Se c’è IS si ha che fij= (fi. f.j)/n i,j Se c’è IM di Y/X si ha che µy/Xi = µy i Sapendo che: µy/Xi = 1/ fi. j yj fij e sostituendo la condizione di IS sopra citata si ha: µy/Xi = 1/ fi. j yj (fi. f.j)/n = 1/nj yj f.j = µy Quindi c’è anche IM. E’ da sottolineare che non vale il contrario, cioè se tra due caratteri c’è IM non è detto vi sia anche IS. RIPASSO teorico e dimostrazioni per esame di STATISTICA 10 © 1999-2000 www.profste.com Email: [email protected] Scienze Politiche © 1999-2000 www.profste.com Email: [email protected] RIPASSO teorico e dimostrazioni per esame di STATISTICA RISPOSTA 27: Definizione e utilizzi covarianza xy La covarianza è il momento centrale misto di ordine r+s=2 con r=1 e s=1. E’ quindi definita come: µ11 = xy = 1/n (xi - µx) (yi - µy) La correlazione è lo studio di come variano insieme due caratteri quantitativi. La covarianza è un indice di correlazione, non è quindi un indice di variabilità, anche perchè può essere negativa e, come noto, gli indici di variabilità sono solo e sempre positivi o zero. Se xy > 0 tra i due caratteri c’è correlazione positiva, ovvero i due caratteri sono tra loro in relazione diretta: all’aumentare di uno, l’altro aumenta e viceversa (es.statura e peso). Se xy < 0 tra i due caratteri c’è correlazione negativa, ovvero i due caratteri sono tra loro in relazione inversa: all’aumentare di uno, l’altro diminuisce e viceversa (es.consumo e risparmio). Se xy = 0 ci sono due possibilità: a) Tra i due caratteri c’è incorrelazione, ovvero i due caratteri sono tra loro incorrelati: al variare dell’uno, laltro varia, ma non si può dire in che modo. b) Tra i due caratteri c’è indipendenza statistica: al varialre dell’uno, l’altro NON varia. RISPOSTA 28: Definiz. covarianza xy e metodo indiretto di calcolo La covarianza è il momento centrale misto di ordine r+s=2 con r=1 e s=1. E’ quindi definita come: µ11 = xy = 1/n (xi - µx) (yi - µy) La correlazione è lo studio di come variano insieme due caratteri quantitativi. La covarianza è un indice di correlazione, non è quindi un indice di variabilità, anche perchè può essere negativa e, come noto, gli indici di variabilità sono solo e sempre positivi o zero. E’ interessante osservare come: xy = 1/n (xi - µx) (yi - µy) Svolgendo il prodotto, applicando nel comtempo la proprietà associativa di e moltiplicando per 1/n, si ottiene: xy = 1/n xi yi – 1/n xi µy – 1/n µx yi + 1/n µx µy Con la proprietà di omogeneità di l’espressione diventa: xy = 1/n xi yi – µy 1/n xi – µx 1/n yi + n/n µx µy Da cui si ha: xy = µxy – µx µy – µx µy + µx µy xy = µxy – µx µy La covarianza è perciò determinabile come differenza tra il momento misto µxy o momento ordinario misto di ordine r+s=2 con r=1 e s=1 e il prodotto delle due medie µx e µy RIPASSO teorico e dimostrazioni per esame di STATISTICA 11 © 1999-2000 www.profste.com Email: [email protected] Scienze Politiche © 1999-2000 www.profste.com Email: [email protected] RIPASSO teorico e dimostrazioni per esame di STATISTICA RISPOSTA 29: Definizione covarianza xy e sue proprietà La covarianza è il momento centrale misto di ordine r+s=2 con r=1 e s=1. E’ quindi definita come: µ11 = xy = 1/n (xi - µx) (yi - µy) La correlazione è lo studio di come variano insieme due caratteri quantitativi. La covarianza è un indice di correlazione, non è quindi un indice di variabilità, anche perchè può essere negativa e, come noto, gli indici di variabilità sono solo e sempre positivi o zero. (segue) RIPASSO teorico e dimostrazioni per esame di STATISTICA 12 © 1999-2000 www.profste.com Email: [email protected] Scienze Politiche © 1999-2000 www.profste.com Email: [email protected] RIPASSO teorico e dimostrazioni per esame di STATISTICA (segue) Proprietà: a) Dati due caratteri quantitativi X e Y indipendenti statisticamente, questi saranno anche incorrelati ovvero si ha che xy=0 e quindi =0 Dimostrazione: xy = 1/n ij (xi - µx) (yj - µy) fij Se c’è IS si ha che: fij= (fi. f.j)/n i,j Sostituendo si ottiene: xy = 1/n ij (xi - µx) (yj - µy) (fi. f.j)/n Da cui, svolgendo il prodotto per fi. f.j e applicando la proprietà di omogeneità di , si ha: xy = [1/n i (xi - µx) fi.][1/n j (yj - µy) f.j] Dato che per la proprietà di µ: j (yj - µy) f.j= 0 Ne consegue che: xy = 0 c.v.d. Essendo poi: = xy/xy Con xy = 0 si ha: = 0/xy = 0 E’ importante ricordare che non vale il contrario, cioè se tra due caratteri la xy = 0 non è detto vi sia IS, dato che potrebbe aversi la sola incorrelazione, pur in presenza di una certa connessione. b) Dati due caratteri quantitativi X e Y con una certa xy, se si opera una doppia trasformazione lineare: W=a+bX Z = c+ d Y Si ha che: wz = bd xy Inoltre: wz = xy Dimostrazione: wz = 1/n (wi - µw) (zi - µz) Sapendo che: W = a + b X Z = c+ d Y e che per la proprietà di µ: µw = a + b µx µz = c+ d µy sostituendo si ottiene: wz = 1/n (a + b xi - a - b µx) (c + d yi – c - d µy) Semplificando,raccogliendo e riordinando opportunamente si ha: wz = bd/n (xi - µx) (yi - µy) Da cui: wz = bd xy c.v.d. Inoltre: wz = wz/wz = bdwz/bwbz = xy RISPOSTA 30: Vedi proprietà a) cov RISPOSTA 31: Vedi proprietà b) cov RISPOSTA 32: IM implica l’incorrelazione Se si ha IM di ad es.Y/X, si ha incorrelazione, cioè xy = 0. RIPASSO teorico e dimostrazioni per esame di STATISTICA 13 © 1999-2000 www.profste.com Email: [email protected] Scienze Politiche © 1999-2000 www.profste.com Email: [email protected] RIPASSO teorico e dimostrazioni per esame di STATISTICA Infatti essendo: xy = 1/n ij (xi - µx) (yj - µy) fij Se c’è IM di Y/X si ha che µy/Xi = µy i sostituendo si ha: xy = 1/n ij (xi - µx) (yj - µy/Xi) fij applicando la proprietà di omogeneità di si ottiene: xy = 1/n i (xi - µx) j (yj - µy/Xi) fij Essendo poi j (yj - µy/Xi) fij = 0 per la proprietà di µ: xy = 0 RISPOSTA 33 : Coefficente di correlazione lineare di Bravais E’ definito come: = xy/xy Misura l’intensità del legame di interdipendenza lineare tra due caratteri quantitativi X e Y e, attraverso il segno, anche il verso di tale legame (positivo o negativo). Se = 1 si ha perfetta dipendenza lineare (pos. o neg. che sia) ovvero i due caratteri sono perfettamente correlati. Se 0 < < 1 si ha una dipendenza lineare positiva, tanto più elevata quanto più si avvicina al valore 1 Se .-1 < < 0 si ha una dipendenza lineare negativa, tanto più elevata quanto più si avvicina al valore -1 Se = 0 si ha incorrelazione ovvero i due caratteri sono tra loro incorrelati. è anche usato come indice di interdipendenza nei casi dove si effettua una doppia interpolazione, essendo dimostrabile come sia determinabile anche come media geometrica dei coefficenti angolari delle due rette interpolanti. RIPASSO teorico e dimostrazioni per esame di STATISTICA 14 © 1999-2000 www.profste.com Email: [email protected] Scienze Politiche © 1999-2000 www.profste.com Email: [email protected] RIPASSO teorico e dimostrazioni per esame di STATISTICA RISPOSTA 34 : Condizione dei minimi quadrati/retta interpolante ai minimi quadrati/retta di regressione Dati due fenomeni quantitativi si cerca una funzione continua analitica Ŷ=f(X) che interpreti la dipendenza di Y da X. La funzione dovrà essere la miglior interprete possibile di tale dipendenza, un modo per individuarla è quello di sceglierla in modo tale che renda minima la seguente espressione: (Yi – Ŷi)2 In pratica si cerca quella funzione che minimizzi la somma degli scarti al quadrato tra i valori reali Y i e i valori teorici Ŷi ovvero la funzione che passi il più possibile vicino ai punti, appunto, la miglior interprete possibile della dipendenza di Y da X. Il metodo di scelta è per questo detto criterio dei minimi quadrati quindi: La funzione Ŷ=f(X) può essere scelta tra infinite possibili, per semplicità si decide di usare la retta Ŷ= a + b X, sostituendo la condizione sopra esposta diventa: [Yi – (a + b xi)] = minimo Si tratta quindi di determinare i parametri a e b che individuino la retta interpolante ai minimi quadrati ovvero la retta che soddisfi tale condizione. Ricorrendo perciò alle derivate prime parziali rispetto ad a ed a b, eguagliandole a zero, mettendo a sistema e risolvendo si ottiene: a = µy – b µx b = xy/2x RISPOSTA 35 : Doppia interpolante Talvolta può essere utile studiare la dipendenza di un carattere dall’altro, ad es. di Y da X, ma nel contempo anche il contrario, quindi anche di X da Y. Ciò avviene nei casi di interdipendenza ad es. età dello sposo/età della sposa. E’ necessario perciò determinare due interpolanti, ossia: Ŷ= a + b X che interpreta la dip. di Y/X X= c + d Y che interpreta la dip. di X/Y Dove i parametri delle due rette sono, secondo il criterio dei minimi quadrati: a = µy – b µx b = xy/2x e: c = µx – d µy d = xy/2y Inoltre, si dimostra che la media geometrica dei coefficenti angolari delle due interpolanti è pari al coefficente di correlazione lineare . Infatti: µ0(b,d)=(bd)1/2=[(xy/2x)(xy/2y)]1/2=[(2xy/2x2y)]1/2=(2)1/2= è perciò utilizzabile anche come indice di interdipendenza, nei casi di doppia interpolazione. RIPASSO teorico e dimostrazioni per esame di STATISTICA 15 © 1999-2000 www.profste.com Email: [email protected] Scienze Politiche © 1999-2000 www.profste.com Email: [email protected] RIPASSO teorico e dimostrazioni per esame di STATISTICA RISPOSTA 44 : Proprietà del valore atteso e della varianza. Le proprietà del valore atteso di una v.c. sono: E(a) = a E(aX) = a E(X) E(xi) = E(xi) Le proprietà della varianza di una v.c. sono: VAR(a) = 0 VAR(aX) = a2 VAR(X) Solo se le v.c. sono tra loro indipendenti e quindi incorrelate si ha che: VAR(xi) = VAR(xi) RISPOSTA 50: Proprietà degli stimatori Correttezza: si dice che T è corretto o non distorto per il parametro se la media di T coincide con , ossia E() = T Consistenza: uno stimatore T si dice consistente per , se al crescere della numerosità campionaria n migliora la stima, ossia si avvicina sempre più a , quindi se: lim P{| T - |< } = 1 n∞ Efficienza relativa: Dati più stimatori per , tutti corretti e consistenti, si preferisce quello che ha minor varianza. RISPOSTA 51: Definizione dello stimatore media campionaria X E’ una variabile casuale determinata facendo la media dei possibili risultati delle estrazioni di un campione, quindi è la distribuzione campionaria della media aritmetica. E’ quindi uno stimatore della media aritmetica. In pratica, si tratta di calcolare la media aritmetica dei diversi campioni e di associare ad ogni valore della media la probabilità di quei campioni cui tale media corrisponde. Lo stimatore della media è quindi la variabile casuale: X = 1/n Xi Lo stimatore è corretto in quanto il suo valore atteso coincide col parametro da stimare, infatti: E(X) = µ Lo stimatore è consistente in quanto la sua variabilità decresce al crescere della numerosità campionaria n, infatti: VAR(X) = 2/µ RIPASSO teorico e dimostrazioni per esame di STATISTICA 16 © 1999-2000 www.profste.com Email: [email protected]