STATISTICA DESCRITTIVA La statistica è sorta in tempi antichissimi con i censimenti: storico quello di Augusto che, secondo la tradizione cristiana coinvolse Maria e Giuseppe, giusto alla nascita di Gesù. Solo nel secolo XVII, in seguito alle grandi scoperte matematiche, nacque la statistica come disciplina a sé stante il cui campo di applicazione si è ampliato trovando applicazione oltre che in demografia, in moltissime discipline: economia, sociologia, fisica, biologia, genetica, psicologia ecc. E’ consuetudine suddividere la statistica in: Statistica descrittiva, che ha lo scopo di raccogliere ed elaborare i dati per descrivere fenomeni collettivi o di massa Statistica induttiva (o inferenza statistica), che si occupa dei metodi che permettono di stimare le caratteristiche di un fenomeno collettivo partendo dall’analisi delle caratteristiche di un campione. Generalità a) Fenomeni tipici, atipici e collettivi Per fenomeno si intende tutto ciò che capita intorno a noi o che noi stessi provochiamo. Tutti i fenomeni che si presentano costantemente con le stesse caratteristiche sono chiamati fenomeni tipici. Ad esempio un corpo abbandonato a una certa altezza, cade verticalmente verso il basso a causa della forza di gravità terrestre. Esistono fenomeni che si manifestano ogni volta con caratteristiche diverse e per le quali è difficile fare delle previsioni sul loro comportamento e che per questo sono definiti fenomeni atipici. Pensiamo, ad esempio, ai fenomeni meteorologici. Se consideriamo, invece, fenomeni sociali quali ad esempio le nascite, i matrimoni, le migrazioni, non è possibile stabilire delle leggi generali come avviene invece per i fenomeni tipici. Possiamo però affermare che se si effettuano delle osservazioni molto numerose su tali fenomeni, essi rivelano una tipicità di comportamento che ci permette di studiare le leggi che li governano. Questo tipo di fenomeni vengono chiamati fenomeni collettivi. La statistica analizza, in termini quantitativi, i fenomeni collettivi. b) Natura del metodo statistico La ricerca scientifica usa essenzialmente due metodi: il metodo deduttivo e il metodo induttivo. Si adopera il metodo deduttivo se si stabiliscono a priori assiomi generali, che si pongono come premesse al processo logico, e in seguito, attraverso il ragionamento, se ne ricavano le possibili conseguenze. Si procede dal generale al particolare. Se, invece, si parte dall’osservazione di fatti singoli e, successivamente, generalizzando, si risale ai principi e alle leggi di carattere generale relativi ai fatti studiati, si adopera il metodo induttivo, si procede cioè dal particolare al generale. Il metodo statistico è il metodo induttivo per eccellenza perché cerca di ricavare, pur nella varietà delle singole manifestazioni, le leggi soggiacenti ai fenomeni stessi, o almeno di evidenziare eventuali regolarità, in modo da trarre previsioni relative al comportamento futuro c) Dati statistici Si definisce unità statistica o individuo il più piccolo elemento sul quale si effettua un’osservazione. Esempi di unità statistiche: Studente Famiglia Aziende Scuole Università L’unità statistica può essere: Semplice, se corrisponde ad una singola persona o a un oggetto (ad esempio età di una persona, cilindrata di un’automobile); Composta, se è composta da un insieme di elementi (ad esempio, nuclei familiari) Si definisce dato statistico il risultato di un’operazione compiuta sulle unità statistiche (ad esempio il prezzo medio di un certo bene) Per popolazione statistica si intende l’insieme degli elementi che sono oggetto di studio cioè le unità statistiche. d) Frequenza e intensità Se i dati statistici esprimono il numero di volte in cui un dato fenomeno si è verificato assumono la natura di frequenza (ad esempio il numero dei promossi a giugno di una certa scuola) Se rappresentano invece una media, una somma allora esprimono una intensità (ad esempio la statura media di un gruppo di giovani della stessa età). e) Carattere, modalità quantitative e qualitative Le unità statistiche vengono studiate secondo uno o più caratteri comuni e successivamente vengono divisi rispetto alle varie modalità attraverso cui il carattere si manifesta. Il carattere è rappresentato, ad esempio, dal “tipo di scuola”, mentre le modalità sono rappresentate da: “scuole materne”, “scuole elementari”, scuole superiori”. In questo caso le modalità sono qualitative in quanto sono espresse da espressioni verbali. Un carattere qualitativo è detto mutabile statistica. Se prendiamo in esame il carattere “altezza”, le varie modalità sono rappresentate dalle misure delle diverse altezze divise per scaglioni (da 150 cm a 155 cm, da 155 cm a 160 cm). In questo caso le modalità sono quantitative essendo espresse da numeri. Un carattere quantitativo è detto variabile statistica. Le modalità quantitative possono essere: Continue, se sono espresse da numeri reali (ad esempio altezze e pesi). Tutte le osservazioni di un fenomeno collettivo che sono oggetto di un processo di misurazione originano dati quantitativi di tipo continuo. Discrete quando tutte le osservazioni sono oggetto di un processo di conteggio o enumerazione. Ad esempio il numero di vani di una abitazione, il numero di componenti in una famiglia, numero libri di una biblioteca Osservazione Un carattere determina una partizione della popolazione statistica poiché suddivide tale popolazione in un certo numero di sottoinsiemi, ciascuno costituito dalle unità statistiche aventi la stessa modalità, e quindi sono sottoinsiemi non vuoti, a due a due disgiunti e la loro unione è l’insieme universo. a) Tabelle a semplice entrata Una tabella a semplice entrata è costituita da due colonne, la prima riporta le varie modalità del carattere qualitativo, o le varie intensità del carattere quantitativo, la seconda riporta le frequenze rilevate. Se il carattere è qualitativo la successione dei dati è detta serie statistica Esempio di serie statistica rispetto ad un carattere qualitativo Specie di scuole Scuole materne Scuole elementari Scuole medie Scuole secondarie superiori Totale N. alunni iscritti 1.636.377 3.909.365 2.797.766 2.546.772 10.893.280 Se invece il carattere è quantitativo la successione dei dati è detta seriazione statistica. Esempio di seriazione statistica rispetto ad un carattere quantitativo discreto N. stanze 1 2 3 4 5 6 e più N. abitazioni 300.364 1.791.887 3.761.695 5.616.939 3.520.498 2.550369 17.541.752 b) Tabelle a doppia entrata Se si eseguono rilevazioni su due o più caratteri contemporaneamente come, ad esempio, altezza e peso dei militari di leva oppure spese per beni alimentari e spese voluttuarie, i dati rilevati si rappresentano con tabelle a doppia entrata che possono essere: Di contingenza, se i due caratteri sono entrambi qualitativi (si parla di mutabile statistica doppia); Di correlazione, se i due caratteri sono entrambi quantitativi (si parla di variabile statistica doppia); Miste, se uno dei due caratteri è qualitativo e l’altro è quantitativo. Esempio di tabella di contingenza (tabella di distribuzione di una mutabile statistica doppia) Sesso Province Femmine 1.129.899 187.804 243.151 269.790 103.741 222.719 2.157.104 Torino Vercelli Novara Cuneo Asti Alessandria Totali Totali Maschi 1.194.474 206.838 262.200 275.717 110.314 240.715 2.290.258 2.324.373 394.642 505.351 545.507 214.055 463.434 4.447.362 Esempio di tabella di correlazione (tabella di distribuzione di una variabile statistica doppia) N. vani 1 10 6 3 1 0 20 1 2 3 4 5 Totali 2 4 10 10 3 1 28 Componenti famiglia 3 4 1 0 5 2 12 8 8 4 2 1 28 15 5 0 0 2 2 1 5 Totali 6 0 0 1 2 1 4 15 23 36 20 6 100 Esempio di tabella mista Età Fino a 13 anni 14 - 17 18 - 24 25 - 44 45 - 64 Oltre 65 anni Totali Sesso Femmine 10 44 144 426 622 601 1.847 Maschi 1 11 59 183 288 242 784 Totali 11 55 203 609 910 843 2.631 c) Tabelle composte Sono tabelle formate da più colonne che si riferiscono a varie caratteristiche anche senza legame fra esse. Reddito Anni 1980 1981 1982 1983 1984 Spesa Familiare Pro capite Familiare Pro capite 943 1.111 1.310 1.458 1.641 294 347 409 483 544 854 1.005 1.174 1.269 1.417 267 314 367 421 469 Percentuale consumo su reddito 90,6 90,4 89,7 87,1 86,3 Variabili e mutabili statistiche Una variabile statistica è definita dall’insieme dei valori osservati di un carattere quantitativo e dalle frequenze a essi associate; Una mutabile statistica è definita dall’insieme delle modalità osservate di un carattere qualitativo e dalle frequenze ad esse associate. Frequenze statistiche Si definisce frequenza assoluta di un valore di un carattere il numero di unità che possiedono quel valore. Si definisce frequenza relativa di un valore di un carattere il quoziente tra la frequenza assoluta e il numero di unità della popolazione. Le frequenze relative sono sempre numeri compresi tra 0 e 1 e la loro somma è uguale a 1. Si definisce frequenza percentuale la frequenza relativa moltiplicata per 100. Si definisce frequenza cumulata assoluta di un valore la somma delle frequenze assolute dello stesso carattere relative a tutti i valori, minori o uguali al valore considerato. Si definisce frequenza cumulata relativa di un valore la somma delle frequenze relative dello stesso carattere relative a tutti i valori, minori o uguali al valore considerato. Si definisce frequenza cumulata percentuale di un valore la somma delle frequenze percentuali dello stesso carattere relative a tutti i valori, minori o uguali al valore considerato. Esempio Tabella degli italiani residenti all’estero al 31 dicembre 2007 Ripartizioni estero Frequenza assoluta Frequenza relativa Frequenza percentuale Frequenza Cumulata assoluta Europa 2.072.410 0,57 57% 2.072.410 0,57 57% 1.017.776 0,28 28% 3.090.186 0,85 85% 359.852 0,10 10% 3.450.038 0,95 95% 199.339 0,05 5% 3.649.377 1 100% 3.649.377 1 100% America merid. America settentr. e centrale Africa, Asia, Oceania, Antartide Totale Frequenza Frequenza cumulata cumulata relativa percentuale Rappresentazioni grafiche I dati raccolti in tabelle si possono rappresentare graficamente utilizzando diversi tipi di rappresentazioni grafiche le quali sono molto più espressive di una tabella in quanto permettono di capire l’andamento del fenomeno e di essere utilizzate anche per ricercare il modello matematico del fenomeno (ossia una funzione che esprima l’andamento del fenomeno). Esempi di rappresentazione grafica Istogrammi Italiani residenti all'estero al 31 dicembre 2007 2500000 2000000 1500000 1000000 500000 0 Europa America meridionale America settentrionale e centrale Frequenze assolute Africa, Asia, Oceania, Antartide Diagramma cartesiano Abitazioni in Italia secondo il numero di stanze 6000000 N. abitazioni 5000000 4000000 3000000 2000000 1000000 0 1 2 3 4 5 N. vani Grafico a Torta Vendite 10% 9% 23% 58% 1° trim. 2° trim. 3° trim. 4° trim. 6 I valori medi I valori medi consentono di sintetizzare le distribuzioni statistiche o di confrontarle con altre distribuzioni omogenee: per esempio si potrebbero confrontare i voti conseguiti agli esami di maturità dagli alunni di due licei. In statistica si distinguono due tipi di medie: Medie di calcolo (o ferme); sono quelle che si calcolano tenendo conto di tutti i valori della distribuzione. Fanno parte di queste medie: la media aritmetica, la media geometrica, la media quadratica e la media armonica Medie di posizione (o lasche); sono quelle che si calcolano tenendo conto solo di alcuni valori. Fanno parte di queste medie: la mediana e la moda o valore normale Media aritmetica La media aritmetica è il valore che più comunemente viene associato a una serie di dati quantitativi tanto che quando si parla genericamente di media si fa riferimento alla media aritmetica. Si definisce media aritmetica semplice di più numeri quel valore M (indicato anche con ̅𝑥 ) che, sostituito ai dati, lascia invariata la loro somma: 𝑥1 + 𝑥2 + ⋯ . +𝑥𝑛 = 𝑀 + 𝑀 + ⋯ + 𝑀 = 𝑛 ∙ 𝑀 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 𝑀 = 𝑥̅ = 𝑛 Se i valori 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 compaiono con frequenze rispettivamente 𝑓1 + 𝑓2 + ⋯ + 𝑓𝑛 (dette anche pesi) tali che 𝑓1 + 𝑓2 + ⋯ + 𝑓𝑛 = 𝑛 allora: 𝑥1 ∙ 𝑓1 + 𝑥2 ∙ 𝑓2 + ⋯ + 𝑥𝑛 ∙ 𝑓𝑛 𝑀 = 𝑥̅ = 𝑓1 + 𝑓2 + ⋯ 𝑓𝑛 Che prende il nome di media aritmetica ponderata. Se i dati sono distribuiti in classi di uguale ampiezza ci si riconduce al caso discreto sostituendo alla classe il suo valore centrale, ottenuto come media aritmetica degli estremi. Esempio Numero dipendenti 1-9 10 - 19 20 - 29 La media dei dipendenti è: 𝑀 = Frequenza 59 73 18 59∙5+73∙14,5+18∙24,5 150 Punto centrale della classe 5 14,5 24,5 = 11,96 Osservazione La media ha significato se i valori sono diffusi in modo bilanciato. Non è un buon indice se nei dati sono presenti valori estremi anormali. Se nella serie di dati compaiono valori estremi molto distanti dagli altri si usano come medie la mediana o la moda. Proprietà fondamentali della media aritmetica 1. La somma degli scarti è nulla, intendendo per scarti la differenza tra i singoli valori e la media (𝑥1 − 𝑀) + (𝑥2 − 𝑀) + ⋯ + (𝑥𝑛 − 𝑀) = 0 2. La media è il valore che rende minima la somma dei quadrati degli scarti cioè qualunque sia il numero c si ha: (𝑥1 − 𝑀)2 + (𝑥2 − 𝑀)2 + ⋯ + (𝑥𝑛 − 𝑀)2 ≤ (𝑥1 − 𝑐)2 + (𝑥2 − 𝑐)2 + ⋯ + (𝑥𝑛 − 𝑐)2 3. La media aritmetica M è sempre un numero compreso tra il minimo e il massimo degli n valori min+min+…+min ≤ 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 ≤ Max+Max+…+Max n∙min ≤ 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 ≤ n∙Max Dividendo per n si ottiene: min ≤ M ≤ Max 4. Se tutti i termini di una serie subiscono un incremento (o decremento) uguale a b anche la media aritmetica subisce lo stesso incremento (o decremento) b. Se tutti i termini della serie vengono moltiplicati (o divisi) per lo stesso numero a anche la loro media aritmetica risulta moltiplicata (o divisa) per a. Pertanto se M è la media degli n valori 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 la media dei valori (𝑎𝑥1 + 𝑏) + (𝑎𝑥2 + 𝑏) + ⋯ + (𝑎𝑥𝑛 + 𝑏) ha media aM+b. Media geometrica Se i valori sono tutti positivi o nulli si può calcolare la media geometrica che viene utilizzata tutte le volte che deve rimanere invariato il prodotto dei valori. Si definisce media geometrica semplice dei numeri positivi 𝑥1 , 𝑥2 , … , 𝑥𝑛 Il numero positivo G che sostituito ai valori xi lascia invariato il loro prodotto: 𝑥1 ∙ 𝑥2 ∙ … ∙ 𝑥𝑛 = 𝐺 ∙ 𝐺 ∙ … .∙ 𝐺 = 𝐺 𝑛 𝐺 = 𝑛√𝑥1 ∙ 𝑥2 ∙ … ∙ 𝑥𝑛 Da cui si ricava: Nel caso in cui i valori xi hanno frequenze fi si parla media geometrica ponderata e si ha: 𝑛 𝐺 = √(𝑥1 ) 𝑓1 ∙ (𝑥2 ) 𝑓2 … (𝑥𝑛 ) 𝑓𝑛 𝑐𝑜𝑛 𝑛 = 𝑓1 + 𝑓2 + ⋯ + 𝑓𝑛 Proprietà della media geometrica 1. Il logaritmo della media geometrica di n numeri positivi x1, x2,…, xn coincide con la media aritmetica degli n logaritmi logx1, logx2, …, logxn : 1 𝑙𝑜𝑔𝐺 = 𝑙𝑜𝑔(𝑥1 ∙ 𝑥2 ∙ … ∙ 𝑥𝑛 )𝑛 = 𝑙𝑜𝑔𝑥1 + 𝑙𝑜𝑔𝑥2 + ⋯ + 𝑙𝑜𝑔𝑥𝑛 𝑛 2. Moltiplicando (o dividendo) tutti i valori xi per una stessa quantità k>0 la media geometrica risulta moltiplicata (o divisa) per tale quantità: 𝑛 𝑛 √𝑘𝑥1 ∙ 𝑘𝑥2 ∙ … ∙ 𝑘𝑥𝑛 = √𝑘 𝑛 ∙ 𝑥1 ∙ 𝑥2 ∙ … ∙ 𝑥𝑛 = 𝑘 ∙ 𝑛√𝑥1 ∙ 𝑥2 ∙ … ∙ 𝑥𝑛 = 𝑘𝐺 3. Il reciproco della media geometrica è uguale alla media geometrica del reciproco dei valori xi: 𝑛 𝐺′ = √ 1 1 1 1 1 ∙ ∙ …∙ =𝑛 = 𝑥1 𝑥2 𝑥𝑛 √𝑥1 ∙ 𝑥2 ∙ … ∙ 𝑥𝑛 𝐺 Si utilizza la media geometrica quando ha senso moltiplicare fra loro i dati statistici. Si calcola la media geometrica per determinare, ad esempio, il tasso di incremento medio (o di decremento) dei prezzi o il tasso di accrescimento di una popolazione. Esempio Un capitale C0 investito in borsa, il primo anno aumenta del 25% mentre il secondo anno diminuisce del 10%. Qual è il montante alla fine dei due anni? Qual è il fattore di capitalizzazione medio? Alla fine del primo anno il capitale risulta uguale a: 𝐶1 = 𝐶0 (1 + 0,25) con fattore di capitalizzazione x1 = 1,25. Alla fine del secondo anno il capitale risulta uguale a: 𝐶2 = 𝐶0 (1 + 0,25)(1 − 0,10) con fattore di capitalizzazione x2 = 0,90. Il fattore di capitalizzazione medio xG è la media geometrica dei due fattori di capitalizzazione annuali: 𝑥𝐺 = √𝑥1 ∙ 𝑥2 = √1,25 ∙ 0,90 = 1,06 Media quadratica Si definisce media quadratica semplice degli n numeri positivi x1, x2, …, xn il numero positivo Q: 𝑥1 2 + 𝑥2 2 + ⋯ + 𝑥𝑛 2 𝑄=√ 𝑛 Nel caso in cui i valori xi hanno frequenze fi si parla media quadratica ponderata e si ha: 𝑄=√ 𝑓1 ∙ 𝑥1 2 + 𝑓2 ∙ 𝑥2 2 + ⋯ + 𝑓𝑛 ∙ 𝑥𝑛 2 𝑓1 + 𝑓2 + ⋯ + 𝑓𝑛 La media quadratica viene utilizzata tutte le volte che deve rimanere invariata la somma dei quadrati dei valori. Esempio Un proprietario terriero vende 3 terreni quadrati di lati rispettivamente uguali a l1=240 m, l2=340 m, e l3=460 m e vuole comperare 3 terreni quadrati uguali con la stessa superficie totale. Quanto deve misurare il lato l dei 3 terreni da comprare? Deve risultare: 3𝑙 2 = 𝑙12 + 𝑙22 + 𝑙32 ; 𝑙12 + 𝑙22 + 𝑙32 2402 + 3402 + 4602 𝑙=√ =√ = 358,14 𝑚 3 3 Media armonica Si definisce media armonica semplice degli n numeri positivi x1, x2, …, xn il numero positivo A: 𝐴= 𝑛 1 1 1 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 La media armonica è quel valore che sostituito ai dati rende invariata la somma dei reciproci. Infatti: 1 1 1 1 1 1 1 + + ⋯+ = + + ⋯+ = 𝑛 ∙ 𝑥1 𝑥2 𝑥𝑛 𝐴 𝐴 𝐴 𝐴 da cui si ricava la formula della media armonica. Nel caso in cui i valori xi hanno frequenze fi si parla media armonica ponderata e si ha: 𝐴= 𝑓1 + 𝑓2 + ⋯ + 𝑓𝑛 𝑓1 𝑓2 𝑓𝑛 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 La media armonica si applica tutte le volte che ha senso calcolare il reciproco dei dati; ad esempio per determinare il potere d’acquisto medio di una moneta o per conoscere la velocità media. Esempio Una merce è stata venduta nel corso di 5 periodi successivi ai seguenti prezzi (in euro): 280 320 350 360 400 Calcolare il potere di acquisto medio (riferito ad un importo di 1000 €). (Ricordiamo che si definisce potere d’acquisto la quantità di merce che si può acquistare con una data unità di moneta) I poteri d’acquisto risultano: 1000 1000 1000 1000 1000 3,571; = 3,125; = 2,857; = 2,778; = 2,5 280 320 350 360 400 Ed esprimono quante unità, o frazioni di unità, di quella merce si sarebbero potute acquistare con 1000 €. Il valore medio di unità, o frazioni di unità, che si sarebbero potute acquistare con 1000 € è dato dalla loro media aritmetica: 1000 1000 1000 1000 1000 + + + + 320 360 400 = 2,966 350 𝑀 = 280 5 Lo stesso valore si sarebbe ottenuto calcolando prima la media armonica dei prezzi: 𝐴= 5 = 337,139 1000 1000 1000 1000 1000 280 + 320 + 350 + 360 + 400 che rappresenta il prezzo medio di acquisto. Dividendo 1000 per 337,139 si ottiene 2,966. Esempio Un punto materiale si muove su una retta percorrendo il primo metro a velocità v1, e un secondo metro alla velocità v2. Calcolare la velocità media. La velocità media è la media armonica delle due velocità: 𝑣𝑚 = 2 2 = 1 1 𝑡1 + 𝑡2 𝑣1 + 𝑣2 Osservazione Fra le medie di calcolo esaminate sussiste la seguente relazione che tralasciamo di dimostrare: A≤G≤M≤Q Il segno di uguale vale nel caso in cui tutti i valori siano uguali tra loro. Moda Si chiama moda degli n elementi x1, x2,…, xn l’elemento (o gli elementi) che ha la frequenza più alta. Se i dati sono raggruppati in classi e l’ampiezza della classe è costante, la classe modale è quella a cui corrisponde la frequenza maggiore. Se le classi hanno ampiezza diversa, si divide ogni frequenza per l’ampiezza della rispettiva classe e la classe modale è quella alla quale corrisponde il rapporto maggiore. Il valore modale è, fra tutti i valoro medi, il più significativo in quanto è un dato che esprime il valore di una concreta osservazione sul fenomeno, mentre le medie di calcolo possono o meno coincidere con un valore della distribuzione. Considerando, ad esempio, le retribuzioni di un insieme di lavoratori, il valore modale è senz’altro il più significativo, in quanto corrisponde alla retribuzione più frequente e non è influenzato dalle retribuzioni o molto basse o molto alte. Esempio Rilevazione delle abitazioni occupate in Italia secondo il numero di stanze nel 1981 N. stanze 1 2 3 4 5 6 e più N. abitazioni 300.364 1.791.887 3.761.695 5.616.939 3.520.498 2.550369 17.541.752 Il valore modale della distribuzione è 4 stanze perché a questo corrisponde la massima frequenza. Esempio Ripartizione delle autovetture prodotte in Italia nell’anno 1981 secondo la cilindrata Cilindrate (in cm3) 500-------------|1.000 1.000-----------|1.500 1.500-----------|2.000 Oltre 2.000 Totale N. autovetture 433.963 491.798 281.239 50.340 1.257.340 Poiché le classi hanno uguale ampiezza la classe 1.000----------|1.500 è la classe modale. Esempio Distribuzione dei Comuni dell’Italia per classi di superficie al 31.12.1981 Classi di superficie (in migliaia di ha) Fino a 1 1--------------|2 2--------------|4 4--------------|6 6--------------|10 10------------25 Oltre 25 Totale N. Comuni 1.737 2.058 2.085 885 735 518 68 8.086 Poiché le classi hanno ampiezza diversa, per determinare il valore modale della distribuzione bisogna dividere le frequenze per l’ampiezza della classe relativa. La classe modale è la classe 1---|2 perché ad essa corrisponde il massimo valore dei rapporti. Mediana Si chiama mediana degli n elementi x1, x2,…, xn ordinati in senso non decrescente il valore Me che bipartisce la successione, ossia il valore non inferiore alla metà dei valori e non superiore all’altra metà Una volta ordinati i valori, se il numero n dei termini è dispari, la mediana è il valore centrale; se n è pari, si assume come mediana la semisomma dei due valori centrali. Il procedimento precedente si applica alle serie. Esempio Nelle nove prove di Italiano uno studente ha ottenuto i seguenti risultati: 3, 4,4,4,5,6,6,7,10 Moda: 4; Mediana: 5 Per le distribuzioni di frequenza con valori discreti, occorre, per prima, calcolare le frequenze assolute cumulate. Il valore della mediana sarà pari alla metà della somma delle frequenze se questa è pari e alla metà della somma della frequenze più uno se questa è dispari. Esempio N. stanze N. abitazioni 300.364 1.791.887 3.761.695 5.616.939 3.520.498 2.550369 1 2 3 4 5 6 e più Frequenze assolute cumulate 300.364 2.092.251 5.853.946 11.470.885 14.991.383 17.541.752 Per determinare il temine centrale dividiamo per 2 il numero totale delle abitazione: 17.541.752 : 2 = 8.770.876 La mediana è il valore del numero di stanze che corrisponde al numero 8.770.876. Tale termine si trova nella riga corrispondente a 4. Il numero mediano di stanze delle abitazioni italiane è perciò 4. La variabilità della statistica: gli indici di dispersione Nello studio dei dati statistici non è sufficiente determinare il valore medio ma è necessario determinare anche altri indici in grado di fornire informazioni sulla variabilità dei dati, detta anche dispersione cioè sulla distanza delle varie osservazioni dal valore medio che rappresenta il centro della distribuzione. Valore medio X1 X2 X3 Xi Xn-1 Xn Tanto minore è la distanza (o dispersione) delle osservazioni dal centro tanto maggiore sarà la rappresentatività e l’affidabilità. Gli indici di variabilità hanno due proprietà fondamentali: 1. Valgono zero se i dati statistici sono tutti uguali 2. Sono positivi se i dati statistici sono diversi e sono tanto più grandi quanto più gli elementi sono dispersi Vi sono quattro modi per descrivere la variabilità di una serie di dati statistici: Il campo di variazione Lo scarto semplice medio Lo scarto quadratico medio Lo scarto interquartile Campo di variazione Si definisce campo di variazione di n elementi x1, x2,…, xn la differenza tra il massimo e il minimo dei valori rilevati. Il campo di variazione è un indice molto semplice da calcolare ma di scarsa utilità perché tiene conto solo dei valori estremi e non degli altri. Esempio {35,11,35,37,34,34,36} min = 11; Max = 37; campo di variazione d = 37-11=26 Scarto semplice medio Si definisce scarto semplice medio di n elementi x1, x2,…, xn la media aritmetica dei valori assoluti degli scarti dei valori dalla media aritmetica: 𝑆= |𝑥1 − 𝑀| + |𝑥2 − 𝑀| + ⋯ + |𝑥𝑛 − 𝑀| 𝑛 Scarto quadratico medio Si definisce scarto quadratico medio o deviazione standard di n elementi x1, x2,…, xn la media quadratica, semplice o ponderata, degli scarti dei valori dalla media aritmetica: 𝜎=√ (𝑥1 − 𝑀)2 + (𝑥2 − 𝑀)2 + ⋯ + (𝑥𝑛 − 𝑀)2 𝑛 Lo scarto quadratico medio è tanto più piccolo quanto più i dati sono vicini al valore medio ed è uguale a zero se e solo se i dati sono tutti uguali. Il quadrato dello scarto quadratico medio è detto varianza ed è indicato con σ2: 𝜎2 = (𝑥1 − 𝑀)2 + (𝑥2 − 𝑀)2 + ⋯ + (𝑥𝑛 − 𝑀)2 𝑛 La varianza è uguale alla differenza dei fra la media degli xi2 e il quadrati della media degli xi : 𝜎2 = 2 2 2 2 ∑𝑖=𝑛 ∑𝑖=𝑛 ∑𝑖=𝑛 ∑𝑖=𝑛 𝑖=1 (𝑥𝑖 − 𝑀) 𝑖=1 (𝑥𝑖 − 2𝑀𝑥𝑖 + 𝑀 ) 𝑖=1 𝑥𝑖 𝑖=1 𝑥𝑖 = = − 2𝑀 + 𝑀2 𝑛 𝑛 𝑛 𝑛 2 ∑𝑖=𝑛 𝑖=1 𝑥𝑖 = − 2𝑀2 + 𝑀2 = 𝑀𝑥 2 − 𝑀2 𝑛 Esempio Consideriamo la seguente tabella corrispondente a 75 lanci di una coppia di dadi e alla somma dei valori ottenuti da 2 a 12 con le relative frequenze: Somme xi Frequenze fi 2 3 3 5 4 8 5 6 7 10 11 11 8 9 9 6 10 11 12 7 3 2 Determiniamo la media, la varianza e lo scarto quadratico medio. xi 2 3 4 5 6 7 8 9 10 11 12 77 M= fi 3 5 8 10 11 11 9 6 7 3 2 75 6,6533 (xi)2 4 9 16 25 36 49 64 81 100 121 144 649 xifi 6 15 32 50 66 77 72 54 70 33 24 499 (xi)2 ∙fi 12 45 128 250 396 539 576 486 700 363 288 3783 M2 = 44,26684 σ2 = 50,44-44,26 = 6,17 |xi-M| 4,6533 3,6533 2,6533 1,6533 0,6533 0,3467 1,3467 2,3467 3,3467 4,3467 5,3467 30,3467 |xi2 (xi-M) M|∙fi 21,6535 13,96 13,3468 18,27 7,0402 21,23 2,7335 16,53 0,4268 7,19 0,1202 3,81 1,8135 12,12 5,5068 14,08 11,2002 23,43 18,8935 13,04 28,5868 10,69 111,3220 154,35 Mx2 = σ=2,48 50,44 (xi-M)2 ∙fi 64,96 66,73 56,32 27,34 4,70 1,32 16,32 33,04 78,40 56,68 57,17 462,99 Indici di dispersione relativi Una differenza di 20 mila euro nel reddito annuo è consistente se stiamo confrontando il reddito di 40 mila euro e l’altro con un reddito di 60 mila euro. La stessa differenza è trascurabile se stiano confrontando due redditi milionari, ad esempio di 2.120.000 euro con 2.100.000 euro. Si introducono, per questo motivo, indici di dispersione relativi che hanno la caratteristica di essere dei numeri puri, indipendenti perciò dall’unità di misura prescelta, e consentono di confrontare più distribuzioni che siano espresse con unità di misura diverse. Tali indici si calcolano facendo il rapporto tra gli indici di variabilità e la media del fenomeno. Il più usato è il coefficiente di variazione: 𝐶𝑣 = 𝜎 𝑀 Esempio In una scuola è stata condotta un’inchiesta sulle altezze degli studenti all’inizio del primo anno e sono stati messi a confronto i dati raccolti negli anni 1990 e 2010, calcolando la media aritmetica e lo scarto quadratico medio. Anno 1990 2010 σ (in cm) 6,14 7,01 M (in cm) 161 163 Il coefficiente di variazione è: Per il 1990 𝐶𝑣 = Per il 2010 𝐶𝑣 = 6,14 161 7,01 163 ≅ 0,038 = 3,8% ≅ 0,043 = 4,3% Si conclude che le altezze registrate, rispetto alla media dell’anno, avevano nel 1990 una variabilità del 3,8% minore di quelle registrate nel 2010 pari a 4,3%. Numeri indici Consideriamo, per esempio, la seguente tabella che rappresenta l’ammontare della popolazione residente in Italia a partire dal 1901 al 1981. Anno Residenti (in migliaia 1901 1911 1921 1931 1936 1951 1961 1971 1981 33.778 36.921 37.859 41.043 42.399 47.516 50.624 54.137 56.557 Vogliamo confrontare le variazioni della popolazione rispetto ad un anno particolare detto anno base, per esempio il 1921. Per fare questo si costruisce la tabella dei rapporti ottenuti tra il dato relativo all’anno e il dato relativo all’anno base. Tale valore moltiplicando per 100, è detto numero indice semplice. Ad esempio il numero indice: 33.778 Relativo all’anno 1901 è: Relativo all’anno 19011 è: 37.859 ∙ 100 = 89 36.921 37.859 ∙ 100 = 97 Proseguendo con tutti gli altri valori si ottiene la seguente tabella dei numeri indici Anno Residenti (in migliaia 1901 1911 1921 1931 1936 1951 1961 1971 1981 89 97 100 108 112 125 133 143 149 Dalla tabella si desume che nel 1981 la popolazione è aumentata del 49% rispetto al 1921, mentre nel 1901 era inferiore dell’11%. I numeri indici fissi possono essere a base fissa, cioè se i rapporti vengono tutti calcolati rispetto ad uno stesso dato (nell’esempio precedente la base fissa è l’anno 1921) o a base variabile nel caso in cui le variazioni si studino rispetto alla situazione immediatamente precedente o successiva. Nell’esempio precedente la popolazione del 1911 si poteva rapportare a quella del 1901, quella del 1921 a quella del 1911, quella del 1931 a quella del 1921 e così via. Relazioni statistiche. Regressione e correlazione Lo studio della ricerca di relazioni tra variabili e mutabili statistiche è di notevole interesse perché permette di individuare legami tra fenomeni diversi. Tale studio è detto studio della connessione. I metodi per ricercare la connessione tra due variabili statistiche, oppure tra una variabile e una mutabile, oppure fra due mutabili sono diversi. In statistica è più importante lo studio della connessione tra due variabili che si può effettuare o ricercando se una variabile è dipendente da un’altra (ad esempio l’allungamento di una barra in funzione della temperatura dove X rappresenta la temperatura e Y la lunghezza della barra), oppure se due variabili si influenzano reciprocamente come, ad esempio l’altezza e il peso. La funzione che esprime il legame di dipendenza di una variabile dall’altra è detta funzione di regressione, molto utile per valutare, nei limiti dell’intervallo dei dati rilevati, il valore della variabile dipendente al variare della variabile indipendente. Ad esempio, se di un bene, non di prima necessità, si rilevano le quantità domandate al variare del prezzo, è possibile determinare, mediante il metodo dei minimi quadrati, la funzione che esprime il legame tra il prezzo e la quantità domandata dai consumatori, consentendo al produttore di sapere per un determinato prezzo la quantità domandata. La funzione più utilizzata è la funzione lineare. Si parla, in questo caso di regressione lineare. Se fra due variabili non esiste un legame di dipendenza, esse si potrebbero influenzare reciprocamente, o essere indipendenti, o essere entrambe dipendenti da una terza grandezza. Si esamina allora la correlazione tra le due variabili, che esprime l’intensità del loro legame. La correlazione si misura mediante indici il più importante dei quali è il coefficiente di correlazione lineare. Regressione lineare Date due variabili statistiche X e Y e i relativi valori associati (xi,yi) lo studio della regressione consiste nella determinazione di una funzione matematica che esprima la relazione fra le variabili analizzando, dapprima, il diagramma a dispersione rappresentante le coppie di valori rilevati. La relazione tra le due variabili statistiche, se esiste, può essere lineare (i punti si distribuiscono lungo una retta come nella prima figura); non lineare (seconda figura) o può non esistere alcuna relazione se i punti sono molto dispersi. Y Y X Y X X Nel caso in cui la relazione tra le due variabili statistiche X e Y è di tipo lineare bisogna determinare la retta y = mx + q, detta retta di regressione, che meglio approssima la nuvola di punti. La determinazione di questa retta può essere una scelta intuitiva, fatta a “colpo d’occhio” oppure una scelta analitica che consiste nel determinare l’equazione della retta in modo che i punti (xi,yi) distino il meno possibile. Assegnati gli n punti (x1, y1), (x2, y2) …. (xn, yn) sia G(Mx ;My) il loro baricentro con 𝑀𝑥 = ∑ 𝑥𝑖 ∑ 𝑦𝑖 𝑀𝑦 = 𝑛 𝑛 Le rette per G hanno equazione: 𝑦 = 𝑀𝑦 + 𝑚(𝑥 − 𝑀𝑥 ) La retta di regressione relativa ai punti (x1, y1), (x2, y2) …. (xn, yn) è quella che rende minima la somma delle differenze tra i valori teorici e quelli rilevati: 𝑖=𝑛 𝑆(𝑚) = ∑(𝑦𝑖 − 𝑀𝑦 − 𝑚(𝑥𝑖 − 𝑀𝑥 ))2 𝑖=1 𝑖=𝑛 𝑖=𝑛 𝑖=𝑛 𝑆(𝑚) = ∑(𝑦𝑖 − 𝑀𝑦 )2 − 2𝑚 ∑(𝑦𝑖 − 𝑀𝑦 )(𝑥𝑖 − 𝑀𝑥 ) + 𝑚2 ∑(𝑥𝑖 − 𝑀𝑥 )2 𝑖=1 𝑖=1 𝑖=1 Posto: 𝑖=𝑛 𝑎 = ∑(𝑥𝑖 − 𝑀𝑥 )2 𝑖=1 𝑖=𝑛 𝑏 = −2 ∑(𝑥𝑖 − 𝑀𝑥 )(𝑦𝑖 − 𝑀𝑦 ) 𝑖=1 𝑖=𝑛 𝑐 = ∑(𝑦𝑖 − 𝑀𝑦 )2 𝑖=1 Otteniamo: 𝑆(𝑚) = 𝑎𝑚2 + 𝑏𝑚 + 𝑐 La rappresentazione grafica è quella di una parabola con la concavità rivolta verso l’alto, in quanto a>0, che assume minimo nel vertice: 𝑚=− ∑𝑖=𝑛 𝑏 𝑖=1 (𝑥𝑖 − 𝑀𝑥 )(𝑦𝑖 − 𝑀𝑦 ) = 2 2𝑎 ∑𝑖=𝑛 𝑖=1 (𝑥𝑖 − 𝑀𝑥 ) Se dividiamo numeratore e denominatore per n si ottiene al numeratore la media del prodotto degli scarti detta covarianza, indicata con cov(X;Y) e al denominatore la varianza σ2x della variabile x. Per cui 𝑐𝑜𝑣(𝑋; 𝑌) 𝑚= 𝜎𝑥2 La retta di regressione lineare passante per il baricentro e che rende minima la somma dei quadrati degli scarti ha equazione: 𝑐𝑜𝑣(𝑋; 𝑌) 𝑦 = 𝑀𝑦 + (𝑥 − 𝑀𝑥 ) 𝜎𝑥2 Esempio La seguente tabella riporta le misure di una lastra metallica a sei temperature diverse; Determinare la legge di dilatazione termica. X = Gradi °C 0 20 40 60 80 100 Y = Centimetri 30 30,1 30,3 30,4 30,7 31 i Xi Yi Xi-Mx Yi-My 1 2 3 4 5 6 0 20 40 60 80 100 300 30 30,1 30,3 30,4 30,7 31 182,5 -50 -30 -10 10 30 50 -0,4 -0,3 -0,1 0,0 0,3 0,6 Mx My m 50 30,4 0,00986 (Xi-Mx)(YiMy) 20,833 9,5 1,1667 -0,1667 8,5 29,167 69,000 (Xi-Mx)2 2500 900 100 100 900 2500 7000 La retta cercata ha equazione: y = 30,4 + 0,0098(x -50) Il valore 0,0098 è detto coefficiente di dilatazione lineare Nel caso in cui la variabile statistica X dipende dalla variabile statistica Y la retta di regressione ha equazione: 𝑐𝑜𝑣(𝑋; 𝑌) 𝑥 = 𝑀𝑥 + (𝑦 − 𝑀𝑦 ) 𝜎𝑦2 Riprendendo l’esercizio precedente i 1 2 3 4 5 6 Xi 0 20 40 60 80 100 300 Yi 30 30,1 30,3 30,4 30,7 31 182,5 Mx My m 50 30,4 97,4 Xi-Mx -50 -30 -10 10 30 50 Yi-My -0,4 -0,3 -0,1 0,0 0,3 0,6 (Xi-Mx)(Yi-My) 20,833 9,5 1,1667 -0,1667 8,5 29,167 69,000 (Yi-My)2 0,173611 0,100278 0,013611 0,000278 0,080278 0,340278 0,708333 Si ottiene la retta: 𝒙 = 𝟓𝟎 + 𝟗𝟕, 𝟒(𝒚 − 𝟑𝟎, 𝟒) Osservazione Nel caso in cui tutti i punti fossero perfettamente allineati le due rette coinciderebbero passando esattamente per gli n punti. Indicando con mx e my i rispettivi coefficienti angolari si ha: 1 𝑐𝑜𝑣(𝑋; 𝑌) 𝑐𝑜𝑣(𝑋; 𝑌) [𝑐𝑜𝑣(𝑋; 𝑌)]2 𝑚𝑥 = ; 𝑚𝑥 ∙ 𝑚𝑦 = 1; ∙ = = 𝑟2 = 1 𝑚𝑦 𝜎𝑥2 𝜎𝑦2 𝜎𝑥2 ∙ 𝜎𝑦2 In generale i punti non sono allineati e il valore 𝜌2 è diverso da uno. Più tale valore si avvicina a 1 tanto più i punti sono allineati, mentre più è prossimo allo zero tanto meno sono allineati Il valore: 𝑟= 𝑐𝑜𝑣(𝑋; 𝑌) 𝜎𝑥 ∙ 𝜎𝑦 È detto coefficiente di correlazione lineare ed esprime con un numero come le due variabili variano congiuntamente. Se r>0, la correlazione è diretta, o positiva Se r<0, la correlazione è inversa, o negativa Se r=1, la correlazione è perfetta diretta Se r=-1, la correlazione è perfetta inversa Se r=0, non esiste correlazione lineare (potrebbe, però esistere una correlazione curvilinea) Relazioni tra le componenti di una variabile statistica doppia Passiamo ora a considerare il caso in cui i dati rilevati delle due variabili X e Y sono espressi mediante una tabella a doppia entrata. Per esempio, il voto in storia e matematica, riportato nello scrutinio finale, da 20 studenti si rappresenta con la seguente tabella a doppia entrata: Voto in Storia 1 1 2 3 4 5 6 7 8 9 10 Totale 2 3 Voto in Matematica 4 5 6 7 1 1 2 2 2 4 1 5 1 7 8 9 10 Totale 2 2 1 1 1 1 4 9 4 2 4 2 20 I totali per riga rappresentano le frequenze marginali dei voti di Storia, mentre quelli per colonna rappresentano le frequenze marginali dei voti di Matematica Prendendo, dalla precedente tabella, la prima e l’ultima colonna, si ottiene la distribuzione marginale secondo i voti in Storia della distribuzione doppia: Voto in Storia 1 2 3 4 5 6 7 8 9 10 Totale 1 4 9 4 2 20 Voto in Matematica Prendendo, dalla precedente tabella, la prima e l’ultima riga, si ottiene la distribuzione marginale secondo i voti in Matematica della distribuzione doppia: 1 2 3 4 5 6 7 8 9 10 Totale 2 4 7 5 2 20 Come per le tabelle a semplice entrata lo studio della regressione e della correlazione si può estendere alle tabelle a doppia entrata. Si sceglie come variabile indipendente quella che si pensa sia antecedente all’altra. Nel caso in cui sia una che l’altra variabile può essere scelta come antecedente si possono studiano tutti e due i casi. Indipendenza statistica Introduciamo il concetto di indipendenza di una variabile da un’altra. Diremo che: La variabile statistica X è indipendente dalla variabile statistica Y, se, per ogni valore xi le frequenze 𝑛 relative 𝑖𝑘 (k=1…s) non dipendono dai valori y1, …ys, ma sono tutte uguali tra loro ed uguali ed 𝐶𝑘 uguali alla frequenza relativa con la quale la xi si presenta nell’universo delle N unità. In formule: 𝑛𝑖𝑘 𝑅𝑖 𝑅𝑖 ∙ 𝐶𝑘 = → 𝑛𝑖𝑘 = 𝐶𝑘 𝑁 𝑁 Variabile X Analogamente si trova la stessa condizione per esprimere l’indipendenza della variabile statistica Y dalla variabile statistica X. x1 x2 … xr Totali y1 n11 n21 … nr1 C1 Variabile Y y2 n12 n22 … nr2 C2 Totali … … … … … … ys n1s n2s … nrs Cs R1 R2 … Rr N Esempio Assegnate le seguenti tabelle stabilire se le variabili statistiche X e Y sono o meno indipendenti. Variabile X Tabella A 1 2 3 1 2 1 5 8 Variabile Y 2 6 3 15 24 3 4 2 10 16 4 10 5 25 40 22 11 55 88 1 2 3 1 3 2 3 8 Variabile Y 2 4 2 18 24 3 1 15 16 4 15 6 19 40 22 11 55 88 Variabile X Tabella B Dalla tabella A si deduce che le due variabili sono indipendenti fra loro; infatti, fissato x=1 sono uguali tutti i rapporti tra i valori della prima riga e i corrispondenti dell’ultima: 2 6 4 10 22 = = = = 8 24 16 22 55 Si può verificare che anche i rapporti relativi agli altri due valori di x sono costanti. Lo stesso avviene se si fissa un valore di y. Ad esempio fissato y = 4, si ricavano i rapporti: 10 5 25 40 = = = 22 11 55 8 Analogamente per gli altri valori di y. Invece dei rapporti avremmo potuto verificare l’indipendenza applicando la formula: 𝑅𝑖 ∙ 𝐶𝑘 𝑛𝑖𝑘 = 𝑁 I dati della tabella B indicano che le variabili sono dipendenti poiché i rapporti, sia sulle righe che sulle colonne, sono diversi. Se c’è indipendenza non occorre ulteriore studio altrimenti si procede con lo studio della dipendenza o lo studio della interdipendenza. Dipendenza in media Nello studio della dipendenza ha notevole importanza lo studio della dipendenza in media di una variabile dall’altra. Supponiamo di avere due variabili statistiche X (variabile indipendente) e Y (variabile dipendente) date mediante una tabella a doppia entrata. Facciamo corrispondere ad ogni valore xi di X il valore 𝑦̅𝑖 che è la media ponderata dei valori della Y quando come pesi si prendano i valori nik della riga i-esima, cioè: ∑𝑘=𝑠 𝑘=1 𝑦𝑘 𝑛𝑖𝑘 𝑦̅𝑖 = 𝑅𝑖 Nel caso in cui scegliamo Y come variabile indipendente e X come dipendente assoceremo ad ogni yk il valore medio ponderato ̅̅̅ 𝑥𝑘 : ∑𝑖=𝑟 𝑖=1 𝑥𝑖 𝑛𝑖𝑘 𝑥𝑘 = ̅̅̅ 𝐶𝑘 Partendo dalla tabella a doppia entrata costruiamo due tabelle a semplice entrata nelle quali compare anche la frequenza: xi x1 x2 .. .. .. xr 𝑦̅𝑖 𝑦1 ̅̅̅ 𝑦2 ̅̅̅ .. .. .. 𝑦̅𝑟 Frequenza R1 R2 .. .. .. Rr ̅̅̅𝑘 𝑥 𝑥1 ̅̅̅ 𝑥2 ̅̅̅ .. .. .. 𝑥̅𝑠 yk y1 y2 .. .. .. ys Frequenza C1 C2 .. .. .. Cs Possiamo ora calcolare la retta di regressione della Y rispetto alla X: 𝑦 − 𝑦̅ = 𝑚1 (𝑥 − 𝑥̅ ) dove m1 è il coefficiente di regressione di Y su X ed è dato dalla seguente formula: 𝑘=𝑠 ∑𝑖=𝑟 ̅)𝑛𝑖𝑘 𝑖=1 ∑𝑘=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑘 − 𝑦 𝑚1 = 2 ∑𝑖=𝑟 𝑖=1(𝑥𝑖 − 𝑥̅ ) 𝑅𝑖 Analogamente si calcola la retta di regressione della X rispetto alla Y: 𝑥 − 𝑥̅ = 𝑚2 (𝑦 − 𝑦̅) dove m2 è il coefficiente di regressione di Y su X ed è dato dalla seguente formula: 𝑘=𝑠 ∑𝑖=𝑟 ̅)𝑛𝑖𝑘 𝑖=1 ∑𝑘=1(𝑥𝑖 − 𝑥̅ )(𝑦𝑘 − 𝑦 𝑚2 = ∑𝑘=𝑠 ̅)2 𝐶𝑘 𝑘=1(𝑦𝑘 − 𝑦 Esempio Determinare le rette di regressione e il coefficiente di correlazione lineare della distribuzione dei voti di italiano e di matematica riportati nella tabella seguente: X=voto di italiano Variabile X Y=voto di matematica 3 1 1 1 3 4 5 6 7 8 Totale 4 2 3 3 8 Variabile Y 5 1 4 10 1 16 Totale 6 2 6 25 5 2 40 7 2 8 10 5 25 8 1 4 3 8 Calcoliamo i valori medi 𝑥̅ 𝑒 𝑦̅ delle due variabili X e Y prendendo come pesi i valori delle frequenze totali: 𝑥̅ = 𝑦̅ = 4 ∙ 6 + 5 ∙ 16 + 6 ∙ 48 + 7 ∙ 20 + 8 ∙ 10 = 6,12 100 3 ∙ 3 + 4 ∙ 8 + 5 ∙ 16 + 6 ∙ 40 + 7 ∙ 25 + 8 ∙ 8 =6 100 Determiniamo per ogni valore xi il valore medio ponderato 𝑦̅𝑖 : 𝑦1 = ̅̅̅ 𝑦2 = ̅̅̅ 3∙1+4∙2+5∙1+6∙2 = 4,67 6 3∙1+4∙3+5∙4+6∙6+7∙2 = 5,31 16 Determiniamo per ogni yk il valore medio ponderato ̅̅̅ 𝑥𝑘 : 𝑥 ̅̅̅1 = 𝑥2 = ̅̅̅ 4∙1+5∙1+6∙1 =5 3 4∙2+5∙3+6∙3 = 5,13 8 6 16 48 20 10 100 Possiamo costruire le tabelle: 𝑥𝑖 4 5 6 7 8 ̅̅̅𝑘 𝑥 5 5,13 5,69 5,98 6,72 7,25 𝑦̅𝑖 4,67 5,31 5,81 6,85 7,1 𝑦𝑖 3 4 5 6 7 8 Riportando su un sistema di assi cartesiani le coppie di valori e congiungendo i punti successivi si tracciano le due linee di regressione. Per calcolare i coefficienti di regressione e di correlazione, riscriviamo la tabella iniziale scrivendo al posto di x e di y gli scarti dal valore medio, cioè: Variabile X’ 𝑥 ′ = 𝑥𝑖 − 𝑥̅ ; 𝑦 ′ = 𝑦𝑘 − 𝑦̅ -2,12 -1,12 -0,12 0,88 1,88 Totale -3 1 1 1 3 -2 2 3 3 8 Variabile Y’ -1 1 4 10 1 16 Totale 0 2 6 25 5 2 40 1 2 8 10 5 25 2 1 4 3 8 Calcoliamo, ora, m1 e m2 applicando le formule precedenti: 𝑚1 = (−2.12) ∙ (−3) ∙ 1 + (−2,12) ∙ (−2) ∙ 2 + ⋯ + 1,88 ∙ 2 ∙ 3 (−2,12)2 ∙ 6 + (−1,12)2 ∙ 16 + (−0,12)2 ∙ 48 + 0,882 ∙ 20 + 1,882 ∙ 10 𝑚1 = 𝑚2 = 66 3 75 = = 98,56 4,48 112 66 66 1 = = (−3)2 ∙ 3 + (−2)2 ∙ 8 + (−1)2 ∙ 16 + 12 ∙ 25 + 22 ∙ 8 132 2 Le rette di regressione hanno, quindi equazioni: 𝑦−6= 75 (𝑥 − 6,12) 112 1 𝑥 − 6,12 = (𝑦 − 6) 2 6 16 48 20 10 100 Il coefficiente di correlazione lineare è dato dalla media geometrica di m1 em2: 𝑟 = √𝑚1 ∙ 𝑚2 = √ 75 1 ∙ = 0,5786 112 2 Si deduce che c’è una modesta correlazione tra il voto di italiano ed il voto di matematica. Relazioni tra due mutabili Per lo studio della connessione tra due mutabili consideriamo le due tabelle: Mutabile X la tabella delle frequenze effettive: Totali x1 x2 … xr Mutabile Y y2 n12 n22 … nr2 C2 y1 n11 n21 … nr1 C1 Totali … … … … … … ys n1s n2s … nrs Cs R1 R2 … Rr N E la tabella delle frequenze teoriche, ossia delle frequenze che si dovrebbero avere se i due caratteri fossero indipendenti, espresse dalla relazione: 𝑛̂𝑖𝑘 = 𝑅𝑖 ∙ 𝐶𝑘 𝑁 Nella costruzione di tale tabella occorre arrotondare all’unità i valori, in modo che rimangano costanti i totali parziali delle righe e delle colonne. Per valutare la connessione tra due mutabili si sono costruiti diversi indici. Noi considereremo solo l’indice quadratico medio di contingenza: 𝜒2 √ 𝐼𝑐 = 𝜒2 + 𝑁 dove: 𝑘=𝑠 𝑖=𝑟 (𝑛𝑖𝑘 − 𝑛̂𝑖𝑘 )2 𝜒 = ∑∑ 𝑛̂𝑖𝑘 2 𝑘=1 𝑖=1 Tale indice sarà: Compreso tra zero e uno Uguale a zero se non c’è connessione; in tale caso le mutabili sono indipendenti Tendono a uno, in caso di perfetta dipendenza Gli indici forniscono indicazioni di massima e sono meno significativi e precisi del coefficiente di correlazione lineare. Esempio Da un’indagine statistica svolta su 200 lavoratrici di un’industria per conoscere le preferenze riguardo all’orario di lavoro in relazione allo stato civile si sono avuti i seguenti risultati, dove X = tipo di orario Y = stato civile: X Y Diviso Continuato con interruzione Continuato senza interruzione Totali Totali Nubili 12 Coniugate 20 Vedove 18 50 36 50 14 100 20 20 10 50 68 90 42 200 Calcoliamo la tabella delle frequenze teoriche: X Y Diviso Continuato con interruzione Continuato senza interruzione Totali Totali Nubili 17 Coniugate 22 Vedove 11 50 34 45 21 100 17 23 10 50 68 90 42 200 Calcoliamo il valore di χ2: 𝜒2 = 25 4 49 4 25 49 9 9 + + + + + + + = 10,0342 17 22 11 34 45 21 17 23 L’indice quadratico medio di contingenza risulta: 10,0342 𝐼𝑐 = √ = 0,218 10,0342 + 200 Dall’indice si può dedurre che la scelta del tipo di orario dipende poco dallo stato civile delle lavoratrici Relazioni tra una mutabile e una variabile Mutabile X Consideriamo la tabella delle frequenze ricavata da una rilevazione statistica tra un carattere qualitativo e uno quantitativo. Totali x1 x2 … xr y1 n11 n21 … nr1 C1 Variabile Y y2 n12 n22 … nr2 C2 Totali … … … … … … ys n1s n2s … nrs Cs R1 R2 … Rr N Una misura della connessione tra una mutabile e una variabile è data dall’indice di connessione η di Pearson. Per determinarlo per ogni modalità della mutabile X si calcolano: le medie ponderate della variabile Y, dette anche medie di sottogruppo: ∑𝑘=𝑠 𝑘=1 𝑦𝑘 𝑛𝑖𝑘 𝑦̅𝑖 = 𝑅𝑖 e la media generale: 𝑦̅ = ∑𝑘=𝑠 𝑘=1 𝑦𝑘 𝐶𝑘 𝑁 Se non esiste relazione fra i due caratteri, le medie di sottogruppo sarebbero tutte uguali alla media generale. Tanto più le medie di sottogruppo differiscono dalla media generale, tanto maggiore è la connessione tra la mutabile e la variabile. Si definisce indice di connessione η di Pearson il rapporto tra lo scarto quadratico medio delle medie di sottogruppo e lo scarto quadratico medio della variabile Y: ∑𝑖=𝑟 ̅𝑖 − 𝑦̅)2 𝑅𝑖 𝑖=1(𝑦 √ η= ∑𝑘=𝑠 ̅)2 𝐶𝑘 𝑘=1(𝑦𝑘 − 𝑦 L’indice: Varia tra 0 e 1 Vale zero quando non esiste connessione Vale 1 in caso di massima connessione Esempio Calcoliamo l’indice di connessione tra il titolo di studio e il reddito su una rilevazione condotta su 1000 persone dove: X = titolo di studio Y = reddito (in migliaia) Y X Analfabeti Licenza elementare Licenza media Diploma media superiore Laurea 2|--6 20 6|--8 12 8|--10 8 10|--15 - 15|--20 - Totali 40 32 110 106 12 - 260 - 200 154 16 10 380 - 30 130 20 20 200 52 352 10 408 50 98 60 90 120 1.000 Totali Riscriviamo la tabella precedente associando ad ogni intervallo relativo alla variabile Y il valore medio calcolato sugli estremi dell’intervallo: Y X Analfabeti Licenza elementare Licenza media Diploma media superiore Laurea Totali 4 20 7 12 9 8 12,5 - 17,5 - Totali 40 32 110 106 12 - 260 - 200 154 16 10 380 - 30 130 20 20 200 52 352 10 408 50 98 60 90 120 1.000 Calcoliamo le medie di sottogruppo: 𝑦̅1 = 𝑦̅2 = 4 ∙ 20 + 7 ∙ 12 + 9 ∙ 8 = 5,9 40 4 ∙ 32 + 7 ∙ 110 + 9 ∙ 106 + 12,5 ∙ 12 = 7,7 260 Continuando nello stesso modo si ottengono le altre medie: 𝑦̅3 = 8,318; 𝑦̅4 = 9,9; 𝑦̅5 = 14,708 La media generale vale: 𝑦̅ = 4 ∙ 52 + 7 ∙ 352 + 9 ∙ 408 + 12,5 ∙ 98 + 17,5 ∙ 90 = 9,144 1000 Calcoliamo l’indice: η=√ (5,9 − 9,144)2 ∙ 40 + (7,7 − 9,144)2 ∙ 260 + ⋯ + (14,708 − 9,144)2 ∙ 120 (4 − 9,144)2 ∙ 52 + (7 − 9,144)2 ∙ 352 + ⋯ + (17,5 − 9,144)2 ∙ 90 η=√ 5.051,6204 = 0,69728 10.390,264 Esiste una buona connessione tra titolo di studio e reddito. DISTRIBUZIONE NORMALE o DISTRIBUZIONE DI GAUSS E’ la più importante distribuzione continua ed è detta normale perché trova numerose applicazioni nello studio dei fenomeni fisici, biologici, economici ecc. Ha la seguente espressione analitica: 𝒇(𝑿) = 𝟏 𝝈√𝟐𝝅 𝟏 𝑿−𝝁 𝟐 ) 𝝈 ∙ 𝒆−𝟐( Fu proposta da Gauss (1809) nell'ambito della teoria degli errori, ed è detta anche curva degli errori accidentali in quanto, soprattutto nelle discipline fisiche, la distribuzione degli errori commessi nel misurare ripetutamente la stessa grandezza, è molto bene approssimata da questa curva. CARATTERISTICHE DELLA DISTRIBUZIONE NORMALE 1. E’ simmetrica rispetto al valore medio 2. La media aritmetica μ coincide anche con la moda e la mediana 3. è asintotica all'asse delle X da entrambi i lati 4. è crescente per X<μ e decrescente per X>μ 5. possiede due punti di flesso per X = μ±σ 6. l’area sotto la curva è uguale a 1 (essendo la probabilità che si verifichi un qualsiasi valore di X) La funzione dipende dai parametri μ e σ2, al variare dei quali la curva cambia forma e posizione e precisamente: Per uno stesso σ, al variare di μ, si ottengono curve di uguale forma traslate lungo l’asse delle X Per uno stesso valore medio μ, al variare di σ, la curva può risultare più o meno appiattita o allungata DISTRIBUZIONE NORMALE STANDARDIZZATA Una distribuzione Normale che ha media 1 e deviazione standard 0 è chiamata distribuzione normale standardizzata. La sua espressione analitica è: 𝒇(𝒙) = 𝟏 𝝈√𝟐𝝅 𝟏 𝟐 ∙ 𝒆−𝟐𝒁 avendo indicato con Z la variabile normale standardizzata. La funzione normale standardizzata ha tutte le caratteristiche della normale in più è pari [f(Z)=f(-Z)] perché il grafico è simmetrico rispetto all’asse delle y. La probabilità che la variabile normale X assuma valore compreso fra due ascisse è data dall’area sottesa Essendo la curva simmetrica rispetto all’asse Y si ha: 𝑃(−𝑎 < 𝑍 < 0) = 𝑃(0 < 𝑍 < 𝑎) Inoltre essendo 𝑃(−∞ < 𝑍 < +∞) = 1 si ricava che: 𝑃(−∞ < 𝑍 ≤ −𝑎) = 𝑃(𝑎 ≤ 𝑍 < +∞) = 1 − 𝑃(0 < 𝑍 < 𝑎) 2 INTERVALLI NOTI DI PROBABILITÀ Vediamo ora il calcolo di alcune aree di probabilità usate frequentemente Per la distribuzione normale standardizzata (μ=0, σ=1) gli intervalli sono: (-1 ; 1), (-2 ; 2), (-3 ; 3) 𝑃(−1 < 𝑍 < 1) = 0,6826 𝑃(−2 < 𝑍 < 2) = 0,9544 𝑃(−3 < 𝑍 < 3) = 0,9973 Questo vuol dire che: il 68,27% dei valori della distribuzione è compreso tra -1 e 1; il 95,45% tra -2 e 2 e il 99,73% tra -3 e 3. Per la distribuzione normale standardizzata i valori delle aree di probabilità sono stati riportati in una tabella: Per calcolare le aree di probabilità di una funzione normale generale N (μ,σ2), si trasforma la variabile normale in variabile normale standardizzata mediante la trasformazione: 𝑋−𝜇 𝜎 Si calcolano i valori z1 z2 degli estremi dell’intervallo e si ha: 𝑃(𝑥1 < 𝑋 < 𝑥2 ) = 𝑃(𝑧1 < 𝑍 < 𝑧2 ) e con le tavole si ottiene la probabilità richiesta. Esempio 1 Data la variabile normale N (50, 82), qual è la probabilità che la variabile sia compresa tra 30 e 60? Trasformiamo in variabile standardizzata: 𝑋 − 50 8 𝑥1 = 30; 𝑧1 = −2,5 𝑥2 = 60; 𝑧2 = 1,25 Per cui: 𝑃(30 < 𝑋 < 60) = 𝑃(−2,5 < 𝑍 < 1,25) = 𝑃(−2,5 < 𝑍 < 0) + 𝑃(0 < 𝑍 < 1,25) = = 𝑃(0 < 𝑍 < 2,5) + 𝑃(0 < 𝑍 < 1,25 =)0,4938 + 0,3944 = 0,8882 Esempio 2 L’altezza media di un gruppo di 20.000 persone, con distribuzione normale, è di 170 cm con varianza 102. Calcolare: a) La probabilità che l’altezza sia compresa tra 155 cm e 180 cm; b) Quante persone sono alte almeno 200 cm; c) Quante persone sono alte non più di 160 cm. Trasformiamo in variabile standardizzata: a) 𝑋 − 170 10 𝑥1 = 155; 𝑧1 = −1,5 𝑥2 = 180; 𝑧2 = 1 𝑃(155 < 𝑋 < 180) = 𝑃(−1,5 < 𝑍 < 1) = 0,7745 b) 𝑥3 = 200; 𝑧3 = 3 𝑃(𝑋 ≥ 200) = 𝑃(𝑍 ≥ 3) = 0,5 − 0,4987 = 0,0013 Perciò 20.000∙0,0013=26 persone alte almeno 200 cm. c) 𝑥4 = 160; 𝑧4 = −1 𝑃(𝑋 ≤ 160) = 𝑃(𝑍 ≤ −1) = 0,5 − 𝑃(−1 < 𝑍 < 0) = 0,1587 Perciò: 20.000∙0,1587=3174 persone alte non più i 160 cm. Quadro riassuntivo delle medie 𝑀 = 𝑥̅ = Media aritmetica 𝑀 = 𝑥̅ = Media aritmetica ponderata Media quadratica Media quadratica ponderata Media armonica Media armonica ponderata Moda Mediana 𝑥1 ∙ 𝑓1 + 𝑥2 ∙ 𝑓2 + ⋯ + 𝑥𝑛 ∙ 𝑓𝑛 𝑓1 + 𝑓2 + ⋯ 𝑓𝑛 𝐺 = 𝑛√𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 Media geometrica Media geometrica ponderata 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 𝑛 𝑛 𝐺 = √(𝑥1 ) 𝑓1 ∙ (𝑥2 ) 𝑓2 … (𝑥𝑛 ) 𝑓𝑛 𝑐𝑜𝑛 𝑛 = 𝑓1 + 𝑓2 + ⋯ + 𝑓𝑛 𝑄=√ 𝑥1 2 + 𝑥2 2 + ⋯ + 𝑥𝑛 2 𝑛 𝑓1 ∙ 𝑥1 2 + 𝑓2 ∙ 𝑥2 2 + ⋯ + 𝑓𝑛 ∙ 𝑥𝑛 2 𝑄=√ 𝑓1 + 𝑓2 + ⋯ + 𝑓𝑛 𝐴= 𝐴= 𝑛 1 1 1 𝑥1 + 𝑥2 + ⋯ + 𝑥𝑛 𝑓1 + 𝑓2 + ⋯ + 𝑓𝑛 𝑓1 𝑓2 𝑓𝑛 + + ⋯ + 𝑥1 𝑥2 𝑥𝑛 L’elemento che ha la frequenza più alta Il valore Me che bipartisce la successione Quadro riassuntivo degli indici di dispersione Campo di variazione Differenza tra il massimo e il minimo dei valori rilevati. Scarto semplice medio 𝑆= |𝑥1 − 𝑀| + |𝑥2 − 𝑀| + ⋯ + |𝑥𝑛 − 𝑀| 𝑛 𝜎 Scarto quadratico medio Varianza Coefficiente di variazione (𝑥1 − 𝑀)2 + (𝑥2 − 𝑀)2 + ⋯ + (𝑥𝑛 − 𝑀)2 =√ 𝑛 𝜎2 (𝑥1 − 𝑀)2 + (𝑥2 − 𝑀)2 + ⋯ + (𝑥𝑛 − 𝑀)2 = 𝑛 𝐶𝑣 = 𝜎 𝑀 Quadro riassuntivo delle relazioni tra variabili e mutabili statistiche Relazioni fra due variabili Regressione Prima retta di regressione: 𝑦 = 𝑀𝑦 + 𝑚1 (𝑥 − 𝑀𝑥 ) 𝑚1 = ∑𝑖=𝑛 𝑖=1 (𝑥𝑖 − 𝑀𝑥 )(𝑦𝑖 − 𝑀𝑦 ) 2 ∑𝑖=𝑛 𝑖=1 (𝑥𝑖 − 𝑀𝑥 ) Seconda retta di regressione: 𝑥 = 𝑀𝑥 + 𝑚2 (𝑦 − 𝑀𝑦 ) 𝑚2 = ∑𝑖=𝑛 𝑖=1 (𝑥𝑖 − 𝑀𝑥 )(𝑦𝑖 − 𝑀𝑦 ) 2 ∑𝑖=𝑛 𝑖=1 (𝑦𝑖 − 𝑀𝑦 ) Correlazione Coefficiente di correlazione lineare Coefficiente di correlazione lineare: ∑𝑖=𝑛 𝑖=1 (𝑥𝑖 − 𝑀𝑥 )(𝑦𝑖 − 𝑀𝑦 ) 𝑟= √∑𝑖=𝑛 𝑖=1 (𝑥𝑖 − 𝑀𝑥 )2 ∙ ∑𝑖=𝑛 𝑖=1 (𝑦𝑖 − 𝑀𝑦 ; 𝑜𝑝𝑝𝑢𝑟𝑒 𝑟 = ±√𝑚1 ∙ 𝑚2 )2 Relazioni tra due mutabili Frequenza teorica: Indice quadratico di contingenza 𝑛𝑖𝑘 = 𝑅𝑖 ∙ 𝐶𝑘 𝑁 𝐼𝑐 = √ 𝜒2 𝜒2 + 𝑁 Dove 𝑘=𝑠 𝑖=𝑟 (𝑛𝑖𝑘 − 𝑛̂𝑖𝑘 )2 𝜒 = ∑∑ 𝑛̂𝑖𝑘 2 𝑘=1 𝑖=1 Relazioni tra mutabile e variabile Indice di Pearson ∑𝑖=𝑟 ̅𝑖 − 𝑦̅)2 𝑅𝑖 𝑖=1(𝑦 η = √ 𝑘=𝑠 ∑𝑘=1(𝑦𝑘 − 𝑦̅)2 𝐶𝑘 Bibliografia: Gambotto Manzone: Matematica per ragionieri programmatori vol 3 – Tramontana Lamberti – Mereu – Nanni: Lezioni di Matematica Vol. C