Applicazioni del foglio elettronico Statistica elementare a cura del prof. Giovanni Raho Informatica e statistica 2003 Prof. Giovanni Raho 1 La statistica • Un insieme di procedure fondate sulla matematica che permettono di analizzare gli eventi e trarne – Leggi di collegamento tra eventi – Leggi di previsione – Modelli in cui le relazioni siano precisate attraverso metodi matematici. Informatica e statistica 2003 Prof. Giovanni Raho 2 Problema ed informazione • Definire il problema – Individuare gli eventi che intervengono nel problema. – Caratterizzare gli eventi attraverso la definizione dei concetti. – Collegare i concetti per costruire une teoria. – La teoria ben formata: relazioni non contraddittorie tra concetti. Informatica e statistica 2003 Prof. Giovanni Raho 3 Gli strumenti di verifica • Variabili e misure: – I concetti sono definiti attraverso le variabili. – Le variabili sono specificate attraverso le misure. – Le misure sono di diverso tipo • Metriche – Rapporti ed intervalli. • Ordinali • Nominali Informatica e statistica 2003 Prof. Giovanni Raho 4 Uso delle misure • Eseguire operazioni tra le misure – Il termine operazioni va considerato in senso lato. – Sono operazioni: • • • • Unione Separazione Operazioni aritmetiche Operazioni razionali e irrazionali. Informatica e statistica 2003 Prof. Giovanni Raho 5 Operazioni con le misure • Dipendono dal diverso tipo di misura – Scale di Misura • Addizione Unione • Sottrazione separazione • Moltiplicazione e divisione – Si introduce tra le misure un operatore che le trasformi in modo da poter esser adattate alle nostre esigenze. Informatica e statistica 2003 Prof. Giovanni Raho 6 Operazioni di sintesi • Media aritmetica – Va valutata con un opportuno parametro: • Deviazione standard (dev ST in Excel) • La Deviazione standard misura l’attendibilità della media a. • Mediana (divide un gruppo ordinato in due parti) • Valutazione attraverso la differenza tra quartili (quattro parti) • Moda – Valutazione valore minimo e massimo Si vedano gli esempi applicativi col foglio elettronico. Informatica e statistica 2003 Prof. Giovanni Raho 7 Scale di misura e sintesi • Scala metrica – Media aritmetica, Deviazione Standard • Scala ordinale – Mediana, quartili • Scala Nominale – Conteggio delle frequenze – Uso della MODA. Informatica e statistica 2003 Prof. Giovanni Raho 8 La percentuale • Si tratta di una particolare misura usata per confrontare gruppi numericamente diversi. • Permette di cogliere le differenze con maggior immediatezza. • Analogia grafica: TORTA 75% Informatica e statistica 2003 Prof. Giovanni Raho 9 I grafici • Permettono un confronto immediato di gruppi numericamente diversi • A lato un grafico a colonne o istogramma. 90 80 70 60 50 40 30 Est Ovest Nord 20 10 0 1° Trim. 2° Trim. 3° Trim. 4° Trim. 40 volte Informatica e statistica 2003 Prof. Giovanni Raho 20 volte 10 Vari tipi di grafici per vari usi • Torta – Rappresentazione di una variabile secondo le percentuali • Barre – Istogrammi – Rappresentazione di due o più variabili secondo la frequenza dei loro valori. (vedi esempio precedente diapositive) • Barre impilate – Rappresentazione di due o più variabili secondo i valori di una terza. • Vedi nel libro di informatica analisi multivariata Informatica e statistica 2003 Prof. Giovanni Raho 11 STATISTICA DESCRITTIVA I procedimenti sin qui descritti fanno parte della statistica descrittiva. Essa si occupa della presentazione di dati ed aiuta nella loro interpretazione. … Spesso si rinuncia al dettaglio per avere una visione generale del fenomeno … Informatica e statistica 2003 Prof. Giovanni Raho 12 Grafici lineari • Oltre ai grafici areali descritti in precedenza in cui le occorrenze (frequenze) dei valori di una variabile sono presentate da aree di rettangoli o di settori circolari • I grafici lineari rappresentano l’andamento di un fenomeno (spesso rispetto al tempo) – Ricordare assi cartesiani Informatica e statistica 2003 Prof. Giovanni Raho 13 Grafici lineari e sviluppo nel tempo Variazione pendenza Informatica e statistica 2003 Prof. Giovanni Raho 14 Il grafico lineare Il grafico lineare rappresenta l’andamento dei valori di una variabile. Come tale può ricavare valori indirettamente e può introdurre alla previsione futura. Situazioni Campania Veneto Piemonte Toscana 1985 230 240 180 300 350 Anni rilevazione 1986 1987 270 280 190 180 190 200 310 280 y = 18x + 222 2 R = 0,9205 1988 290 160 210 300 1989 Media Fiducia=DS 310 276 29,664794 130 180 40,620192 245 205 25,000000 300 298 10,954451 y = -25x + 255 2 R = 0,947 y = 15x + 160 2 R = 0,9 y = -x + 301 R2 = 0,0208 300 Campania Veneto Piemonte Toscana Lineare (Campania) 250 200 150 Lineare (Veneto) Lineare (Piemonte) Lineare (Toscana) 100 50 0 1985 1986 1987 1988 1989 Andamento del fenomeno Valori Affidabilità Campania 18 0,92 Veneto -25 0,94 Piemonte 15 0,9 Toscana -1 0,02 Informatica e statistica 2003 Prof. Giovanni Raho 15 Grafico lineare e linee di tendenza Situazioni Campania Veneto Piemonte Toscana 1985 230 240 180 300 350 Anni rilevazione 1986 1987 270 280 190 180 190 200 310 280 y = 18x + 222 2 R = 0,9205 1988 290 160 210 300 1989 Media Fiducia=DS 310 276 29,664794 130 180 40,620192 245 205 25,000000 300 298 10,954451 y = -25x + 255 2 R = 0,947 y = 15x + 160 2 R = 0,9 y = -x + 301 R2 = 0,0208 300 Campania Veneto Piemonte Toscana Lineare (Campania) 250 200 150 Lineare (Veneto) Lineare (Piemonte) Lineare (Toscana) 100 50 0 1985 1986 Andamento del fenomeno Valori Affidabilità Campania 18 0,92 Veneto -25 0,94 Piemonte 15 0,9 Toscana -1 0,02 1987 1988 1989 Si noti il collega,emto tra l’anda,mento della retta ed il coeff. angolare Informatica e statistica 2003 Prof. Giovanni Raho 16 La linea di tendenza Se nello studio di un fenomeno ci si accorge che le variabili degli eventi successivi hanno misure con uno sviluppo regolare e … se si può supporre che le cause non siano modificate nel tempo … possiamo prolungare la linea che unisce i successivi momenti oltre le misure già effettuate. Informatica e statistica 2003 Prof. Giovanni Raho 17 La linea di tendenza IL prolungamento del fenomeno nel tempo è favorito da alcuni algoritmi matematici che tengono conto delle oscillazioni di una variabile intorno a valori medi. La retta di regressione è l’esempio più noto di tale metodo di previsione. Informatica e statistica 2003 Prof. Giovanni Raho 18 Linee di tendenza Si possono costruire con metodi matematici più o meno complessi linee di forma diversa … La cui forma è individuata dal grado dell’equazione rappresentativa La scelta della linea di tendenza che si avvicina di più ai valori rilevati può essere fatta col parametro R2. Informatica e statistica 2003 Prof. Giovanni Raho 19 Linee di tendenza Nel caso di linea di tendenza lineare è possobile associare ad una successione di eventi il coefficiente angolare della retta come elemento di sintesi. Esempio: y=5x+3 l’andamento del fenomeno è crescente y = -6x + 3 l’andamento del fenomeno e decrescente y = -10x + 3 il fenomeno decresce più rapidamente della precedente Informatica e statistica 2003 Prof. Giovanni Raho 20 Linea di tendenza ed R2 • R2 varia da • 0 nessuna aderenza a • 1 completa aderenza ai valori rilevarti Informatica e statistica 2003 Prof. Giovanni Raho 21 L’andamento di una popolazione Informatica e statistica 2003 Prof. Giovanni Raho 22 Grafico dell’andamento della popolazione linea di tendenza lineare ossia di 1° grado. 35000 30000 25000 20000 15000 10000 5000 18 61 18 71 18 81 19 01 19 11 19 21 19 31 19 36 19 51 19 61 19 71 19 81 19 91 19 94 19 95 19 96 19 97 19 98 19 99 0 RETTA detta anche retta di regressione Informatica e statistica 2003 Prof. Giovanni Raho 23 Andamento della popolazione tendenza di grado superiore al 1° 18 61 18 71 18 81 19 01 19 11 19 21 19 31 19 36 19 51 19 61 19 71 19 81 19 91 19 94 19 95 19 96 19 97 19 98 19 99 30000 28000 26000 24000 22000 20000 18000 16000 14000 12000 10000 Informatica e statistica 2003 Prof. Giovanni Raho 24 La statistica e la probabilità Esame delle differenze e della causalità Nell’analisi di un fenomeno si usa spesso considerare contemporaneamente i valori di due o più variabili. Il metodo più semplice per valutare le possibili relazioni tra variabili è … Informatica e statistica 2003 Prof. Giovanni Raho 25 L’uso ed il confronto delle frequenze di un evento Opinione Frequenza Favorevole 78 Contrario 59 Totale 137 Opinione Frequenza Favorevo 120 le Contrario 100 Totale 220 Informatica e statistica 2003 Prof. Giovanni Raho 26 Grafico • Riunendo le due tabelle si può utilizzare un grafico a colonne per valutare i due fenomeni. Informatica e statistica 2003 Prof. Giovanni Raho 27 Incrocio tra i valori di due o più variabili Istruzione Superiore Media Elementare età adulti anziani 23 12 34 giovani 26 13 23 Informatica e statistica 2003 Prof. Giovanni Raho 34 23 12 28 Lettura di una tabella Istruzione Superiore Media Elementare età adulti anziani 23 12 34 23 anziani hanno un’istruzione superiore giovani 26 13 23 34 23 12 12 giovani hanno un’istruzione elementare Informatica e statistica 2003 Prof. Giovanni Raho 29 Confronti tra frequenze in due variabili Scelta Est Ovest Nord 1*trim 10 30 45 Valutazione ottenuta 2° trim 3* trim 4° trim 28 90 20 38 35 30 46 44 44 Informatica e statistica 2003 Prof. Giovanni Raho 30 Andamenti di valori di una o più 90 variabili 80 70 60 50 Est Ovest Nord 40 30 20 10 0 1° Trim. 2° Trim. 3° Trim. Informatica e statistica 2003 Prof. Giovanni Raho 4° Trim. 31 Esercizio Si costruisca con EXCEL il grafico dei dati riprodotti in precedenza • Grafico a colonne 40 35 30 25 Elementare Media Superiore 20 15 10 5 0 Anziani Informatica e statistica 2003 Prof. Giovanni Raho Adulti GIOVANI 32 Grafico a colonne impilate • Permette un’analisi all’interno di diverse categorie della distribuzione delle frequenze dei livelli di istruzione. Informatica e statistica 2003 Prof. Giovanni Raho 33 Grafico a colonne impilate 100 90 80 70 60 Superiore Media Elementare 50 40 30 20 10 0 Anziani Categorie Adulti Informatica e statistica 2003 Prof. Giovanni Raho GIOVANI 34 Analisi multivarata • Si tratta di un’analisi dei valori di due variabili in cui interviene una terza variabile discriminante per valutare gruppi di caratteristiche diverse. • Es. Il livello di istruzione rispetto all’età, può essere diverso se si considerano gruppi il cui reddito familiare (terza variabile discriminante) sia diverso Informatica e statistica 2003 Prof. Giovanni Raho 35 Analisi multivariata Reddito alto età adulti anziani Media Istruzione Superiore inferiore 23 12 11 giovani 26 13 23 34 23 34 Il diverso reddito introduce una variazione nella composizione dei gruppi Reddito basso età adulti anziani Media Istruzione Superiore inferiore 32 8 25 giovani 43 10 20 18 23 12 Informatica e statistica 2003 Prof. Giovanni Raho 36 Analisi multivariata • Si veda nel testo Lezioni di Informatica … Il paragrafo 7.7.5 pag. 131 L’uso dei grafici per l’analisi multivariata. L’esercizio n. 2 a pag. 106: Le tabelle dell’analisi multivarata. Informatica e statistica 2003 Prof. Giovanni Raho 37 Metodi matematici • Oltre ai metodi grafici EXCEL permette l’uso di metodi matematici quali: – Calcolo del chi2 • Valuta la indipendenza tra i valori di due variabili attraverso la valutazione delle occorrenze contemporanee dei valori di due variabili • Può essere calcolato spezzando la formula in vari passaggi Informatica e statistica 2003 Prof. Giovanni Raho 38 chi2 • Si applica da una tabella a due entrate • Attraverso i totali di riga, colonna e complessivi calcola le frequenze teoriche e le confronta con le frequenze osservate. • Risulta un parametro che va confrontato con parametri tabulati che permettono di valutare la probabilità di indipendenza tra due variabili. Informatica e statistica 2003 Prof. Giovanni Raho 39 Normalizzazione dei dati • Si possono trasformare i dati grezzi di una ricerca prendendo come unità di misura la deviazione standard e punto di origine la media aritmetica dei dati grezzi. – Ciò risulta facile col foglio elettronico utilizzando la procedura copia Informatica e statistica 2003 Prof. Giovanni Raho 40 Metodi matematici • Oltre ai metodi grafici EXCEL permette l’uso di metodi matematici quali: – Calcolo del coefficiente di Pearson – Valuta la relazione tra due variabili attraverso la valutazione delle occorrenze contemporanee dei valori delle due variabili. Informatica e statistica 2003 Prof. Giovanni Raho 41 Elaborazione dei dati • Si veda anche le diapositive “Elaborazione dei dati” nella parte introduttiva al programma S. P. S. S.. ( diapositive 5 – 11) Informatica e statistica 2003 Prof. Giovanni Raho 42