Applicazioni del foglio elettronico •1 STATISTICA ELEMENTARE A CURA DEL PROF. GIOVANNI RAHO •Informatica e statistica 2003 Raho Prof. Giovanni La statistica •2 Un insieme di procedure fondate sulla matematica che permettono di analizzare gli eventi e trarne Leggi di collegamento tra eventi Leggi di previsione Modelli in cui le relazioni siano precisate attraverso metodi matematici. •Informatica e statistica 2003 Raho Prof. Giovanni Problema ed informazione •3 Definire il problema Individuare gli eventi che intervengono nel problema. Caratterizzare gli eventi attraverso la definizione dei concetti. Collegare i concetti per costruire une teoria. La teoria ben formata: relazioni non contraddittorie tra concetti. •Informatica e statistica 2003 Raho Prof. Giovanni Gli strumenti di verifica •4 Variabili e misure: I concetti sono definiti attraverso le variabili. Le variabili sono specificate attraverso le misure. Le misure sono di diverso tipo Metriche Rapporti ed intervalli. Ordinali Nominali •Informatica e statistica 2003 Raho Prof. Giovanni Uso delle misure •5 Eseguire operazioni tra le misure Il termine operazioni va considerato in senso lato. Sono operazioni: Unione Separazione Operazioni aritmetiche Operazioni razionali e irrazionali. •Informatica e statistica 2003 Raho Prof. Giovanni Operazioni con le misure •6 Dipendono dal diverso tipo di misura Scale di Misura Addizione Unione Sottrazione separazione Moltiplicazione e divisione Si introduce tra le misure un operatore che le trasformi in modo da poter esser adattate alle nostre esigenze. •Informatica e statistica 2003 Raho Prof. Giovanni Operazioni di sintesi •7 Media aritmetica Va valutata con un opportuno parametro: Deviazione standard (dev ST in Excel) La Deviazione standard misura l’attendibilità della media a. Mediana (divide un gruppo ordinato in due parti) Valutazione attraverso la differenza tra quartili (quattro parti) Moda Valutazione valore minimo e massimo Si vedano gli esempi applicativi col foglio elettronico. •Informatica e statistica 2003 Raho Prof. Giovanni Scale di misura e sintesi •8 Scala metrica Media aritmetica, Deviazione Standard Scala ordinale Mediana, quartili Scala Nominale Conteggio delle frequenze Uso della MODA. •Informatica e statistica 2003 Raho Prof. Giovanni La percentuale •9 Si tratta di una particolare misura usata per confrontare gruppi numericamente diversi. Permette di cogliere le differenze con maggior immediatezza. Analogia grafica: TORTA 75% •Informatica e statistica 2003 Raho Prof. Giovanni I grafici Permettono un confronto immediato di gruppi numericamente diversi A lato un grafico a colonne o istogramma. 90 80 70 60 50 40 30 Est Ovest Nord 20 10 0 1° Trim. 2° Trim. 3° Trim. 4° Trim. •Informatica e statistica 2003 Giovanni Raho 40 volte Prof. 20 volte •10 Vari tipi di grafici per vari usi •11 Torta Rappresentazione di una variabile secondo le percentuali Barre – Istogrammi Rappresentazione di due o più variabili secondo la frequenza dei loro valori. (vedi esempio precedente diapositive) Barre impilate Rappresentazione di due o più variabili secondo i valori di una terza. Vedi nel libro di informatica analisi multivariata •Informatica e statistica 2003 Raho Prof. Giovanni STATISTICA DESCRITTIVA •12 I procedimenti sin qui descritti fanno parte della statistica descrittiva. Essa si occupa della presentazione di dati ed aiuta nella loro interpretazione. … Spesso si rinuncia al dettaglio per avere una visione generale del fenomeno … •Informatica e statistica 2003 Raho Prof. Giovanni Grafici lineari •13 Oltre ai grafici areali descritti in precedenza in cui le occorrenze (frequenze) dei valori di una variabile sono presentate da aree di rettangoli o di settori circolari I grafici lineari rappresentano l’andamento di un fenomeno (spesso rispetto al tempo) Ricordare assi cartesiani •Informatica e statistica 2003 Raho Prof. Giovanni Grafici lineari e sviluppo nel tempo •14 Variazione pendenza •Informatica e statistica 2003 Raho Prof. Giovanni Il grafico lineare Il grafico lineare rappresenta l’andamento dei valori di una variabile. Come tale può ricavare valori indirettamente e può introdurre alla previsione futura. Situazioni Campania Veneto Piemonte Toscana 1985 230 240 180 300 350 Anni rilevazione 1986 1987 270 280 190 180 190 200 310 280 y = 18x + 222 2 R = 0,9205 1988 290 160 210 300 1989 Media Fiducia=DS 310 276 29,664794 130 180 40,620192 245 205 25,000000 300 298 10,954451 y = -25x + 255 2 R = 0,947 y = 15x + 160 2 R = 0,9 y = -x + 301 R2 = 0,0208 300 Campania Veneto Piemonte Toscana Lineare (Campania) 250 200 150 Lineare (Veneto) Lineare (Piemonte) Lineare (Toscana) 100 50 0 1985 1986 1987 1988 1989 Andamento del fenomeno Valori Affidabilità Campania 18 0,92 Veneto -25 0,94 Piemonte 15 0,9 Toscana -1 0,02 •Informatica e statistica 2003 Giovanni Raho Prof. •15 Grafico lineare e linee di tendenza •16 Situazioni Campania Veneto Piemonte Toscana 1985 230 240 180 300 350 Anni rilevazione 1986 1987 270 280 190 180 190 200 310 280 y = 18x + 222 2 R = 0,9205 1988 290 160 210 300 1989 Media Fiducia=DS 310 276 29,664794 130 180 40,620192 245 205 25,000000 300 298 10,954451 y = -25x + 255 2 R = 0,947 y = 15x + 160 2 R = 0,9 y = -x + 301 R2 = 0,0208 300 Campania Veneto Piemonte Toscana Lineare (Campania) 250 200 150 Lineare (Veneto) Lineare (Piemonte) Lineare (Toscana) 100 50 0 1985 1986 1987 1988 1989 Andamento del fenomeno Valori Affidabilità Campania 18 0,92 Veneto -25 0,94 Piemonte 15 0,9 Toscana -1 0,02 Si noti il collega,emto tra l’anda,mento della retta ed il coeff. angolare •Informatica e statistica 2003 Raho Prof. Giovanni La linea di tendenza •17 Se nello studio di un fenomeno ci si accorge che le variabili degli eventi successivi hanno misure con uno sviluppo regolare e … se si può supporre che le cause non siano modificate nel tempo … possiamo prolungare la linea che unisce i successivi momenti oltre le misure già effettuate. •Informatica e statistica 2003 Raho Prof. Giovanni La linea di tendenza •18 IL prolungamento del fenomeno nel tempo è favorito da alcuni algoritmi matematici che tengono conto delle oscillazioni di una variabile intorno a valori medi. La retta di regressione è l’esempio più noto di tale metodo di previsione. •Informatica e statistica 2003 Raho Prof. Giovanni Linee di tendenza •19 Si possono costruire con metodi matematici più o meno complessi linee di forma diversa … La cui forma è individuata dal grado dell’equazione rappresentativa La scelta della linea di tendenza che si avvicina di più ai valori rilevati può essere fatta col parametro R2. •Informatica e statistica 2003 Raho Prof. Giovanni Linee di tendenza •20 Nel caso di linea di tendenza lineare è possobile associare ad una successione di eventi il coefficiente angolare della retta come elemento di sintesi. Esempio: y=5x+3 l’andamento del fenomeno è crescente y = -6x + 3 l’andamento del fenomeno e decrescente y = -10x + 3 il fenomeno decresce più rapidamente della precedente •Informatica e statistica 2003 Raho Prof. Giovanni Linea di tendenza ed R2 •21 R2 varia da 0 nessuna aderenza a 1 completa aderenza ai valori rilevarti •Informatica e statistica 2003 Raho Prof. Giovanni L’andamento di una popolazione •22 •Informatica e statistica 2003 Raho Prof. Giovanni Grafico dell’andamento della popolazione linea di tendenza lineare ossia di 1° grado. 35000 30000 25000 20000 15000 10000 5000 1999 1998 1997 1996 1995 1994 1991 1981 1971 1961 1951 1936 1931 1921 1911 1901 1881 1871 1861 0 RETTA detta anche retta di regressione •Informatica e statistica 2003 Giovanni Raho Prof. •23 Andamento della popolazione tendenza di grado superiore al 1° •24 •Informatica e statistica 2003 Raho Prof. Giovanni 1999 1998 1997 1996 1995 1994 1991 1981 1971 1961 1951 1936 1931 1921 1911 1901 1881 1871 1861 30000 28000 26000 24000 22000 20000 18000 16000 14000 12000 10000 La statistica e la probabilità •25 Esame delle differenze e della causalità Nell’analisi di un fenomeno si usa spesso considerare contemporaneamente i valori di due o più variabili. Il metodo più semplice per valutare le possibili relazioni tra variabili è … •Informatica e statistica 2003 Raho Prof. Giovanni L’uso ed il confronto delle frequenze di un evento •26 Opinione Frequenza Favorevole 78 Contrario 59 Totale 137 Opinione Frequenza Favorevo 120 le Contrario 100 Totale •Informatica e statistica 2003 Raho 220 Prof. Giovanni Grafico •27 Riunendo le due tabelle si può utilizzare un grafico a colonne per valutare i due fenomeni. •Informatica e statistica 2003 Raho Prof. Giovanni Incrocio tra i valori di due o più variabili Istruzione Superiore Media Elementare età adulti anziani 23 12 34 •Informatica e statistica 2003 Giovanni Raho giovani 26 13 23 Prof. 34 23 12 •28 Lettura di una tabella •29 Istruzione Superiore Media Elementare età adulti anziani 23 12 34 23 anziani hanno un’istruzione superiore •Informatica e statistica 2003 Raho Prof. Giovanni giovani 26 13 23 34 23 12 12 giovani hanno un’istruzione elementare Confronti tra frequenze in due variabili •30 Scelta Est Ovest Nord 1*trim 10 30 45 •Informatica e statistica 2003 Raho Valutazione ottenuta 2° trim 3* trim 4° trim 28 90 20 38 35 30 46 44 44 Prof. Giovanni Andamenti di valori di una o più 90 80 variabili 70 60 50 Est Ovest Nord 40 30 20 10 0 1° Trim. 2° Trim. 3° Trim. •Informatica e statistica 2003 Giovanni Raho Prof. 4° Trim. •31 Esercizio Si costruisca con EXCEL il grafico dei dati riprodotti in precedenza Grafico a colonne 40 35 30 25 Elementare Media Superiore 20 15 10 5 0 Anziani •Informatica e statistica 2003 Giovanni Raho Adulti Prof. GIOVANI •32 Grafico a colonne impilate •33 Permette un’analisi all’interno di diverse categorie della distribuzione delle frequenze dei livelli di istruzione. •Informatica e statistica 2003 Raho Prof. Giovanni Grafico a colonne impilate •34 100 90 80 70 60 Superiore Media Elementare 50 40 30 20 10 0 Anziani Categorie •Informatica e statistica 2003 Raho Adulti Prof. Giovanni GIOVANI Analisi multivarata •35 Si tratta di un’analisi dei valori di due variabili in cui interviene una terza variabile discriminante per valutare gruppi di caratteristiche diverse. Es. Il livello di istruzione rispetto all’età, può essere diverso se si considerano gruppi il cui reddito familiare (terza variabile discriminante) sia diverso •Informatica e statistica 2003 Raho Prof. Giovanni Analisi multivariata •36 Reddito alto età adulti anziani Media Istruzione Superiore inferiore 23 12 11 giovani 26 13 23 34 23 34 Il diverso reddito introduce una variazione nella composizione dei gruppi Reddito basso età adulti anziani Media Istruzione Superiore inferiore •Informatica e statistica 2003 Raho Prof. Giovanni 32 8 25 giovani 43 10 20 18 23 12 Analisi multivariata •37 Si veda nel testo Lezioni di Informatica … Il paragrafo 7.7.5 pag. 131 L’uso dei grafici per l’analisi multivariata. L’esercizio n. 2 a pag. 106: Le tabelle dell’analisi multivarata. •Informatica e statistica 2003 Raho Prof. Giovanni Metodi matematici •38 Oltre ai metodi grafici EXCEL permette l’uso di metodi matematici quali: Calcolo del chi2 Valuta la indipendenza tra i valori di due variabili attraverso la valutazione delle occorrenze contemporanee dei valori di due variabili Può essere calcolato spezzando la formula in vari passaggi •Informatica e statistica 2003 Raho Prof. Giovanni chi2 •39 Si applica da una tabella a due entrate Attraverso i totali di riga, colonna e complessivi calcola le frequenze teoriche e le confronta con le frequenze osservate. Risulta un parametro che va confrontato con parametri tabulati che permettono di valutare la probabilità di indipendenza tra due variabili. •Informatica e statistica 2003 Raho Prof. Giovanni Normalizzazione dei dati Si possono trasformare i dati grezzi di una ricerca prendendo come unità di misura la deviazione standard e punto di origine la media aritmetica dei dati grezzi. Ciò risulta facile col foglio elettronico utilizzando la procedura copia •Informatica e statistica 2003 Giovanni Raho Prof. •40 Metodi matematici •41 Oltre ai metodi grafici EXCEL permette l’uso di metodi matematici quali: Calcolo del coefficiente di Pearson Valuta la relazione tra due variabili attraverso la valutazione delle occorrenze contemporanee dei valori delle due variabili. •Informatica e statistica 2003 Raho Prof. Giovanni Elaborazione dei dati •42 Si veda anche le diapositive “Elaborazione dei dati” nella parte introduttiva al programma S. P. S. S.. ( diapositive 5 – 11) •Informatica e statistica 2003 Raho Prof. Giovanni