Statistica con R Lezione 1 Statistica con R Lezione 1 Chi sono? • Laureato in Matematica 1969 (Università di Roma) • Professore dal 1975 • Dottore di ricerca in Analisi dei Dati dal 2002 (Université Paris Dauphine) • 6 libri, 135 articoli su riviste, libri od atti di congressi • Pagina web: www.camiz.net • Fotografo professionista negli anni 1970 • Pagina web: www.camiz.com Introduzione alla Statistica con R Lezione 1 Sergio Camiz 03/11/2016 • Musica, Montagna, Vela ... "Lezione 1".tex Statistica con R I-1 Lezione 1 03/11/2016 "Lezione 1".tex Statistica con R I-2 Lezione 1 Come fare ad ottenere conoscenza scientifica, ossia cultura, a partire dai dati osservati? • Processo molto lungo, attraverso diverse tappe �La Statistica ha come oggetto la raccolta di dati per la loro analisi e la loro interpretazione� (M. Carbon) • Dipende in larga parte dell’obiettivo d’uno studio particolare, perché senza applicazione la statistica non ha senso. • Uno studio, un’applicazione, è un momento di costruzione culturale su una base empirica. 03/11/2016 "Lezione 1".tex I-3 03/11/2016 "Lezione 1".tex I-4 Statistica con R 03/11/2016 Lezione 1 "Lezione 1".tex Statistica con R I-5 Lezione 1 • La cultura del ricercatore governa tanto la raccolta dei dati che l’interpretazione dei risultati • L’analisi dei dati è un insieme di tecniche complesse, di uso molto più generale, che richiede competenze specifiche. • Per cominciare, occorre raccogliere dati, cioè fare molte osservazioni ripetitive degli stessi aspetti d’interesse, costituendo così un campione. • Dal punto di vista pratico, un campione s’organizza in forma d’una tavola di dati, che strutturalmente corrisponde ad una tavola excel. 03/11/2016 "Lezione 1".tex I-7 Statistica con R 03/11/2016 Lezione 1 "Lezione 1".tex Statistica con R I-6 Lezione 1 Nomenclatura: • Chiameremo unità statistica o individuo ogni oggetto esaminato. • Chiameremo caratteri o variabili i diversi elementi che si decide d’osservare in modo ripetitivo sulle unità statistiche. • Chiameremo dato la modalità con la quale si è presentato un carattere in un’unità statistica. • Chiameremo osservazione l’insieme dei dati dei diversi caratteri osservati sulla stessa unità statistica. • Chiameremo campione l’insieme delle osservazioni omogenee fatte su un insieme di unità statistiche. • Chiameremo tavola di dati l’insieme dei dati del campione. 03/11/2016 "Lezione 1".tex I-8 Statistica con R Lezione 1 R Il programma R è un programma di statistica di pubblico dominio che si può scaricar dal sito http://www.R-project.org ed installare in qualunque tipo di sistema operativo: Linux, Mac/OS, Windows. Lanciando R si apre una finestra con un carattere ">", che indica dove scrivere comandi, sempre nella forma di funzione con suoi argomenti: > <nome> = <funzione>(<arg1>, <arg2>, ...) o istruzioni di programmazione. Si noti che, per ogni funzione, il comando > ?<funzione> fornisce il manuale d’uso della funzione stessa. 03/11/2016 "Lezione 1".tex I-9 Statistica con R Lezione 1 La tavola di dati X seguente è composta da n osservazioni con p caratteri. Le p Carj e le n U nii sono le etichette dei caratteri e delle unità rispettivamente. Gli n × p xij sono le modalità con le quali il carattere Carj s’incontra nell’unità U nii. U ni1 U ni2 ...... U nii ...... U nin 03/11/2016 Car1 x11 x21 ...... xi1 ...... xn1 Car2 x12 x22 ...... xi2 ...... xn2 Car3 x13 x23 ...... xi3 ...... xn3 ..... ...... ...... ...... ...... ...... ...... Carj x1j x2j ...... xij ...... xnj "Lezione 1".tex ...... ...... ...... ...... ...... ...... ...... Carp x1p x2p ...... xip ...... xnp Statistica con R Lezione 1 Riferendoci a > <nome> = <funzione>(<arg1>, <arg2>, ...) • <nome> è il nome d’una struttura di R dove si a va mettere il risultato della funzione; • <funzione> è il nome della funzione che s’intende utilizzare; • <arg1>, <arg2> ... sono i parametri che la funzione deve usare. inviando > <nome> o > summary(<nome>) si vede riportato il contenuto di <nome> in due formati diversi. 03/11/2016 "Lezione 1".tex Statistica con R I-10 Lezione 1 Una tavola del genere si può costruire con Excel o Open Office e dev’esser salvata nel formato .csv, cioè un formato testo che R può leggere col comando ><nome>=read.table("<percorso/file>",<param,...>) dove <nome> è il nome della struttura dove sarà posta la tavola e <param> son almeno i seguenti, separati da virgole: • • • • • header = TRUE se ci sono o no le etichette dei caratteri row.names = 1 se ci sono etichette d’unità, altrimenti 1,2,3... dec = . o , secondo qual’è il separatore dei decimali sep = , o ; che indica il separatore fra colonne quote = " o ’ che segnala qual’è la delimitazione dei testi. Per saper l’uso in dettaglio s’esegua il comando (?read.table). I-11 03/11/2016 "Lezione 1".tex I-12 Statistica con R Lezione 1 Un trattamento completo d’analisi dei dati, con l’obiettivo della rappresentazione d’un fenomeno attraverso un modello matematico, si deve considerare come un processo in tre fasi distinte, come capita in un processo giudiziario. È per questo che in ogni fase si hanno obiettivi distinti e quindi occorre usare metodi differenti. Le tappe son le seguenti: • fase esplorativa • fase confermativa • modellizzazione 03/11/2016 "Lezione 1".tex Statistica con R I-13 Lezione 1 La fase confermativa Lezione 1 La fase esplorativa • • • • • • • • • • • Si definisce una cornice di riferimento e gli obiettivi di studio: si raccolgono dati, si studiano con statistiche descrittive, per: sintesi dell’informazione contenuta in ogni carattere, controllo di qualità dei dati, s’eseguono analisi esplorative con modelli cognitivi, per: estrazione del massimo d’informazione sintetizzabile, ricerca di strutture e relazioni, ricerca di fattori per ordinare i dati, ricerca di partizioni per strutturare i dati in classi, si formulano ipotesi. 03/11/2016 "Lezione 1".tex Statistica con R I-14 Lezione 1 La modellizzazione • si devono verificare delle ipotesi: • si raccolgono dati da campioni basati su un progetto sperimentale, • si studiano i dati con tecniche statistiche, per confermare le ipotesi, • si cercano risposte più certe e serie sopra le ipotesi: • stimare valori, • definire intervalli di confidenza, • testare ipotesi, • fare inferenza statistica alla popolazione di riferimento. 03/11/2016 Statistica con R "Lezione 1".tex I-15 • si suppone di conoscere un fenomeno abbastanza bene, • si suppone di poterlo rappresentare formalmente attraverso un sistema matematico d’equazioni, • un modello teorico spiega il fenomeno dal punto di vista delle relazioni causali, senza perder di vista i paradigmi teorici della disciplina di riferimento. • Impiegando il modello si può simulare il fenomeno, • si possono anche prevedere il comportamento in una situazione specifica. In conclusione, si tratta d’un’importante acquisizione di conoscenza. 03/11/2016 "Lezione 1".tex I-16 Statistica con R Lezione 1 • La sequenza delle tre fasi può guidare alla costruzione di un modello senza rischi di usare un modello definito a priori, senza una critica sufficiente (Benzécri et al., 1982). • in pratica a volte non si cerca un modello teorico, ma solo un modello statistico che non pretende di spiegare il fenomeno ma solo di stimare valori altrimenti non conoscibili. Esempio: se si trova una relazione forte fra consumo d’elettricità e radiazione solare, si può stimare la radiazione attraverso il consumo d’elettricità anche se il consumos d’elettricità non ha effetto sull’attività solare. 03/11/2016 "Lezione 1".tex I-17