Introduzione alla Statistica con R Lezione 1

Statistica con R
Lezione 1
Statistica con R
Lezione 1
Chi sono?
• Laureato in Matematica 1969 (Università di Roma)
• Professore dal 1975
• Dottore di ricerca in Analisi dei Dati dal 2002 (Université
Paris Dauphine)
• 6 libri, 135 articoli su riviste, libri od atti di congressi
• Pagina web: www.camiz.net
• Fotografo professionista negli anni 1970
• Pagina web: www.camiz.com
Introduzione alla
Statistica con R
Lezione 1
Sergio Camiz
03/11/2016
• Musica, Montagna, Vela ...
"Lezione 1".tex
Statistica con R
I-1
Lezione 1
03/11/2016
"Lezione 1".tex
Statistica con R
I-2
Lezione 1
Come fare ad ottenere conoscenza scientifica,
ossia cultura, a partire dai dati osservati?
• Processo molto lungo, attraverso diverse tappe
�La Statistica ha come oggetto la raccolta di dati per la
loro analisi e la loro interpretazione� (M. Carbon)
• Dipende in larga parte dell’obiettivo d’uno studio particolare, perché senza applicazione la statistica non ha
senso.
• Uno studio, un’applicazione, è un momento di costruzione
culturale su una base empirica.
03/11/2016
"Lezione 1".tex
I-3
03/11/2016
"Lezione 1".tex
I-4
Statistica con R
03/11/2016
Lezione 1
"Lezione 1".tex
Statistica con R
I-5
Lezione 1
• La cultura del ricercatore governa tanto la raccolta dei dati
che l’interpretazione dei risultati
• L’analisi dei dati è un insieme di tecniche complesse, di uso
molto più generale, che richiede competenze specifiche.
• Per cominciare, occorre raccogliere dati, cioè fare molte osservazioni ripetitive degli stessi aspetti d’interesse,
costituendo così un campione.
• Dal punto di vista pratico, un campione s’organizza in forma
d’una tavola di dati, che strutturalmente corrisponde ad una
tavola excel.
03/11/2016
"Lezione 1".tex
I-7
Statistica con R
03/11/2016
Lezione 1
"Lezione 1".tex
Statistica con R
I-6
Lezione 1
Nomenclatura:
• Chiameremo unità statistica o individuo ogni oggetto
esaminato.
• Chiameremo caratteri o variabili i diversi elementi che si
decide d’osservare in modo ripetitivo sulle unità statistiche.
• Chiameremo dato la modalità con la quale si è presentato
un carattere in un’unità statistica.
• Chiameremo osservazione l’insieme dei dati dei diversi
caratteri osservati sulla stessa unità statistica.
• Chiameremo campione l’insieme delle osservazioni omogenee fatte su un insieme di unità statistiche.
• Chiameremo tavola di dati l’insieme dei dati del campione.
03/11/2016
"Lezione 1".tex
I-8
Statistica con R
Lezione 1
R
Il programma R è un programma di statistica di pubblico dominio
che si può scaricar dal sito
http://www.R-project.org
ed installare in qualunque tipo di sistema operativo: Linux,
Mac/OS, Windows. Lanciando R si apre una finestra con un carattere ">", che indica dove scrivere comandi, sempre nella forma
di funzione con suoi argomenti:
> <nome> = <funzione>(<arg1>, <arg2>, ...)
o istruzioni di programmazione. Si noti che, per ogni funzione, il
comando
> ?<funzione>
fornisce il manuale d’uso della funzione stessa.
03/11/2016
"Lezione 1".tex
I-9
Statistica con R
Lezione 1
La tavola di dati X seguente è composta da n osservazioni con p
caratteri. Le p Carj e le n U nii sono le etichette dei caratteri e
delle unità rispettivamente. Gli n × p xij sono le modalità con le
quali il carattere Carj s’incontra nell’unità U nii.
U ni1
U ni2
......
U nii
......
U nin
03/11/2016
Car1
x11
x21
......
xi1
......
xn1
Car2
x12
x22
......
xi2
......
xn2
Car3
x13
x23
......
xi3
......
xn3
.....
......
......
......
......
......
......
Carj
x1j
x2j
......
xij
......
xnj
"Lezione 1".tex
......
......
......
......
......
......
......
Carp
x1p
x2p
......
xip
......
xnp
Statistica con R
Lezione 1
Riferendoci a
> <nome> = <funzione>(<arg1>, <arg2>, ...)
• <nome> è il nome d’una struttura di R dove si a va mettere
il risultato della funzione;
• <funzione> è il nome della funzione che s’intende utilizzare;
• <arg1>, <arg2> ... sono i parametri che la funzione deve
usare.
inviando
> <nome>
o
> summary(<nome>)
si vede riportato il contenuto di <nome> in due formati diversi.
03/11/2016
"Lezione 1".tex
Statistica con R
I-10
Lezione 1
Una tavola del genere si può costruire con Excel o Open Office
e dev’esser salvata nel formato .csv, cioè un formato testo che R
può leggere col comando
><nome>=read.table("<percorso/file>",<param,...>)
dove <nome> è il nome della struttura dove sarà posta la tavola
e <param> son almeno i seguenti, separati da virgole:
•
•
•
•
•
header = TRUE se ci sono o no le etichette dei caratteri
row.names = 1 se ci sono etichette d’unità, altrimenti 1,2,3...
dec = . o , secondo qual’è il separatore dei decimali
sep = , o ; che indica il separatore fra colonne
quote = " o ’ che segnala qual’è la delimitazione dei testi.
Per saper l’uso in dettaglio s’esegua il comando (?read.table).
I-11
03/11/2016
"Lezione 1".tex
I-12
Statistica con R
Lezione 1
Un trattamento completo d’analisi dei dati, con l’obiettivo della
rappresentazione d’un fenomeno attraverso un modello matematico, si deve considerare come un processo in tre fasi distinte, come
capita in un processo giudiziario. È per questo che in ogni fase si
hanno obiettivi distinti e quindi occorre usare metodi differenti.
Le tappe son le seguenti:
• fase esplorativa
• fase confermativa
• modellizzazione
03/11/2016
"Lezione 1".tex
Statistica con R
I-13
Lezione 1
La fase confermativa
Lezione 1
La fase esplorativa
•
•
•
•
•
•
•
•
•
•
•
Si definisce una cornice di riferimento e gli obiettivi di studio:
si raccolgono dati,
si studiano con statistiche descrittive, per:
sintesi dell’informazione contenuta in ogni carattere,
controllo di qualità dei dati,
s’eseguono analisi esplorative con modelli cognitivi, per:
estrazione del massimo d’informazione sintetizzabile,
ricerca di strutture e relazioni,
ricerca di fattori per ordinare i dati,
ricerca di partizioni per strutturare i dati in classi,
si formulano ipotesi.
03/11/2016
"Lezione 1".tex
Statistica con R
I-14
Lezione 1
La modellizzazione
• si devono verificare delle ipotesi:
• si raccolgono dati da campioni basati su un progetto
sperimentale,
• si studiano i dati con tecniche statistiche, per confermare le
ipotesi,
• si cercano risposte più certe e serie sopra le ipotesi:
• stimare valori,
• definire intervalli di confidenza,
• testare ipotesi,
• fare inferenza statistica alla popolazione di riferimento.
03/11/2016
Statistica con R
"Lezione 1".tex
I-15
• si suppone di conoscere un fenomeno abbastanza bene,
• si suppone di poterlo rappresentare formalmente attraverso
un sistema matematico d’equazioni,
• un modello teorico spiega il fenomeno dal punto di vista delle
relazioni causali, senza perder di vista i paradigmi teorici
della disciplina di riferimento.
• Impiegando il modello si può simulare il fenomeno,
• si possono anche prevedere il comportamento in una situazione specifica.
In conclusione, si tratta d’un’importante acquisizione di
conoscenza.
03/11/2016
"Lezione 1".tex
I-16
Statistica con R
Lezione 1
• La sequenza delle tre fasi può guidare alla costruzione di un
modello senza rischi di usare un modello definito a priori,
senza una critica sufficiente (Benzécri et al., 1982).
• in pratica a volte non si cerca un modello teorico, ma solo un
modello statistico che non pretende di spiegare il fenomeno
ma solo di stimare valori altrimenti non conoscibili.
Esempio: se si trova una relazione forte fra consumo d’elettricità
e radiazione solare, si può stimare la radiazione attraverso il consumo d’elettricità anche se il consumos d’elettricità non ha effetto
sull’attività solare.
03/11/2016
"Lezione 1".tex
I-17