A. Pollice - STATISTICA MULTIVARIATA
Esercitazione pratica n.7
1. I dati contenuti nel dataset iris di R riguardano 150 fiori riferiti a 3 specie di Iris. Le variabili
Sepal.Length, Sepal.Width, Petal.Length e Petal.Width rappresentano rispettivamente la
lunghezza e la larghezza di sepali e petali ed il fattore Species individua la specie di appartenenza
(setosa, versicolor e virginica). Calcolate i valori caratteristici delle variabili del dataset.
2. Sintetizzate le osservazioni relative al fattore Species attraverso una tabella.
3. Costruite il nuovo dataset iris.1 estraendo casualmente (comando sample()) 75 osservazioni dalle
150. Sintetizzate nuovamente, mediante una tabella ed un diagramma a torta le osservazioni relative al
fattore Species, ma con riferimento al campione.
4. Costruite due coplot che mettano rispettivamente in relazione le dimensioni dei sepali e dei petali,
ponendo la lunghezza sull’asse delle ascisse e condizionando rispetto ai livelli della variabile Species.
Cosa notate dall’osservazione di questi due grafici? (in alternativa potreste costruire due scatterplot con
simboli e/o colori diversi a seconda della specie di appartenenza)
5. Effettuate l’analisi discriminante lineare dei dati campionati contenuti nel dataset iris.1 considerando il
fattore di classificazione Species e le 4 variabili quantitative relative alle dimensioni dei fiori, creando un
oggetto denominato iris.1.lda. Analizzate l’output ottenuto con particolare riferimento ai coefficienti
che mettono in relazione le variabili osservate con i fattori discriminanti ed ai poteri discriminanti.
Rappresentate graficamente le osservazioni classificate sul piano avente per coordinate le prime due
funzioni discriminanti, con simboli diversi a seconda del gruppo di appartenenza. Commentate i grafici
ottenuti alla luce dei valori dei coefficienti e dei coplot di cui al punto 4.
6. Utilizzate la funzione predict() per ottenere la classificazione delle 75 osservazioni non campionate
del dataset iris tramite la funzione discriminante stimata iris.1.lda. Costruite una tabella che metta
in relazione le specie effettive delle osservazioni non campionate con quelle previste tramite la funzione
predict(). Rappresentate graficamente la tabella mediante un grafico a barre affiancate. Commentate
i risultati ottenuti e rappresentate graficamente le osservazioni classificate sul piano avente per
coordinate le funzioni discriminanti, con simboli diversi a seconda del gruppo di appartenenza.
Commentate il grafico ottenuto.
Extra
1bis. Effettuate ulteriori analisi discriminanti, attribuendo alle specie diverse specificazioni delle probabilità
a priori. Verificare eventuali modifiche dell’output dell’analisi discriminante anche mediante
rappresentazioni grafiche come al punto 6. Commentate i risultati ottenuti.
2bis. Esaminate e commentate l’output ottenibile utilizzando la cross validation e non specificando le
probabilità a priori, creando un nuovo oggetto denominato iris.cv. Costruite una tabella che
sintetizzi la relazione tra le specie del campione previste in seguito all’utilizzo della cross validation e
quelle effettive e rappresentate graficamente tale sintesi mediante un grafico a barre affiancate.