Corso SPAD Lezione I – Introduzione Roberto Galasso Università Federico II di Napoli SPAD E’ un potente software di analisi statistica E’ un software specifico per l’analisi esplorativa di dati Caratteristiche Metodi applicabili a dati numerici Metodi applicabili a dati testuali Caratteristiche operative: Procedure, moduli e file I Moduli SPAD base • • • SPAD.D : Decision • • • Analisi univariata Analisi fattoriale Classificazione Regressione – analisi della varianza Modelli log-liniari Reti neurali SPAD.S : Segmentation • Segmentazione e classificazione I Moduli SPAD Tableaux Multiples : • SPAD Amado : • Applica l’analisi dei dati utilizzando l’approccio grafico proposto da Bertin SPAD Question : • Consente di applicare tecniche di analisi Multy-way come l’analisi Fattoriale multipla Consente di predisporre questionari, impostando domande e modalità di risposta. SPAD.T : • applica tecniche multidimensionali a dati testuali seguendo un approccio lessicometrico La finestra principale La finestra della filiera Per inserire il data-set fare doppio click sull’icona della base dati. I file associati ai database di SPAD sono i file .SBA Il nome del file apparirà affianco all’icona. Metodi e filiere • I metodi sono tutti i possibili “modelli” di analisi dei dati che SPAD permette di utilizzare • Le filiere sono una serie di metodi concatenati. Inserire filiere e metodi Per inserire una filiera predefinita è sufficiente fare click sul menu: Modèle Filière prédéfinie N.B. È possibile inserire i metodi ad uno ad uno nella filiera, attraverso il menu Méthode Insérer méthode. Approfondiremo questo sistema più avanti. Inserire filiere e metodi Apparirà dunque una finestra dove è possibile scegliere tra le varie filiere predefinite suddivise in diversi gruppi. Per continuare il nostro esempio introduttivo sceglieremo la filiera predefinita per l’analisi delle corrispondenze multiple. Inserire filiere e metodi Una volta inseriti i metodi, le icone risulteranno di colore grigio. Ciò vuol dire che i metodi non sono ancora eseguibili. Quando i metodi sono parametrizzati (sono state scelte le variabili di interesse, i parametri e le opzioni desiderate) essi divengono operativi e l’icona diverrà di colore giallo. Per scegliere i parametri di un metodo basta cliccare due volte sulla sua icona. I riquadri che contengono l’ordine dei metodi possono assumere tre colori : •Bianco se il metodo non è stato parametrizzato •Verde se il metodo è parametrizzato e verrà eseguito •Rosso se il metodo è parametrizzato ma non verrà eseguito Facendo doppio click sul riquadro è possibile passare da verde a rosso Finestra dei metodi Nelle finestre dei vari metodi solitamente è possibile selezionare le variabili su cui vogliamo effettuare l’analisi, modificare alcune opzioni e parametri. N.B. Le finestre relative ai parametri dei moduli possono essere molto diverse tra loro, vedremo poi, più approfonditamente, le finestre dei metodi più comuni. Finestra dei metodi La selezione delle variabili avviene tramite questi tasti : Seleziona una variabile Seleziona tutte le variabili Deseleziona una variabile Deseleziona tutte le variabili La selezione e deselezione di una variabile è possibile anche tramite il doppio click del mouse su di essa N.B. In alcune finestre questi tasti potrebbero essere ruotati. Salvare ed eseguire una filiera Per eseguire una filiera è necessario che essa sia stata antecedentemente salvata (menu Filière Sauvegarder filière) I file associati alle filiere sono i file .FIL Dopo aver salvato la filiera è possibile eseguirla dallo stesso menu. Gli output Una volta eseguita la filiera sarà possibile consultare gli output tramite le icone apparse affianco a quelle dei metodi • Output Grafici • Output numerici • Riepilogo Output in Excel Facendo doppio click sulle icone sarà possibile entrare nelle finestre degli output Gli output numerici Nella finestra degli output numerici sarà possibile consultare tutti gli output in un formato testuale. Sarà possibile esplorare tutti i tabulati con facilità, in quanto essi vengono organizzati in una struttura ad albero. Tramite questa icona è possibile allargare a tutto schermo i tabulati dei dati e nascondere l’albero. Facendo nuovamente click l’albero riapparirà Utilizzando questa icona sarà, invece, possibile nascondere la ramificazione Utilizzando questa icona sarà possibile visualizzare altri rami dell’albero Gli output grafici Aperta la finestra dell’output grafico, per prima cosa bisogna aprire un nuovo grafico dal menu : Graphique Noveau Gli output grafici Una volta aperto il nuovo grafico sarà possibile scegliere cosa visualizzare. Sarà possibile visualizzare sullo stesso grafico sia individui che variabili. Per continuare, nel nostro esempio è stato scelto di visualizzare solo le variabili. Gli output grafici Qui sotto vediamo come si presenterà il grafico. Per ora ci limiteremo a capire l’utilizzo delle sue opzioni principali. Gli output grafici Vediamo dunque il funzionamento di alcune delle icone inerenti al grafico. Permette di selezionare e deselezionare, ad uno ad uno, i punti del grafico. Permette di selezionare tutti i punti del grafico interni o esterni ad una sezione definita con il mouse. Permette di deselezionare tutto. Gli output grafici Permette di visualizzare l’etichetta associata ai punti selezionati. Nasconde l’etichetta associata ai punti selezionati. Nasconde i punti selezionati. Rende nuovamente visibili tutti i punti nascosti. Gli output grafici Permette di visualizzare maggiori informazioni su un punto del grafico. (Coordinate sugli assi, contributo, distanza dall’origine, ecc.) Aggiorna e pulisce il grafico dopo eventuali modifiche Traslano simmetricamente, rispettivamente in verticale e orizzontale, il grafico Amplia una sezione di grafico, selezionata con il mouse Corso SPAD Lezione II – Importare i dati Roberto Galasso Università Federico II di Napoli Definizioni principali La tabella dei dati si distingue innanzitutto in : Individui (le unità su cui viene effettuata l’indagine) – sulle righe Variabili – sulle colonne SPAD distingue le variabili in : Nominali (variabili qualitative) – sono definite mediante classificazione in categorie discrete, i valori sono definiti Modalità. Continue (variabili quantitative) – sono misurate su una scala continua, sulla quale possono assumere un numero infinito di valori. Etichette e codifiche Ogni variabile dispone della possibilità di apporre un’etichetta di massimo 60 caratteri. Le modalità delle variabili nominali possono avere una codifica breve di massimo 4 caratteri e una codifica estesa di massimo 20 caratteri Ogni individuo dispone di un’etichetta di massimo 60 caratteri. Se questa non è stato definita al momento dell’importazione dei dati, SPAD utilizza una numerazione da 1 a N I dati mancanti Se un’unità campionaria risponde a molte domande, ma non a tutte, o se la risposta è giudicata non corretta e cancellata, si ha uno (o più) dati mancanti In SPAD ai dati mancanti di una variabile nominale viene attribuito uno 0, mentre ai dati mancanti di una variabile continua viene attribuito un valore scelto dall’utente al momento dell’importazione dei dati (solitamente 999999). Tipi di Importazione dati Da file di testo delimitato o tabulato Da file di testo in formato fisso Da file SAS Da file SPSS Da file ODCB (formato per i database) Importazione da file tabulato L’importazione da file di testo tabulato è il metodo più semplice per importare un file excel. Per prima cosa è necessario salvare il file excel con : File -> Salva con nome -> Testo(delimitato da tabulazione) Dopo di che seguiamo le seguenti operazioni: Base -> Importer -> Importation Ascii Importazione da file tabulato Cliccando su Nouveau Apparirà una nuova finestra in cui è necessario inserire il nome della nuova importazione. Nell’esempio chiameremo la nuova importazione EXCEL Dopo aver cliccato su ok potremo scegliere il file .txt che vogliamo importare. Nell’esempio utilizziamo il file EXCEL.TXT presente tra le basi di SPAD Importazione da file tabulato Tipo di delimitazione Indicatore dei decimali Formato del file importato Opzioni sulle etichette Importazione da file tabulato Una volta scelto il file sarà necessario associare ad ogni variabile un tipo. Dalla finestra sarà anche possibile inserire le etichette delle variabili e delle modalità delle stesse (Nel caso in cui esse non fossero presenti nella prima riga del file, SPAD assegnerà automaticamente le etichette C1,C2, … , CN) Importazione da file tabulato Possiamo definire le variabili secondo i seguenti tipi : Identificativa – Di solito assegnata alla colonna che identifica gli individui Nominale – Da applicare a variabili nominali già codificate. Sono accettati solo valori positivi. Il numero di modalità sarà pari al numero più grande presente nella variabile. Nominale con ricodifica – Da applicare a variabili nominali già codificate. Sono accettati solo valori positivi. Il numero di modalità sarà pari al numero più valori diversi presenti nella variabile Alfabetica – Da applicare a variabili nominali espresse in caratteri alfanumerici. Continua – i valori non numerici verranno considerati valori mancanti Abbandonata – Se non si vuole importare la variabile Importazione da file tabulato Una volta completata l’attribuzione di un tipo ad ogni variabile è possibile eseguire l’importazione e salvare il tutto in un file .SBA Dopo di che sarà sufficiente richiamare il file come visto in precedenza per iniziare la nostra indagine. Importazione da file SPSS Per importare un file SPSS bisogna aprire l’editor dei dati di SPAD. Dalla barra degli strumenti : Base -> Nouvelle Base Importazione da file SPSS Dalla finestra dell’editor dei dati: Fichier -> Fermer Poi Fichier ->Ouvrir Dalla finestra di esplora risorse scegliere di importare un file .SAV e poi il file SPSS che si desidera importare. Nel nostro caso è stato scelto il file GSS.SAV già presente nelle basi di dati di SPAD. Il file verrà inserito nell’editor di dati, dopo di che sarà sufficiente salvare il file in formato .SBA con l’opzione: Fichier ->Enregistrer sous Importazione da file SPSS Ricordiamo che SPSS non fa la distinzione tra variabili nominali e continue come SPAD, per questo la distinzione in fase di importazione viene fatta da SPAD seguendo le seguenti regole: • La variabili che contengono valori interi da 1 a 300 sono considerate nominali • Tutte le altre variabili numeriche sono considerate continue, incluse tutte le variabili che contengano uno 0 • I valori mancanti vengono tradotti automaticamente in un 0 per le variabili nominali e in 9999999 per le variabili continue • Le variabili alfanumeriche non sono prese in considerazione nella conversione. Se si vuole che vengano convertite in variabili nominali utilizzare la funzione “Ranger automatiquement” nel menu Calcul. L’Editor dei dati Vediamo ora l’utilizzo dell’editor dei dati. Come già visto in precedenza, possiamo entrare nell’editor dei dati dal menu: Base -> Nouvelle Base. L’icona “Var” apre la finestra delle variabili da dove è possibile inserire le variabili e definirle L’icona “Mod” apre la finestra della modalità dove è possibile inserire e definire le modalità delle singole variabili L’icona “Val” apre la finestra dei valori dove è possibile inserire i singoli valori per ogni individuo L’Editor dei dati Nella Finestra della variabili abbiamo i campi : • Ident – è l’etichetta breve della variabile (max 4 caratteri) • Libel – è l’etichetta estesa della variabile (max 60 caratteri) • Type – è la tipologia di variabile (T per testuale, N per nominale, C per continua) • Min – è il valore minimo che può assumere la variabile, è modificabile per le variabili continue • Max – è il valore massimo che può assumere la variabile. Per le variabili nominali è il numero delle modalità. L’Editor dei dati Nella Finestra delle modalità abbiamo i campi : • Ident – è l’etichetta breve della modalità (max 4 caratteri) • Libel – è l’etichetta estesa della modalità (max 20 caratteri) L’Editor dei dati Nella Finestra delle modalità abbiamo i campi relativi a tutte le variabili definite in precedenza. Dalle varie finestre descritte fin ora è possibile utilizzare le seguenti icone per : Aggiungere una riga prima di quella selezionata Aggiungere una riga dopo di quella selezionata Cancellare la riga in uso Cancellare le righe selezionate