Presentazione di PowerPoint - Tecnico superiore per la

FRANCESCA IACOPONI
[email protected]
Corso di Informatica
Modulo statistica
Giugno 2013
Programma del corso
Indagini statistiche
Elementi di statistica
Distribuzioni di probabilità
Test e verifica d’ipotesi
2
Fondamentale: FARE DOMANDE!!!
3
…e fidarsi…
…senza avere basi solide!
4
Statistica
status rerum
definita e proposta dal filosofo tedesco G. Achenwall nel XVIII
secolo
“scienza deputata a raccogliere dati utili per meglio governare”
Oggi tale scienza è ampiamente impiegata per procedere ad
una raccolta ordinata dei dati al fine di:
• scoprire eventuali leggi che regolano i dati stessi solo in
apparenza disordinati
• operare il confronto fra dati ottenuti in condizioni differenti
Entra nella ricerca in due differenti momenti:
• Piano sperimentale
• Analisi dei dati raccolti
5
5
INDAGINE STATISTICA
Principali fasi di un’indagine statistica
• finalità dell’indagine
• definizione della popolazione di studio e/o di riferimento
• pianificazione dei metodi di rilevazione dei dati
• classificazione e organizzazione dei dati rilevati
• analisi ed elaborazione dei dati
• interpretazione dei risultati
affidabilità e validità dei dati per limitare i possibili errori
sistematici
6
DATI
Sono le rappresentazioni numeriche
di un fenomeno
Fonti dei dati:
Primarie: dati raccolti
direttamente, spesso rilevati
attraverso indagini campionarie
Secondarie: dati raccolti da altri
(registrazioni di atti
amministrativi, anagrafe, etc.)
7
Cosa è una fonte statistica?
• L’ente che produce ed è responsabile del dato;
• La rilevazione/elaborazione da cui proviene il dato
(raccolta diretta per l’indagine ad hoc oppure
elaborazione di dati contenuti in archivi
amministrativi);
• La pubblicazione su carta, cd-rom, sito web su cui è
rilasciato il dato (ad esempio, l’Annuario statistico
italiano o il database contenente i dati)
8
Fonti statistiche
PRIVATE
NAZIONALI
UFFICIALI
PUBBLICHE
NON
UFFICIALI
INTERNAZIONALI
9
Fonti statistiche pubbliche
Rilevazioni dell’Istat, indagini
10
Esempi di dati
1)
2)
3)
4)
5)
Numero di confezioni ordinate
Domanda annuale di ricambi
Incassi e pagamenti
Numero di camion scaricati
Personale impiegato nell’imballaggio merci
11
Rilevazione Statistiche
Tecniche per rilevare le unità statistiche
TOTALI
(censimenti)
PARZIALI
(campionarie)
• Perché Parziali e non Totali?
• Al fine di evitare costi e tempi superiori al necessario sarà
utile fin dall’inizio stabilire:
» Modalità di rilevazione
» Tecniche di rilevazione
Modalità di Rilevazione
Intervistatore
Faccia a faccia
Libera
Telefoniche (CATI)
Con Scheda
Dirette
Questionario postale
Autocompilate
Libretto
Rilevazioni
Esame dei documenti
Indirette
Metodo del sopralluogo
Rilevazioni dirette (Intervistatore)
Faccia a faccia: da più garanzie per la qualità dei dati, più costosa, bassa
percentuale di rifiuti
• Libera: focalizzata  a domande precise ottengo risposte precise
• Con Scheda: risposta a quesiti lettifacile tabulazione e interpretazione, nessuna codifica
Intervista Telefonica . La tecnica CATI (Computer Assisted Telephone Interview)
Scheda breve, scelta non casuale (non tutti hanno il telefono).
Software raccolta dati. (generatore casuale di numeri telefonici con riserve di nomi
e questionario inserito da compilare all’utente).
• Vantaggi:
»
»
»
»
Registra matricola, nome, numero, data, durata rilevazione:
Domande ruotate (elimina effetto d’ordine), coerenza risposte, limita gli errori;
Suggerimenti per la tabulazione, e l’analisi, confronto con indagini passate;
Monitaraggio completo nelle varie fasi;
• Svantaggi:
» Elevati costi economici (intervistatore, software) e di tempo;
» Scarsa flessibilità nella correzione degli errori;
» Errore di copertura;
Rilevazioni dirette (autocompilate)
Questionario postale:
• Pregi:
• bassi costi e risposte in libertà
• Difetti:
•
•
•
•
Mancati ritorni
Indisponibilità degli indirizzi dell’Universo
Risposte non pertinenti (non capisce le domande)
Risposte fornite da altro soggetto
Rilevazioni con libretto:

conoscere giorno per giorno i consumi e le spese effettuate dalle famiglie a cui viene
consegnato il libretto.
Rilevazioni indirette
Esame dei documenti:
Si esaminano i documenti personali degli individui presso l’Istituto o
l’Ente che di cui fanno parte (handicappati)
Metodo del Sopralluogo:
Osservatori sul luogo di indagine per rilevare il comportamento degli
individui (con o senza partecipazione)
Il Questionario (stesura)
• Leggere la letteratura esistente facendosi consigliare da un esperto su
come formulare le domande in grado di raggiungere gli obiettivi
dell’indagine
• Consigli:
• Evitare domande viziate (Es. Indagine religiosa. Sei Stato a messa
domenica? Meglio: Cosa hai fatto domenica?)
• Evitare domande doppie (Es. Favorevole all’aborto e al divorzio?)
• Domande formulate in modo semplice e non ambigue (alcuni
termini possono voler significare molte cose)
• Numero delle domande (adeguato allo scopo, al luogo, al tipo di
persone intervistate, all’argomento trattato)
• Ordine logico delle domande (tenere lontane domande con nessi
causali)
La raccolta dati:
il database
18
Programmi di gestione
Includono applicazioni utilizzate per aumentare
l'efficienza e la produttività delle società di
logistica nonché per operare risparmi sui costi.
Alcuni degli applicativi più utilizzati nel settore
trasporti sono:
•il sistema di gestione della flotta (FMS)
•il sistema di gestione dei trasporti (TMS)
•il sistema di gestione dei rimorchi
•il sistema di gestione del magazzino o Warehouse
Management System (WMS)
19
20
21
22
Il dato rilevato sulla variabile
Quando determiniamo la durata, la motivazione, la frequenza
di una unità statistica (confezione, articolo…): il
risultato/dato è riferito come un valore della rispettiva
variabile/carattere
Variabile: qualsiasi caratteristica si presenti con
modalità diverse, da soggetto a soggetto o, nello
stesso soggetto, da un momento all’altro
23
Variabili qualitative e quantitative
Alcune caratteristiche assumono valori espressi in forma
verbale
-tipo di anomalia
-colore cromatura
variabili qualitative
Altre sono espresse in modo numerico.
-10 giorni
-numero confezioni
variabili quantitative
24
24
Variabili qualitative e quantitative
VARIABILE QUANTITATIVA
Discreta: i dati sono espressi da misure intere, non frazionabili
Continua: i dati sono espressi da misure frazionabili
VARIABILE QUALITATIVA
Nominale: le modalità non sono divise in categorie
Ordinale: prevede un ordine predeterminato, anche se non è
prevista un’uguale distanza fra le modalità
25
VARIABILI:
QUALITATIVE
Carattere
Modalità
nominali
Colore prodotto
Nero
Bianco
ordinali
Grado di integrità





Integro
Pacco danneggiato
Pacco e interno
danneggiato
Danneggiato con
anomalie
Da sostituire
QUANTITATIVE
Carattere
Modalità
discrete
Numero di
confezioni
1,2,3,…..
continue
Dimensioni
confezione
h. 1.36 m
l. 82.5 cm
26
Esercizio
• Quantità del prodotto
• Restituzione al fornitore si/no
• Ore di viaggio
• Numero anomalie riscontrate
• Tipo di anomalie
• Tempi di consegna
• Numero ordini in un mese
• Tipi di articolo per categoria
27
STATISTICA DESCRITTIVA
La statistica descrittiva
è composta da un insieme di tecniche
finalizzate all’organizzazione ed alla
sintesi dei dati
29
La distribuzione di frequenza
All’aumentare del numero di osservazioni N rilevate su un carattere
X di un fenomeno, è opportuno, organizzare le informazioni (x1, x2,
…, xN) mediante la tabulazione dei dati.
Nelle tabelle vengono elencate
•le modalità del carattere (i valori che può assumere)
•le frequenze (F) con cui ogni modalità si presenta
le informazioni contenute nelle tabelle costituiscono la cosiddetta
distribuzione di frequenza del carattere esaminato
Frequenza assoluta: numero di volte che un dato carattere si presenta con
un certo valore.
30
Frequenza assoluta, relativa e percentuale
Frequenza relativa (f): rapporto fra le frequenze
assolute (F) ed il loro totale (N).
Se moltiplicata per 100, restituisce la Frequenza
percentuale (%)
Nazionalità
F
f
Italiana
1286
0.39
Europea
1568
0.47
Extra-Europea
469
0.14
Totale
3323
1.00
N
F
i 1
i
(Fonte: Risorsa Turismo, 2008)
N
N
f
i 1
i
1
N.B. La frequenza relativa è utile se voglio confrontare due fenomeni di
differente numerosità
31
Raggruppamento dei dati in classi
Stabilito il valore maggiore e minore in una distribuzione, per
ordinare i dati in classi:
• Le classi dovrebbero essere non meno di 5 e non più di 20;
• Per stabilire indicativamente il numero di classi possiamo ricorrere alla regola
di Sturges:
K (numero di classi indicate) : 1 + 3,3 log (N)
Es. 100.000 osservazioni:
K = 1+3,3 log(100.000) = 1+(3,3x5) = 18
32
Raggruppamento dei dati in classi
Nelle divisioni in classi vanno definiti il limite inferiore e quello superiore,
per evitare che una stessa unità possa far parte contemporaneamente di due
classi.
Intervallo chiuso a sinistra, cioè comprendente
l’estremo inferiore
Intervallo chiuso a destra, cioè comprendente l’estremo
superiore
Intervallo chiuso, cioè comprendente ambedue gli estremi
della classe
le classi possono essere di ampiezza costante, oppure di ampiezza diversa
(l’ampiezza è calcolata facendo la differenza degli estremi)
33
Ampiezza della classe e densità
• Ampiezza di classe: estremo superiore - estremo inferiore della
classe
• Densità: Frequenza / ampiezza (grado di addensamento dei dati)
34
FREQUENZA CUMULATA
Si definisce Frequenza cumulata la somma progressiva delle
frequenze associate a ciascuna intensità del carattere
Frequenza
cumulata
-------------15
15+2=17
17+3=20
35
Esercizio
Dati raccolti su 30
camionisti che hanno
soggiornato nell’albergo
portuale nel mese di
luglio 2007
Matrice dei dati
-Che tipo di variabili
sono?
-Tabelle di frequenza in
base alle variabili rilevate
36
Rappresentazioni grafiche dei dati
La rappresentazione grafica è utile
distribuzioni di elevata numerosità
in
particolare
per
Alcuni tipi di grafico:
Grafico a torta
Grafico ad aghi
Grafico a barre
Istogramma
Poligono di frequenza
Grafico a coordinate polari
Scatter plot
Box plot
37
Grafico a torta
Un magazziniere valuta 33.286 imballaggi effettuati da una
particolare ditta
Grado di soddisfazione
Non soddisfatto
F
%
736
2,2
Abbastanza soddisfatto
17.987
54,0
Soddisfatto
14.563
43,8
N
33.286
100,0
Abbastanza
soddisfatto
Per calcolare l’ampiezza dell’angolo:
Soddisfatto
Non soddisfatto
360°: 100 = X°: 2.2
X° = (360 • 2.2) / 100 = 7.92
Cosa posso
concludere?
38
Grafico a barre
Nazionalità
Carichi provenienti da:
F
Italiana
1286
Europea
1568
Extra-Europea
469
Totale
3323
39
Istogramma (1)
Km percorsi giornalmente
per lavoro
F
(1-20]
15
(20-40]
2
(40-60]
3
(60-80]
6
40
Istogramma (2)
•Basi coincidenti con ampiezza delle classi
•Altezze uguali alla densità di frequenza
•Superfici uguali alle frequenze di classe
41
Poligono delle frequenze
42
Coordinate polari
X (mesi)
F
Gennaio
1.976
Febbraio
1.945
Marzo
2.178
Aprile
2.008
Maggio
2.154
Giugno
2.068
Luglio
2.025
Agosto
1.382
Settembre
2.014
Ottobre
2.125
Novembre
1.935
Dicembre
1.873
N
23.674
Numero di richieste rimborsi per merce danneggiata, anno 2000
43
Scatter plot (diagramma a dispersione)
Numero di viaggi all’anno in relazione all’età
44
Cartogramma
ES: Traffico navale per
città portuali non
turistiche
Turisti in Italia per regione
Turisti italiani e stranieri in Italia
per regione
45
Piramide di popolazione
Classi di età
Frequenza percentuale
46
Per riassumere…
Tipo di dati
variabile
Distribuzioni di Qualitativa
frequenza
Quantitativa discreta
grafico




Quantitativa continua




Barre
Torta
Ad Aghi
Torta
Istogramma
Poligono di frequenza
Box plot
Scatter plot
47