levine1_1-34
5-12-2001
12:02
Pagina 1
1
Introduzione
e raccolta dei dati
1.1
1.2
1.3
1.4
1.5
1.6
1.7
1.8
1.9
Perché un manager deve conoscere la statistica 2
Lo sviluppo della statistica moderna 3
Il pensiero statistico e il management moderno 4
La statistica descrittiva e la statistica inferenziale 4
Perché abbiamo bisogno dei dati? 6
Le fonti dei dati 7
Tipi di dati 9
Tipi di metodi di campionamento 11
Valutare l’adeguatezza delle indagini campionarie 18
Riepilogo 22
A1.1
Introduzione a Microsoft Excel
28
◆
1
levine1_1-34
5-12-2001
12:02
Pagina 2
OBIETTIVI
✓
✓
✓
✓
✓
✓
Presentare una rassegna dei campi di applicazione della statistica
Illustrare le differenze tra statistica descrittiva e statistica inferenziale
Illustrare quali sono le fonti dei dati
Illustrare quali sono i tipi di dati
Introdurre i metodi di selezione di un campione
Comprendere come valutare l’adeguatezza delle indagini campionarie
◆
1.1
PERCHÉ
UN MANAGER DEVE CONOSCERE LA STATISTICA
Un secolo fa H.G. Wells affermava: “La statistica un giorno sarà necessaria come il saper
leggere e scrivere”. Oggi il problema che i manager si trovano più spesso ad affrontare non
è la mancanza di informazioni, ma semmai l’opposto, una sovrabbondanza di informazioni
difficili da sintetizzare e interpretare; è pertanto necessario saper usare correttamente le
informazioni a disposizione per prendere le decisioni migliori.
È proprio a partire da questa prospettiva, ossia dalla prospettiva di un processo decisionale che si fondi sulle informazioni disponibili, che vogliamo prendere in considerazione
la necessità per il manager di conoscere la statistica. I manager devono conoscere la statistica per i seguenti quattro motivi fondamentali:
1. Per sapere come presentare e descrivere in maniera appropriata le informazioni in loro
possesso.
2. Per sapere come trarre conclusioni riferite a intere popolazioni sulla base delle informazioni che si ottengono da campioni.
3. Per sapere come migliorare i processi aziendali.
4. Per sapere come ottenere previsioni affidabili.
Di seguito trovate una mappa per orientarvi nel libro sulla base della prospettiva tracciata
da questi quattro motivi. Dalla piantina potete osservare che i primi tre capitoli riguardano
i metodi di raccolta, la presentazione e la descrizione delle informazioni. Nel Capitolo 4
vengono introdotti i concetti di base del calcolo delle probabilità, la distribuzione binomiale,
la distribuzione normale e altre distribuzioni di utilizzo comune, in modo tale che nei Capitoli 5-8 potrete imparare a trarre conclusioni riferite a intere popolazioni sulla base delle
informazioni ottenute da campioni. I Capitoli 9-11 si concentrano su regressione lineare
semplice, regressione multipla e analisi delle serie temporali, che sono metodi per ottenere
previsioni affidabili. Il Capitolo 12 riguarda le applicazioni statistiche nella gestione della
qualità e della produttività, essenziali per il miglioramento dei processi.
I metodi statistici sono comunemente usati nelle diverse aree funzionali di un’azienda:
dalla contabilità alla finanza, dalla produzione al marketing. Nell’ambito della contabilità i
metodi statistici sono usati, ad esempio, per selezionare i campioni utilizzati per l’auditing
e per individuare le determinanti principali dei costi (cost driver) nella contabilità industriale. L’area finanziaria usa i metodi statistici per scegliere tra portafogli alternativi e per
tracciare i trend delle misure finanziarie nel tempo. L’area produzione usa i metodi statistici per migliorare le qualità dei beni prodotti o dei servizi forniti dall’azienda. L’area
marketing usa i metodi statistici per stimare la proporzione di clienti che preferisce un prodotto a un altro e il motivo sotteso a tale preferenza, o per trarre delle conclusioni su quale
strategia pubblicitaria risulta più efficace nell’aumentare le vendite di un prodotto.
2
CAPITOLO 1
INTRODUZIONE
E RACCOLTA DEI DATI
levine1_1-34
5-12-2001
12:02
Pagina 3
Trarre conclusioni
su un’intera popolazione
basandosi su informazioni
campionarie
Presentare
e descrivere
le informazioni
Applicazioni statistiche
nella gestione della qualità
e della produttività
(Capitolo 12)
Introduzione e
raccolta dei dati
(Capitolo 1)
Tabelle e grafici
(Capitolo 2)
Migliorare
i processi aziendali
Calcolo delle probabilità e
distribuzioni di probabilità
(Capitolo 4)
Statistiche
descrittive
(Capitolo 3)
Ottenere previsioni
affidabili sulle variabili
di interesse
Il modello di regressione
lineare semplice
e la correlazione
(Capitolo 9)
Regressione
multipla
(Capitolo 10)
Distribuzioni
campionarie e stima
(Capitolo 5)
Analisi
delle serie
temporali
(Capitolo 11)
Verifica
di ipotesi
(Capitoli 6-8)
Mappa del libro
◆
1.2
LO
SVILUPPO DELLA STATISTICA MODERNA
Storicamente, lo sviluppo della statistica moderna si può attribuire a tre distinti fenomeni:
la necessità da parte dei governi di raccogliere dati sui propri cittadini (vedete i riferimenti
bibliografici 12, 19, 20, 24 e 25 a fine capitolo), lo sviluppo dell’uso della matematica nel
calcolo delle probabilità e l’avvento del computer.
I dati sono stati raccolti dai governi nel corso di tutta la storia umana documentata.
Durante le civiltà egiziana, greca e romana, i dati erano raccolti principalmente per gli scopi
della tassazione e della coscrizione militare. Nel Medio Evo, le istituzioni della Chiesa tenevano una documentazione delle nascite, delle morti e dei matrimoni. In America, durante
il periodo coloniale, erano effettuate diverse registrazioni sistematiche (riferimento bibliografico 25) e, dal 1790, la Costituzione federale stabilì di istituire un censimento ogni dieci
anni. Di fatto, le esigenze sempre maggiori poste dal censimento contribuirono a innescare
lo sviluppo delle macchine tabulatrici all’inizio del ventesimo secolo. Questa conquista condusse alcuni decenni più tardi allo sviluppo dei mainframe, e infine del personal computer.
Negli ultimi 30 anni, l’apporto della tecnologia informatica ha profondamente cambiato
il campo della statistica. Programmi su mainframe come SAS e SPSS (riferimenti bibliografici 16, 18 e 23) hanno cominciato a diffondersi nel corso degli anni ’60 e ’70. Durante
gli anni ’80, i programmi statistici hanno conosciuto una vera rivoluzione tecnologica.
Accanto agli abituali miglioramenti compiuti in occasione degli aggiornamenti periodici, la
disponibilità dei personal computer ha condotto alla elaborazione di nuovi programmi. Inoltre, in breve tempo sono state rese disponibili versioni per il personal computer dei programmi esistenti, come SAS, SPSS e Minitab (riferimenti bibliografici 16, 18 e 23), e l’uso
crescente di fogli elettronici, come Lotus 1-2-3 e Microsoft Excel (riferimenti bibliografici
14 e 15), ha portato a incorporare in questi programmi dei componenti di analisi statistica.
In questo libro analizzeremo spesso gli output ottenuti mediante l’uso di Microsoft Excel;
inoltre, le appendici che seguono ogni capitolo contengono dettagliate spiegazioni su come
usare Excel con riferimento agli argomenti trattati nel capitolo.
LO
SVILUPPO DELLA STATISTICA MODERNA
3
levine1_1-34
5-12-2001
12:02
Pagina 4
Sebbene i pacchetti statistici e i fogli elettronici abbiano reso fattibili anche le analisi più
sofisticate, dobbiamo essere consapevoli dei problemi che possono sorgere quando utilizzatori che non hanno conoscenze approfondite di statistica (e non conoscono, quindi, le ipotesi alla base delle procedure statistiche oppure i loro limiti) sono fuorviati dai risultati ottenuti. Pertanto, crediamo sia importante che le applicazioni dei metodi presentati in questo
libro vengano illustrate mediante esempi.
◆
1.3
IL
PENSIERO STATISTICO E IL MANAGEMENT MODERNO
Nel corso degli ultimi dieci anni, l’emergere di una economia globale ha condotto a un’attenzione crescente per la qualità dei beni prodotti e dei servizi forniti. In effetti, è stato proprio il lavoro di uno statistico, W. Edwards Deming, a contribuire in modo fondamentale
a questo cambiamento nell’ambito delle aziende. Una parte integrante dell’approccio manageriale che prevede un’attenzione crescente alla qualità (approccio cui ci si riferisce spesso
come “gestione della qualità totale” o TQM, Total Quality Management) consiste nell’applicazione di alcuni metodi statistici e nell’uso del pensiero statistico da parte dei manager nell’azienda.
Il pensiero statistico si può definire come un insieme di processi di pensiero che si
focalizzano sui modi di capire, gestire e ridurre la variabilità.
Il pensiero statistico include il riconoscimento che la variabilità è intrinseca ai dati (due
cose o due persone non saranno mai esattamente le stesse sotto ogni aspetto), e che l’identificazione, la misurazione, il controllo e la riduzione della variabilità forniscono delle
opportunità di miglioramento della qualità. I metodi statistici offrono uno strumento per
trarre vantaggi da queste opportunità.
Il ruolo dei metodi statistici nel miglioramento della qualità può essere meglio inteso se
ci si riferisce al modello di miglioramento della qualità illustrato nella Figura 1.1. Osserviamo dalla Figura 1.1 che il modello si compone di tre parti: in cima abbiamo la filosofia
di management, e ai due angoli inferiori del triangolo i metodi statistici e gli strumenti
comportamentali. Ciascuno di questi tre aspetti è indispensabile per un miglioramento di
lungo periodo della qualità dei beni prodotti o dei servizi erogati da una organizzazione.
Una solida filosofia di management fornisce uno stabile fondamento agli sforzi di miglioramento della qualità. Tra i vari approcci, vi sono quelli sviluppati da W. Edwards Deming
(riferimenti bibliografici 4 e 5 e paragrafo 12.2) e Joseph Juran (riferimenti bibliografici
10 e 11).
Per implementare l’approccio che mira al miglioramento della qualità in una organizzazione, bisogna usare sia strumenti comportamentali che metodi statistici. Ciascuno di questi aiuta nel comprendere e migliorare i processi. Utili strumenti comportamentali sono il
process flow (o analisi di processo) e i diagrammi a spina di pesce, il brainstorming, il
nominal group decision making e il team building. Tra i più utili metodi statistici per il
miglioramento della qualità vi sono le tabelle, i grafici e le statistiche descrittive introdotte
nei Capitoli 2 e 3 e i diagrammi di controllo sviluppati nel Capitolo 12.
◆
1.4
4
LA
STATISTICA DESCRITTIVA E LA STATISTICA INFERENZIALE
CAPITOLO 1
Il bisogno di dati sull’intera popolazione da parte dei governi nazionali si è intrecciato con
lo sviluppo della statistica descrittiva.
INTRODUZIONE
E RACCOLTA DEI DATI
levine1_1-34
5-12-2001
12:02
Pagina 5
FIGURA 1.1
Uno schema del processo
di miglioramento
della qualità.
Filosofia
di management
Metodi
statistici
Strumenti
comportamentali
La statistica descrittiva si può definire come un complesso di metodi che comprendono la raccolta, la presentazione e la caratterizzazione di un insieme di dati con lo
scopo di descriverne le varie caratteristiche in maniera appropriata.
Sebbene i metodi della statistica descrittiva siano importanti per presentare e caratterizzare
un insieme di dati (Capitoli 2 e 3), è stato lo sviluppo della statistica inferenziale, come
prodotto del calcolo delle probabilità, a condurre a un’ampia applicazione della statistica in
tutti gli attuali campi di ricerca.
La spinta iniziale all’elaborazione della componente matematica della teoria delle probabilità derivò dallo studio dei giochi d’azzardo nel corso del Rinascimento. I fondamenti
del concetto di probabilità si possono rintracciare, alla metà del diciassettesimo secolo, nella
corrispondenza tra il matematico Pascal e il giocatore d’azzardo de Mere (riferimenti bibliografici 12 e 13). Questi e altri sviluppi, a opera di matematici come Bernoulli, DeMoivre e
Gauss, posero le basi della statistica inferenziale. Fu solo agli inizi del ventesimo secolo
che statistici come Pearson, Fisher, Gosset, Neyman, Wald e Tukey aprirono la strada allo
sviluppo dei metodi di statistica inferenziale oggi così diffusamente applicati.
La statistica inferenziale può essere definita come il complesso dei metodi che consentono di stimare una caratteristica di una popolazione, oppure di prendere una decisione che concerne l’intera popolazione, sulla base dei soli risultati campionari.
Per chiarire questa definizione, alcune definizioni ulteriori si rendono necessarie.
Una popolazione (o universo) è l’insieme degli elementi o delle “cose” che si prendono in considerazione.
Un campione è la porzione della popolazione che si seleziona per l’analisi.
Un parametro è una misura di sintesi che descrive una caratteristica dell’intera popolazione.
Una statistica è una misura di sintesi che si calcola per descrivere una caratteristica
soltanto sulla base di un campione della popolazione.
LA
STATISTICA DESCRITTIVA E LA STATISTICA INFERENZIALE
5
levine1_1-34
5-12-2001
12:02
Pagina 6
Supponete che il preside della vostra facoltà voglia condurre un sondaggio per conoscere
le impressioni degli studenti sulla qualità della vita universitaria. La popolazione, o universo, in questo caso si compone di tutti gli studenti attualmente iscritti, mentre il campione
consiste dei soli studenti selezionati per partecipare al sondaggio. Lo scopo del sondaggio
è descrivere alcune caratteristiche dell’intera popolazione (i parametri). Questo viene fatto
utilizzando le statistiche che si ottengono sulla base del campione di studenti per stimare
le caratteristiche di interesse nella popolazione. Pertanto, uno degli aspetti principali della
statistica inferenziale consiste nell’utilizzo delle statistiche campionarie per trarre delle conclusioni circa i parametri della popolazione.
La necessità di ricorrere ai metodi della statistica inferenziale deriva dalla necessità del
campionamento. Quando una popolazione è molto ampia, ottenere informazioni dall’intera
popolazione diventa troppo costoso e complicato, e in certi casi può rivelarsi materialmente
impossibile. Le valutazioni sulle caratteristiche della popolazione si devono dunque basare
sulle informazioni contenute in un campione estratto dalla popolazione. La teoria della probabilità è l’anello di congiunzione, perché consente di determinare la probabilità che i risultati provenienti dal campione riflettano i risultati ottenibili dall’intera popolazione.
◆
1.5
PERCHÉ
ABBIAMO BISOGNO DEI DATI ?
◆ APPLICAZIONE:
Sondaggio sulla soddisfazione dei clienti
Good Tunes è un’azienda che si occupa della vendita per corrispondenza di impianti stereo
di alta qualità attraverso il suo sito Internet. L’azienda sa che per avere successo è necessario che i suoi clienti siano convinti di ricevere un servizio eccezionale e prodotti di altissima qualità. Per capire quali siano le impressioni dei clienti, è incluso in ogni buono d’ordine un questionario sul grado si soddisfazione del cliente. Ai clienti si chiede di restituire
il questionario nel più breve tempo possibile e la Good Tunes offre a coloro che lo restituiscono entro un mese dall’acquisto la possibilità di ottenere alcuni prodotti gratuitamente
o con uno sconto. Parte del questionario è riprodotta di seguito.
•
•
•
Indicate il numero di giorni intercorsi tra quando avete ordinato i prodotti e quando
li avete ricevuti. ____
Quanto prevedete di spendere in impianti stereo nei prossimi 12 mesi? (esprimete tale
ammontare in dollari). ____
Come giudicate nel suo complesso il servizio fornito dalla Good Tunes per quanto
attiene ai vostri acquisti recenti?
□
□
□
•
□
□
Peggio di quanto mi aspettassi
Molto peggio di quanto mi aspettassi
Come valutate la qualità degli impianti stereo della Good Tunes recentemente acquistati?
□
□
□
•
Molto meglio di quanto mi aspettassi
Meglio di quanto mi aspettassi
Come mi aspettavo
Molto meglio di quanto mi aspettassi
Meglio di quanto mi aspettassi
Come mi aspettavo
□
□
Peggio di quanto mi aspettassi
Molto peggio di quanto mi aspettassi
Prevedete di acquistare altri prodotti dalla Good Tunes nei prossimi 12 mesi?
Sì ____ No ____ ◆
Ottenere informazioni appropriate è essenziale nel gestire un’azienda, e più in generale in
qualunque attività, economica e non. Possiamo considerare i dati come le informazioni di
6
CAPITOLO 1
INTRODUZIONE
E RACCOLTA DEI DATI
levine1_1-34
5-12-2001
12:02
Pagina 7
cui abbiamo bisogno per prendere delle decisioni consapevoli in una situazione particolare.
Molti sono i casi in cui si rende necessario raccogliere dati; ecco alcuni esempi.
•
•
•
•
•
•
Un ricercatore di mercato deve valutare le caratteristiche di un prodotto per differenziarlo rispetto ai prodotti concorrenti.
Un’azienda farmaceutica deve stabilire se un farmaco è più efficace di un altro.
Un manager vuole monitorare un processo in modo sistematico per stabilire se la qualità del servizio fornito o del bene prodotto è conforme agli standard dell’azienda.
Un revisore dei conti vuole riesaminare le transazioni finanziarie di una società per
stabilire se sono conformi con i principi contabili generalmente accettati.
Un potenziale investitore vuole stabilire quali aziende, all’interno di quali settori industriali, avranno probabilmente una crescita accelerata in un periodo di ripresa economica.
Uno studente raccoglie dati sui gruppi rock preferiti dai suoi compagni per soddisfare
la propria curiosità.
Ci sono sei ragioni principali che spingono alla raccolta di dati, come illustrato nel
Riquadro 1.1.
Riquadro 1.1 Motivi che spingono
alla raccolta di dati
✓
✓
✓
✓
✓
✓
1. I dati sono necessari per fornire l’input necessario a un sondaggio.
2. I dati sono necessari per fornire l'input necessario a una ricerca.
3. I dati sono necessario per misurare la performance nella prestazione di un servizio o in un processo produttivo.
4. I dati sono necessari per valutare la conformità agli standard.
5. I dati sono necessari per valutare azioni alternative in un processo decisionale.
6. I dati sono necessari per soddisfare la nostra curiosità.
Il sondaggio sulla soddisfazione della clientela della Good Tunes illustra i motivi 1, 3,
4 e 5. Per esempio, la Good Tunes raccoglie i dati sulla base di un sondaggio. Poi analizza
i dati per misurare la propria performance, valutare la conformità agli standard e formulare
le azioni alternative che potrebbero essere richieste.
È fondamentale iniziare la nostra analisi statistica identificando le fonti più appropriate
per la raccolta dei dati. Se i dati sono viziati da distorsioni, ambiguità o altre fonti di errore,
è probabile che anche le metodologie statistiche più elaborate e sofisticate non possano compensare tali carenze.
◆
1.6
LE
FONTI DEI DATI
Quattro sono le principali fonti dei dati, come illustrato nel Riquadro 1.2.
Coloro che si occupano direttamente della raccolta dei dati sono definiti fonti primarie;
i compilatori dei dati raccolti da altri sono chiamati fonti secondarie. Come mostrato nel
Riquadro 1.2, un primo modo per ottenere dei dati è ricorrere a dati già pubblicati da altre
fonti, ossia dalle pubbliche amministrazioni, dalle associazioni di settore o da soggetti privati. Tra queste fonti, lo stato è il principale collettore e compilatore di dati, utili a scopi
sia pubblici che privati.
LE
FONTI DEI DATI
7
levine1_1-34
5-12-2001
12:02
Pagina 8
Riquadro 1.2 Le principali fonti
per la raccolta dei dati
✓
✓
✓
✓
1. Possiamo ottenere dei dati già pubblicati da altre fonti, pubbliche o private.
2. Possiamo ideare un esperimento per ottenere i dati necessari.
3. Possiamo condurre un sondaggio.
4. Possiamo compiere delle osservazioni attraverso uno studio sul campo
Molti enti pubblici facilitano questo lavoro. Negli Stati Uniti, ad esempio, il Bureau of
Labor Statistics è responsabile della raccolta dei dati sull’occupazione e del calcolo mensile dell’Indice dei Prezzi al Consumo. In aggiunta al compito, sancito dalla costituzione,
di indire un censimento ogni dieci anni, il Bureau of the Census sovrintende a vari sondaggi periodici riguardanti la popolazione, le abitazioni e l'industria, e intraprende inoltre
studi specialistici su argomenti quali il crimine, i viaggi e l'assistenza sanitaria.
Numerose pubblicazioni di settore presentano dati attinenti a specifici ambiti di attività.
Società di servizi finanziari, come Moody's, forniscono dati sulle singole aziende. Società di
ricerche di mercato, come A.C. Nielsen, forniscono ai propri clienti informazioni che rendono possibile il confronto tra prodotti concorrenti. Anche i quotidiani sono pieni di informazioni quantitative: i prezzi delle azioni, le condizioni del tempo, le statistiche sportive...
La terza fonte di raccolta dei dati è il sondaggio. Nel caso di un sondaggio, non viene
esercitato alcun controllo sull’effettivo comportamento dei soggetti intervistati; vengono
semplicemente poste loro delle domande relative alle loro opinioni, preferenze, attitudini,
ai loro comportamenti o ad altre caratteristiche. Le risposte vengono quindi codificate e
tabulate per l’analisi.
La quarta fonte di raccolta dei dati è lo studio sul campo. In questo caso, un ricercatore
osserva direttamente il comportamento studiato, in genere in un contesto naturale. La maggior parte delle conoscenze sul comportamento animale si ottiene in questa maniera; lo
stesso vale per la nostra conoscenza in molti campi, come l'astronomia e la geologia, nei
quali esperimenti e sondaggi sono poco pratici, se non impossibili.
Lo studio sul campo ha forme diverse nell'azienda, tutte miranti alla raccolta di informazioni nell’ambito di una struttura di gruppo per sostenere il processo decisionale. Ad
esempio, il focus group è un diffuso strumento di ricerca di mercato, che viene impiegato
per stimolare risposte non strutturate a domande aperte. Un moderatore conduce la conversazione e ogni partecipante risponde alle domande poste. Altre forme più strutturate che
utilizzano dinamiche di gruppo per ottenere delle informazioni (e per la costruzione del consenso nell’organizzazione) includono vari strumenti tipici della psicologia industriale e del
comportamento organizzativo, come il brainstorming, la tecnica Delphi e il metodo nominal group (riferimento bibliografico 22). L’uso di questi strumenti è diventato più frequente
negli anni recenti come conseguenza della diffusione della gestione della qualità totale
(TQM), perché questa filosofia di management enfatizza l'importanza del lavoro di gruppo e
del conferimento di responsabilità ai dipendenti con lo scopo di migliorare prodotti e servizi.
COMMENTO: Le fonti dei dati e l'età della tecnologia
Grazie alla diffusione delle tecnologie dell'informazione, abbiamo a disposizione una
quantità senza precedenti di dati e informazioni, con una tempestività e un’accuratezza
fino a pochi anni fa inimmaginabili. I codici a barre permettono di aggiornare automaticamente le informazioni sulle scorte di magazzino via via che i prodotti sono comprati
nei supermercati, nei grandi magazzini e in altri punti vendita. I bancomat consentono di
8
CAPITOLO 1
INTRODUZIONE
E RACCOLTA DEI DATI
levine1_1-34
5-12-2001
12:02
Pagina 9
effettuare transazioni bancarie registrando immediatamente le relative informazioni nel
saldo dei rispettivi conti bancari. Le biglietterie aeree e le agenzie di viaggio conoscono
minuto per minuto la disponibilità nei voli e negli alberghi. Transazioni che dieci anni fa
richiedevano ore o perfino giorni ora sono compiute in pochi secondi.
L'espressione “fare ricerche in biblioteca” è venuta assumendo un nuovo significato. Non
c'è più bisogno di limitarsi all'uso di mezzi di informazione su carta, come libri, periodici, riviste, opuscoli e giornali. Con l'uso di sistemi di informazione computerizzati, possiamo reperire i dati elettronicamente consultando banche dati su CD-ROM, navigando
in Internet o scambiando e-mail con altri utilizzatori di Internet. Con la frase “andare in
biblioteca” ora ci riferiamo anche alle visite a biblioteche elettroniche, da casa nostra, dall’università o dall'ufficio, attraverso l'uso di un personal computer attrezzato in maniera
adeguata.
Per disegnare un esperimento, condurre un sondaggio o porre in atto uno studio sul campo,
è necessario saper distinguere i vari tipi di dati e i diversi possibili livelli di misurazione
dei valori. Per trattare dei problemi che possono sorgere nella ricerca dei dati, faremo riferimento al contesto di un sondaggio, sebbene la maggior parte di questi problemi si incontrino anche in altri tipi di ricerca.
◆
1.7
TIPI
DI DATI
Gli statistici conducono sondaggi per analizzare una varietà di fenomeni o caratteristiche.
Tali fenomeni o caratteristiche si chiamano variabili casuali. I dati, che sono i risultati
osservati di queste variabili casuali, differiranno senza dubbio da risposta a risposta.
Come illustrato dalla Figura 1.2, ci sono due tipi di variabili casuali che danno luogo ai
risultati osservati o dati: le variabili qualitative e le variabili quantitative.
Le variabili casuali qualitative, come suggerito dal loro nome, danno luogo a risposte
qualitative, non numeriche, come sì o no, maschio o femmina, cattolico, protestante o islamico. Un esempio è dato dalla risposta alla domanda: “Possedete attualmente titoli di
stato?”, perché si può solo rispondere di sì o di no. Un altro esempio è la risposta alla
domanda del questionario della Good Tunes: “Prevedete di acquistare altri prodotti dalla
Good Tunes nei prossimi 12 mesi?”.
Le variabili casuali quantitative danno luogo a risposte quantitative, ossia all’indicazione di grandezze numeriche, come l'altezza in centimetri in risposta alla domanda “Quanto
siete alti?”. Altri esempi sono “Quanto prevedete di spendere in impianti stereo nei prossimi 12 mesi?”, dal questionario della Good Tunes, oppure: “A quante riviste siete abbonati attualmente?”.
Tipo di dati
Tipo di domande
Possedete attualmente
titoli di stato?
Qualitativi
Risposte
Sì
No
Discreti
A quante riviste siete
abbonati attualmente?
numero
Continui
Quanto siete alti?
centimetri
Quantitativi
FIGURA 1.2 Tipi di dati
TIPI
DI DATI
9
levine1_1-34
5-12-2001
12:02
Pagina 10
Ci sono due tipi di variabili quantitative: le variabili discrete e le variabili continue.
Le variabili casuali discrete producono risposte numeriche che derivano da un processo di conteggio. “Il numero delle riviste cui si è abbonati” è un esempio di variabile
quantitativa discreta, perché la risposta è un numero intero. Ci si può abbonare solo a una,
due, o comunque a un numero intero di riviste.
Le variabili casuali continue generano risposte che derivano da un processo di misurazione. La vostra altezza è un esempio di variabile quantitativa continua, perché la risposta può assumere un qualunque valore nel continuo, a seconda della precisione dello strumento di misurazione. Per esempio, la vostra altezza può essere 171 cm, o 170.8 cm o
170.79 cm o 170.792 cm, a seconda della precisione degli strumenti a disposizione.
Teoricamente due persone non potrebbero avere esattamente la stessa altezza, perché
quanto più è preciso l'apparato di misurazione, tanto più grande è la probabilità di cogliere
le differenze tra di loro. Comunque, la maggior parte degli apparecchi di misurazione non
è così sofisticata da percepire le più piccole differenze. Pertanto, osservazioni ripetute sono
spesso rilevate in dati provenienti da esperimenti o sondaggi, anche se la variabile osservata in realtà è continua.
Esercizi del paragrafo 1.7
1.1
1.2
1.3
1.4
1.5
1.6
10
CAPITOLO 1
Supponete che in un fast-food siano venduti tre diversi tipi di bevande: bibite, tè e caffè.
Spiegate perché il tipo di bevanda venduta è un esempio di variabile qualitativa.
Supponete che le bibite siano vendute in tre dimensioni diverse: piccola, media e grande.
Spiegate perché la dimensione della bibita è anch’essa, in questo caso, una variabile qualitativa.
Supponete di voler misurare il tempo di volo di un aeroplano da New York a Los Angeles
dal decollo all'atterraggio. Spiegate perché il tempo di volo di un aeroplano è una variabile
quantitativa.
Per ognuna delle seguenti variabili, dite se sono qualitative o quantitative. Se la variabile
è quantitativa dite se il fenomeno di interesse è discreto o continuo.
(g) Possesso di un telefono cellulare.
(a) Numero di telefoni per famiglia.
(h) Numero di telefonate locali fatte
(b) Tipo di telefono usato principalmente.
ogni mese.
(c) Numero di telefonate interurbane
(i) Durata (in minuti) della telefonata
fatte al mese.
locale più lunga fatta ogni mese.
(d) Durata (in minuti) dell’interurbana
(j) Esistenza di una linea telefonica
più lunga fatta ogni mese.
collegata a un modem.
(e) Colore del telefono usato
(k) Esistenza di una linea telefonica
principalmente.
collegata a un fax.
(f) Costo mensile (in lire) delle telefonate
interurbane fatte.
Supponete che le seguenti informazioni siano ottenute da studenti intervistati all'uscita della
libreria dell’università nel corso della prima settimana di lezione:
(f) Possesso di un personal computer.
(a) Ammontare speso per libri.
(g) Possesso di un videoregistratore.
(b) Numero di libri di testo acquistati.
(h) Numero di corsi seguiti nel semestre
(c) Tempo dedicato agli acquisti.
attuale.
(d) Corso di laurea seguito.
(i) Mezzo di pagamento.
(e) Sesso.
Stabilite per ciascuna di queste variabili se è qualitativa o quantitativa. Se la variabile è
quantitativa, dite se è discreta o continua.
Per ciascuna delle seguenti variabili, dite se è qualitativa o quantitativa. Se la variabile è
quantitativa dite se il fenomeno di interesse è discreto o continuo.
INTRODUZIONE
E RACCOLTA DEI DATI
levine1_1-34
5-12-2001
12:02
Pagina 11
1.7
1.8
1.9
(e) Numero di componenti della famiglia
(a) Marca del proprio personal computer.
che usano il personal computer.
(b) Costo del personal computer.
(f) Numero di riviste cui si è abbonati.
(c) Tempo dedicato all’uso del personal
(g) Programma di videoscrittura
computer ogni settimana.
che si utilizza principalmente.
(d) Utilizzo principale del personal
(h) Esistenza di un collegamento a Internet.
computer.
Per ciascuna delle seguenti variabili, dite se è qualitativa o quantitativa. Se la variabile è
quantitativa, dite se il fenomeno di interesse è discreto o continuo.
più alta hanno luogo gli acquisti
(a) Ammontare di denaro speso
di vestiti (giorni della settimana,
per l’abbigliamento lo scorso mese.
sere della settimane o fine settimana).
(b) Numero di giacche invernali possedute.
(f) Numero di guanti posseduti.
(c) Grande magazzino preferito.
(g) Tipo di mezzo di trasporto usato
(d) Tempo dedicato a fare spese
principalmente quando si fanno
per abbigliamento lo scorso mese.
acquisti di vestiti.
(e) Periodo di tempo in cui con probabilità
Supponete che le seguenti informazioni su Robert Keeler siano state ottenute dalla sua banca
a seguito della richiesta di un mutuo per la casa:
(i) Altri redditi: 16 000 dollari
(a) Domicilio: Stony Brook, New York
(b) Tipo di abitazione: casa monofamiliare (j) Stato civile: coniugato
(k) Numero di figli: 2
(c) Data di nascita: 9 aprile 1962
(l) Ipoteca richiesta: 120 000 dollari
(d) Occupazione: giornalista, scrittore
(m) Durata dell’ipoteca: 30 anni
(e) Datore di lavoro: un quotidiano
(n) Motivo della richiesta di altri prestiti:
(f) Anni di lavoro: 14
acquisto di un’automobile
(g) Numero di impieghi negli ultimi 10
(o) Ammontare degli altri prestiti:
anni: 1
8000 dollari
(h) Reddito annuo da lavoro dipendente:
66 000 dollari
Per ciascuna delle risposte, stabilite di che tipo di dato si tratta.
Una delle variabili che spesso è inclusa nei sondaggi è il reddito. Talvolta la domanda viene
posta nella forma: “Qual è il vostro reddito (in migliaia di euro)?”. Altre volte si dice agli
intervistati qualcosa di simile: “Ponete una X nel cerchio corrispondente al livello del vostro
reddito.
Sotto i 40 000 euro
40 000-80 000
80 000 e oltre
(a) Spiegate perché nel primo tipo di domanda il reddito può essere considerato sia una
variabile continua che una discreta.
(b) A quale dei due tipi di domanda ricorrereste se foste voi a organizzare il sondaggio?
Perché?
(c) Quale dei due tipi di domanda vi porterebbe probabilmente un numero maggiore di
risposte (un tasso più alto di risposta)? Perché?
1.10 Se due studenti ottengono 27 a uno stesso esame, quali argomentazioni si potrebbero usare
per mostrare che la variabile sottostante (voto ottenuto) è continua?
1.11 Supponete che il direttore delle ricerche di mercato di una catena di grandi magazzini voglia
condurre un sondaggio nell’area metropolitana per stabilire quanto tempo le donne che lavorano dedicano all’acquisto di vestiti in un mese rappresentativo.
(a) Descrivete sia la popolazione che il campione di interesse, e indicate il tipo di dati che
il direttore potrebbe voler raccogliere.
(b) Fate una bozza del questionario formulando tre domande qualitative e tre domande
quantitative che voi ritenete appropriate per questo sondaggio.
◆
1.8
TIPI
DI METODI DI CAMPIONAMENTO
Come abbiamo visto nel paragrafo 1.4, il campione è la parte di una popolazione che si
seleziona per l’analisi. Piuttosto che ricorrere ad un censimento completo dell’intera popolazione, le procedure di campionamento statistico si concentrano su un piccolo gruppo, rap-
TIPI
DI METODI DI CAMPIONAMENTO
11
levine1_1-34
5-12-2001
12:02
Pagina 12
presentativo della popolazione. Il campione che ne risulta fornisce le informazioni che possono essere utilizzate per stimare le caratteristiche della popolazione nel suo insieme.
Il campionamento ha inizio con l’individuazione delle fonti appropriate dei dati, ad esempio registri dell’anagrafe, elenchi telefonici, carte topografiche o altre fonti, che vengono
genericamente chiamate liste. I campioni sono estratti dalle liste. Se la lista è inadeguata,
alcuni gruppi di individui o oggetti della popolazione non sono inclusi in maniera appropriata e i campioni risultano non accurati o distorti. L’uso di liste diverse per la generazione dei dati può dare luogo a conclusioni opposte, come illustrato nell’esempio 1.1.
Esempio 1.1 Un caso di conclusioni opposte
Consideriamo il seguente titolo apparso su un giornale di New York alcuni anni fa: “Suffolk
è più popolata di Nassau? LILCO e il Census Bureau non sono d’accordo” (Newsday, 25
aprile 1988). L’articolo si riferiva alla controversia tra le due contee di Suffolk e Nassau,
l’amministrazione di ciascuna delle quali sosteneva di avere un numero di abitanti superiore all’altra, basandosi sui risultati di differenti indagini campionarie.
S OLUZIONE
Le differenze tra le due stime derivano dal fatto che il Census Bureau e la compagnia elettrica di Long Island (LILCO) avevano usato liste e tecniche differenti per la stima della
popolazione nelle due contee di Suffolk e di Nassau. Il Census Bureau aveva usato i tassi
di nascita e morte, i flussi migratori (derivati dalle dichiarazioni dei redditi) e una formula
usata in demografia che tiene conto del fatto che il numero medio di componenti delle famiglie si è andato riducendo negli ultimi anni. L’azienda elettrica, invece, aveva usato le letture annuali dei contatori elettrici e del gas, le licenze di costruzione e un apposito fattore
per stimare il numero di persone per ogni abitazione.
Ci sono tre motivi principali per utilizzare un campione, come mostra il Riquadro 1.3
Riquadro 1.3 I motivi per utilizzare un campione
✓
✓
✓
1. L’estrazione di un campione richiede meno tempo di un censimento.
2. Un campione è meno costoso di un censimento.
3. Un campione è più pratico da gestire di un censimento della popolazione considerata.
Come mostrato dalla Figura 1.3, ci sono fondamentalmente due tipi di campioni: i campioni non probabilistici e i campioni probabilistici.
Un campione non probabilistico è un campione in cui gli oggetti o gli individui sono
inclusi senza tenere conto della loro probabilità di manifestarsi.
Siccome nei campioni non probabilistici i partecipanti sono scelti senza conoscere la loro
probabilità di selezione (e in alcuni casi si sono autoselezionati), la teoria sviluppata per il
campionamento probabilistico non può essere applicata. Molte aziende conducono sondaggi
dando ai visitatori del loro sito Web la possibilità di compilare dei formulari e di inviarli
elettronicamente. Le risposte a questi sondaggi possono fornire molti dati in modo tempestivo, ma il campione si compone di utilizzatori di Internet che si autoselezionano. Per molti
studi sono disponibili solo campioni non probabilistici, come quelli a scelta ragionata. In
12
CAPITOLO 1
INTRODUZIONE
E RACCOLTA DEI DATI
levine1_1-34
5-12-2001
12:02
Pagina 13
questi casi, l’opinione di un esperto dell’argomento diventa cruciale se si vogliono usare i
risultati ottenuti per introdurre dei cambiamenti in un processo. Altri tipi di campionamento
non probabilistico sono il campionamento per quote e il campionamento chunk: queste
modalità di campionamento sono discusse in dettaglio in testi specialistici che trattano i
metodi di campionamento (riferimenti bibliografici 1, 3 e 9).
I campioni non probabilistici possono avere alcuni vantaggi, come la comodità, la velocità di estrazione, e anche costi più bassi. Dall’altro lato, i due svantaggi fondamentali
(mancanza di accuratezza per la selezione distorta e impossibilità di generalizzarne i risultati) in genere più che compensano i vantaggi. Pertanto, dovremmo restringere il nostro uso
di campioni non probabilistici alle situazioni in cui vogliamo ottenere delle approssimazioni
grezze a basso costo per soddisfare la nostra curiosità circa il particolare argomento in
esame oppure a piccoli studi iniziali o pilota, che saranno successivamente seguiti da indagini più rigorose.
Il campionamento probabilistico dovrebbe essere usato ogni qual volta sia possibile, perché è il solo metodo che consente di ottenere inferenze corrette sulla base di un campione.
Un campione probabilistico è un campione in cui i soggetti sono scelti sulla base
delle probabilità note.
I quattro tipi di campionamento probabilistico maggiormente usati sono il campionamento
casuale semplice, il campionamento sistematico, il campionamento stratificato e il campionamento a grappolo. Questi tipi di campionamento differiscono per il costo, l’accuratezza
e la complessità. Segue una discussione di ciascuno di essi.
Campionamento casuale semplice
Nel campionamento casuale semplice si estrae un campione in cui ogni individuo o
oggetto della popolazione ha la stessa probabilità di essere selezionato. Inoltre, campioni
della medesima dimensione hanno tutti la stessa probabilità di essere selezionati. Il campionamento casuale semplice è la più semplice tecnica di selezione del campione.
Nel campionamento casuale semplice useremo n per indicare la dimensione del campione e N per indicare la dimensione della popolazione. Ogni oggetto o persona della lista
è numerato da 1 a N. La probabilità che un elemento della popolazione ha di essere selezionato alla prima estrazione è 1/N.
Ci sono due metodi fondamentali per la selezione del campione: con reimmissione e
senza reimmissione.
Tipi di campionamento usati
Campioni non probabilistici
Campione
a scelta
ragionata
Campione
per quote
Campione
chunk
Campioni probabilistici
Campione Campione Campione Campione
casuale sistematico stratificato a grappolo
semplice
FIGURA 1.3 Tipi di campionamento
TIPI
DI METODI DI CAMPIONAMENTO
13
levine1_1-34
5-12-2001
12:02
Pagina 14
Nel campionamento con reimmissione una persona o un oggetto, una volta selezionati,
vengono rimessi nella lista, da cui hanno la stessa probabilità di essere selezionati di nuovo.
Consideriamo per esempio un’urna con 100 biglietti da visita. Supponiamo che alla prima
selezione venga scelto il nome Giulia Bianchi. Le informazioni pertinenti sono registrate e
il biglietto da visita è rimesso nell’urna. I biglietti nell’urna vengono mescolati e viene
estratto un secondo biglietto. Alla seconda estrazione Giulia Bianchi ha la stessa probabilità di essere estratta, 1/N. Il processo viene ripetuto fino a quando si ottiene il campione
desiderato di ampiezza n. Comunque, in genere si preferisce avere un campione di persone
o oggetti diversi piuttosto che compiere misure ripetute su una stessa persona o uno stesso
oggetto.
Nel campionamento senza reimmissione una persona o un oggetto, una volta selezionati, non sono rimessi nella lista e pertanto non possono essere scelti di nuovo. Come prima,
nel campionamento senza reimmissione la probabilità che un qualunque elemento della
popolazione, ad esempio Giulia Bianchi, venga selezionato alla prima estrazione è 1/N. La
probabilità che un qualunque altro individuo, non selezionato precedentemente, sia selezionato alla seconda estrazione è ora 1/N – 1. Il processo continua sino a quando non si
ottiene il campione desiderato di ampiezza n.
Indipendentemente dal fatto che campioniamo con o senza reimmissione, questi metodi
di estrazione del campione, che seguono lo schema di estrazione da un’urna, hanno un
inconveniente fondamentale: dipendono dalla nostra capacità di “mescolare da cima a fondo
i biglietti da visita” e di estrarre casualmente un campione. Come conseguenza, questi
metodi non sono molto utili. Sono in genere preferibili dei metodi meno complessi e più
scientifici.
Uno di questi metodi impiega la tavola dei numeri casuali (vedi Tavola E.1 dell’Appendice E) per ottenere un campione. Una tavola di numeri casuali si compone di una serie
di cifre generate casualmente e elencate nell’ordine secondo cui sono state generate (riferimenti bibliografici 9 e 21). Poiché il nostro sistema numerico si compone di 10 cifre (0,
1,…, 9), queste hanno tutte la stessa probabilità, pari a 1/10, di essere generate casualmente.
Pertanto, se generiamo una successione di 800 cifre, ci aspettiamo che 80 siano uguali a 0,
80 uguali a 1 e così via. In effetti i ricercatori che impiegano la tavola dei numeri casuali
sottopongono a verifica l’ipotesi di casualità dei numeri generati, prima di usarli. La Tavola
E.1 soddisfa le condizioni di casualità. Poiché tutte le cifre o successioni di cifre nella tavola
sono casuali, possiamo usare la tavola leggendola sia in senso orizzontale che verticale. Sui
margini della tavola sono riportati i numeri di riga e di colonna. Le cifre stesse sono riunite in gruppi di 5 per facilitare la lettura della tavola.
Per usare questa tavola nella selezione del campione, è necessario in primo luogo assegnare un codice numerico a ogni elemento della popolazione. Possiamo ottenere un campione leggendo la tavola dei numeri casuali e selezionando quegli elementi della popolazione il cui codice coincide con le cifre trovate nella tavola. Per capire meglio il
procedimento di selezione del campione ora illustrato, consideriamo l’esempio 1.2
Esempio 1.2 Selezionare un campione casuale
con l’uso della tavola dei numeri casuali
Supponete che una società voglia selezionare un campione di 32 unità da una popolazione
di 800 impiegati a tempo pieno per ottenere delle informazioni in relazione a un progetto
promosso dall’azienda. Ci aspettiamo che non tutti vorranno rispondere al questionario,
quindi pensiamo di contattare più di 32 persone per riuscire a ottenere le 32 risposte desiderate. Se supponiamo che 8 impiegati a tempo pieno su 10 risponderanno al questionario
(il che equivale a supporre un tasso di risposta pari all’80%), stabiliamo di contattare un
totale di 40 impiegati per ottenere le 32 risposte. Pertanto, il nostro questionario deve essere
14
CAPITOLO 1
INTRODUZIONE
E RACCOLTA DEI DATI
levine1_1-34
5-12-2001
12:02
Pagina 15
distribuito a 40 impiegati a tempo pieno scelti dagli schedari del personale dell’azienda.
Come scegliamo gli impiegati a cui somministrare il questionario?
S OLUZIONE
Per selezionare il campione casuale, usiamo la tavola dei numeri casuali. La lista della popolazione è costituita dall’elenco dei nomi e dei numeri delle caselle della posta aziendali
degli N = 800 impiegati a tempo pieno ottenuti dagli schedari del personale dell’azienda.
Dal momento che la dimensione della popolazione (800) è un numero di tre cifre, ciascun
codice da assegnare deve essere composto da tre cifre, di modo che tutti gli impiegati
abbiano la stessa probabilità di essere selezionati. Pertanto, al primo impiegato è assegnato
il codice 001, al secondo il codice 002, e così via fino al codice 800 che è assegnato all’Nesimo impiegato a tempo pieno. Poiché 800 è il più grande codice possibile, tutte le successioni di codici più grandi di N (da 801 a 999, oltre a 000) sono scartate.
Per selezionare il campione casuale semplice, viene scelto a caso un punto di partenza
nella tavola dei numeri casuali. Un metodo può essere quello di chiudere gli occhi e colpire la tavola con una matita. Usiamo quindi questo metodo e scegliamo come punto di partenza la riga 06 e la colonna 05 della Tabella 1.1 (che è una copia della Tavola E.1). Sebbene possiamo andare in ogni direzione nella tavola, decidiamo di leggere da sinistra verso
destra le sequenze di tre cifre senza saltarne nessuna.
La persona con codice 003 è il primo impiegato a tempo pieno del campione (riga 06 e
colonne 05-07), la seconda persona ha codice 364 (riga 06 e colonne 08-10) e la terza persona ha codice 884. Dal momento che il codice più grande è 800, questo numero viene
scartato. Le persone con i codici 720, 433, 463, 363, 109, 592, 470 e 705 sono scelte come
elementi rispettivamente dal terzo al decimo del campione.
Il processo di selezione continua in maniera analoga fino a quando si ottiene il campione
di 40 impiegati a tempo pieno. Durante il processo di selezione, se un codice di tre cifre si
ripete, l’impiegato corrispondente è incluso di nuovo nel campione se campioniamo con
reimmissione, è scartato se campioniamo senza reimmissione.
◆ Campionamento sistematico Nel campionamento sistematico gli N individui o
oggetti della lista della popolazione sono ripartiti in k gruppi dividendo la dimensione N
della popolazione per la dimensione desiderata del campione, vale a dire:
k
N
n
dove k è arrotondato all’intero più vicino. Per ottenere un campione sistematico, il primo
individuo o oggetto è scelto casualmente tra i k individui o oggetti nel primo dei gruppi in
cui si è suddivisa la lista della popolazione e il resto del campione si ottiene scegliendo da
quel punto in poi ogni k-esimo elemento successivo dell’intera lista della popolazione.
Se la lista della popolazione è una lista di assegni numerati, di ricevute di acquisti o di
fatture, o se è una lista dei membri di un club, un elenco di matricole di studenti o un
numero prestabilito di oggetti provenienti da una catena di montaggio, il campione sistematico si ottiene più facilmente e velocemente di un campione casuale semplice. In questi casi
il campionamento sistematico è un meccanismo conveniente per ottenere i dati desiderati.
Sebbene più facili da usare, il campionamento casuale e il campionamento sistematico
sono in genere meno efficienti di altri schemi di campionamento più sofisticati. Vale a dire,
per ogni campione ottenuto sia da un campionamento semplice sia da un campionamento
sistematico, i dati raccolti potrebbero dare una rappresentazione non buona delle caratteristiche sottostanti della popolazione (i parametri). Sebbene la maggior parte dei campioni
casuali semplici siano rappresentativi della popolazione sottostante, non è possibile stabilire se il particolare campione estratto lo sia effettivamente.
TIPI
DI METODI DI CAMPIONAMENTO
15
levine1_1-34
5-12-2001
12:02
Pagina 16
Tabella 1.1 Uso della tavola dei numeri casuali
81163
98083
78496
56095
71865
63919
55980
34101
22380
23298
55790
08401
11865
83832
63491
06546
78305
46427
68479
80336
42050
57600
96644
17381
51690
:
07275
97349
97653
20664
79488
36394
64688
81277
16703
56203
69229
26299
63397
32768
04233
83246
55058
56788
27686
94598
82341
40881
89439
68856
54607
:
89863
20775
91550
12872
76783
11095
68239
66090
53362
92671
28661
49420
44251
18928
33825
47651
52551
96297
46162
26940
44104
12250
28707
25853
72407
:
02348
45091
08078
64647
31708
92470
20461
88872
44940
15925
13675
59208
43189
57070
69662
04877
47182
78822
83554
36858
82949
73742
25815
35041
55538
:
…
00283
08612
86129
84598
85507
04334
10072
95945
50785
96593
19436
54324
32596
75912
92827
81718
82455
68514
14523
20048
33340
26575
74697
57143
16090
:
…
35779
07468
25078
30454
51438
88472
10087
00796
67140
14130
84731
40355
93247
78643
70654
31888
15130
14225
91499
37089
53140
32979
12860
30592
63308
:
COLONNA
33333
33334
12345
67890
…
22223
67890
…
88924
41657
65923
93912
58555
03364
29776
93809
72142
22834
66158
71938
24586
23997
53251
73751
26926
20505
74598
89923
34135
47954
02340
50775
48357
:
22222
12345
…
49280
61870
43898
62993
33850
97340
70543
89382
37818
60430
82975
39087
55700
14756
32166
23236
45794
09893
54382
94750
70297
85157
11100
36871
23913
:
11112
67890
…
11111
12345
…
…
Inizio
della selezione
(riga 06 colonna 05)
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
00001
67890
…
RIGA
00000
12345
Fonte: Parzialmente estratta da The Rand Corporation, A Million Random Digits with 100 000 Normal Deviates (Glencoe, IL: The Free Press.
1955), riprodotta nella Tavola E.1 nell’Appendice E in fondo al libro.
La possibilità di incorrere in una selezione distorta o nella mancanza di rappresentatività
è anche maggiore nel caso di campioni sistematici. In presenza di una struttura nella lista
della popolazione, si va incontro a distorsioni nella selezione. Per superare il problema di
una rappresentazione non proporzionata nel campione di specifici gruppi, possiamo ricorrere sia al campionamento stratificato sia al campionamento a grappolo.
◆ Campionamento stratificato In un campionamento stratificato, gli N individui o
oggetti della popolazione sono suddivisi in distinte sottopopolazioni, o strati, sulla base di
una caratteristica comune. Si conduce un campionamento casuale semplice in ogni strato e
i risultati dei singoli campionamenti sono poi messi assieme. Questo metodo di campionamento è più efficiente sia del campionamento casuale semplice che del campionamento
sistematico, perché assicura che gli individui o oggetti della popolazione siano rappresentati adeguatamente nel campione, e questo garantisce una maggiore precisione delle stime
dei parametri sottostanti alla popolazione. È l’omogeneità degli individui o oggetti all’interno di ogni strato che, quando combinata attraverso gli strati, fornisce la precisione.
16
CAPITOLO 1
INTRODUZIONE
E RACCOLTA DEI DATI
levine1_1-34
5-12-2001
12:02
Pagina 17
◆ Campionamento a grappolo Nel campionamento a grappolo, gli N individui o
oggetti nella popolazione sono suddivisi in molti gruppi, detti grappoli (sottopopolazioni),
in maniera tale che ogni grappolo sia rappresentativo dell’intera popolazione. Si estrae poi
un campione casuale di grappoli e tutti gli individui o oggetti di ciascuno dei grappoli selezionati sono inclusi nel campione. I grappoli possono essere definiti sulla base di raggruppamenti naturali, come quelli determinati dalle regioni, dalle città, dalle circoscrizioni elettorali, dai quartieri urbani, dagli edifici o dalle famiglie.
Il campionamento a grappolo può essere meno costoso del campionamento casuale semplice, soprattutto quando la popolazione sottostante è disseminata su una vasta area geografica. Comunque, il campionamento a grappolo tende a essere meno efficiente sia del
campionamento casuale semplice che del campionamento stratificato, e si rende necessaria
una dimensione complessiva del campione più grande per ottenere risultati precisi come
quelli che si ottengono da procedure più efficienti.
Una discussione dettagliata dei metodi del campionamento sistematico, del campionamento stratificato e del campionamento a grappolo si può ritrovare nei riferimenti bibliografici 3 e 9.
Esercizi del paragrafo 1.8
1.12 Per una popolazione di N = 902 individui, quale codice numerico assegnereste a
1.13
1.14
1.15
1.16
1.17
1.18
(a) la prima persona della lista;
(b) la 40-esima persona della lista;
(c) l’ultima persona della lista?
Per una popolazione di N = 902, verificate che partendo dalla linea 05 della tavola dei
numeri casuali (Tavola E.1) sono necessarie solo sei righe per estrarre un campione di
ampiezza n = 60 senza reimmissione.
Data una popolazione di N = 93, partendo dalla linea 29 della tavola dei numeri casuali
(Tavola E.1) e leggendo per riga, estraete un campione di ampiezza n = 15
(a) senza reimmissione;
(b) con reimmissione.
Spiegate perché in uno studio basato sulle interviste personali dei partecipanti (piuttosto che
in un sondaggio per corrispondenza o per telefono) un campionamento casuale semplice
potrebbe essere meno efficiente di altri metodi.
Immaginate di estrarre un campione di ampiezza 1 da una popolazione di tre oggetti (che
possiamo indicare con A, B e C). La regola di campionamento è: si lancia una moneta; se
esce testa si estrae A, se esce croce si lancia la moneta di nuovo; se esce testa si sceglie
B, se esce croce si sceglie C. Spiegate perché il campione estratto in questa maniera è
casuale ma non semplice.
Supponete che una popolazione si componga di quattro elementi (A, B, C e D). Vogliamo
estrarre un campione casuale di dimensione 2 nel modo seguente: lanciamo una moneta; se
esce testa il campione è A B, se esce croce il campione è C D. Il campione così selezionato, sebbene casuale, non è un campione casuale semplice. Dite perché. (Se avete fatto
l’esercizio 1.16 confrontate la procedura di campionamento lì descritta con quella descritta
in questo esercizio.)
Supponete che la segreteria di un’università con N = 4000 studenti sia incaricata dal rettore di fare un sondaggio per valutare il grado di soddisfazione per la qualità di vita nel
campus. Considerate la seguente tabella, in cui gli studenti sono ripartiti in base al sesso e
al corso di laurea seguito:
SESSO
Femmine
Maschi
Totale
GIURISPRUDENZA
700
1,560
1,260
NOME DEL CORSO
ECONOMIA MEDICINA LETTERE
520
460
980
TIPI
500
400
900
TOTALE
480
380
860
DI METODI DI CAMPIONAMENTO
2,200
1,800
4,000
17
levine1_1-34
5-12-2001
12:02
Pagina 18
La segreteria vuole estrarre un campione casuale di ampiezza n = 200 studenti e generalizzare i risultati ottenuti all’intera popolazione degli studenti.
(a) Se la lista della popolazione che si ottiene in base ai registri della segreteria è un elenco
in ordine alfabetico degli N = 4000 studenti iscritti, che tipo di campione si può
estrarre? Commentate.
(b) Quale potrebbe essere il vantaggio di selezionare un campione casuale semplice in (a)?
(c) Quale potrebbe essere il vantaggio di selezionare un campione sistematico in (a)?
(d) Se la lista della popolazione è un elenco dei nomi degli N = 4000 studenti iscritti divisi
in 8 liste separate a seconda del sesso e del corso seguito, come dalla tabella precedente, quale tipo di campione scegliereste? Commentate.
(e) Supponete che gli N = 4000 studenti vivano in 20 pensionati universitari. Ciascun pensionato ha 4 piani con 50 letti per piano, pertanto ospita 200 studenti. In ciascun pensionato, si attua una politica di integrazione degli studenti per sesso e per corso seguito,
in ciascun piano. Se la segreteria potesse compilare una lista della popolazione elencando gli studenti per ciascun pensionato in base al piano in cui dormono, che tipo di
campione dovrebbe essere scelto? Commentate.
1.19 Un libro contabile contiene le fatture relative alle vendite effettuate da un’azienda. Le fatture sono numerate da 0001 a 5000.
(a) Iniziando dall’elemento individuato dalla riga 16 e dalla colonna 1 e procedendo in
senso orizzontale nella Tavola E.1, selezionate un campione semplice di 50 numeri di
fatture.
(b) Selezionate un campione sistematico di 20 numeri di fatture. Usate i numeri casuali
della riga 20 e colonne 5-7 come punto di partenza della selezione.
(c) Le fatture selezionate in (a) sono uguali a quelle selezionate in (b)?
1.20 Suppone che 5000 fatture vengano ripartite in quattro strati. Lo strato 1 contiene 50 fatture,
lo strato 2 contiene 500 fatture, lo strato 3 contiene 1000 fatture e lo strato 4 3450 fatture.
Sono selezionate tutte le fatture dello strato 1 e 50 fatture da ogni altro strato.
(a) Che tipo di campionamento viene effettuato? Perché?
(b) Spiegate come condurreste il campionamento sulla base del metodo descritto in (a).
(c) Perché il campionamento in (a) non è un campionamento casuale semplice?
◆
1.9
18
VALUTARE L’ADEGUATEZZA
CAPITOLO 1
DELLE INDAGINI CAMPIONARIE
Quasi ogni giorno leggiamo o ascoltiamo i risultati di un’inchiesta o di un sondaggio di
opinione sui giornali, in Internet, alla radio o alla televisione. Indubbiamente, gli sviluppi
della tecnologia dell’informazione hanno condotto a una proliferazione di ricerche basate
su sondaggi. Non tutte queste ricerche, tuttavia, sono valide, significative o importanti (riferimento bibliografico 2).
Per evitare di essere fuorviati da sondaggi che mancano di oggettività o credibilità, dobbiamo valutare criticamente cosa leggiamo o sentiamo esaminando l’adeguatezza del sondaggio. In primo luogo, dobbiamo considerare lo scopo dell’indagine: perché è stato condotta e con quale intento. Un sondaggio di opinione o un’inchiesta condotta per soddisfare
la curiosità hanno prevalentemente uno scopo di intrattenimento. Il loro risultato è fine a sé
stesso piuttosto che mezzo per un fine. Dovremmo essere scettici rispetto a un’indagine di
questo tipo, perché il suo risultato non può essere impiegato per altri usi.
Il secondo passo nella valutazione dell’adeguatezza di un’indagine consiste nello stabilire se è basata su un campionamento probabilistico o non probabilistico (come già discusso
nel paragrafo 1.8). Ricordate che il solo modo per fare inferenze statistiche corrette da un
campione all’intera popolazione passa attraverso l’uso di un campione probabilistico. Indagini che fanno ricorso al campionamento non probabilistico sono soggette a serie distorsioni, anche non intenzionali, che potrebbero rendere i risultati privi di ogni significato,
come è illustrato nel seguente riquadro di commento.
INTRODUZIONE
E RACCOLTA DEI DATI
levine1_1-34
5-12-2001
12:02
Pagina 19
C OMMENTO : Una figuraccia dovuta a un campionamento non probabilistico
Nel 1948 i maggiori esperti di sondaggi elettorali prevedevano che nelle elezioni presidenziali americane Harry S. Truman, il presidente uscente, sarebbe stato sconfitto da
Thomas E. Dewey, il governatore di New York. Il Chicago Tribune era così fiducioso
nelle previsioni dei sondaggi che stampò la sua prima edizione sulla base delle previsioni
senza aspettare lo scrutinio dei voti.
Nei giorni successivi, un imbarazzato giornale e gli esperti di sondaggi su cui aveva
fatto affidamento dovettero dare molte spiegazioni. Cercando la fonte del loro errore, gli
analisti scoprirono che esso era da ascriversi all’uso del campionamento non probabilistico (riferimento bibliografico 17). Come conseguenza, le organizzazioni di sondaggi
hanno fatto ricorso al campionamento probabilistico per le elezioni successive.
Gli errori nei sondaggi
Anche quando fanno uso del campionamento probabilistico, i sondaggi sono soggetti a possibili errori. Come mostra il Riquadro 1.4, ci sono quattro tipi di errori nelle indagini campionarie (riferimento bibliografico 8). Indagini e sondaggi validi vengono condotti cercando
di ridurre o minimizzare questi errori, spesso a un costo considerevole.
Riquadro 1.4 Gli errori nei sondaggi
✓
✓
✓
✓
1. Errore di copertura o distorsione nella selezione.
2. Errore da mancata risposta o distorsione da mancata risposta.
3. Errore di campionamento.
4. Errore di misurazione.
◆ L’errore di copertura Elemento chiave di un’appropriata selezione del campione è
un’adeguata lista della popolazione o un elenco aggiornato di tutti i soggetti da cui estrarre
il campione. Un errore di copertura si verifica se si escludono certi gruppi di soggetti
dalla lista della popolazione, in maniera tale che questi non hanno nessuna probabilità di
entrare a far parte del campione. Gli errori di copertura danno luogo a una distorsione nella
selezione. Se la lista è inadeguata perché alcuni gruppi di soggetti della popolazione non
sono inclusi in maniera appropriata, ogni campione casuale che venisse selezionato fornirebbe uno stimatore delle caratteristiche della lista della popolazione, non della vera popolazione. Per una presentazione di un caso famoso di distorsione nella selezione, vi rimandiamo al seguente riquadro di commento.
C OMMENTO : Un caso di distorsione nella selezione
Nel 1936, la rivista Literary Digest previde che il governatore del Kansas Alf Landon
avrebbe ottenuto il 57% dei voti nelle elezioni presidenziali americane, frustrando le ambizioni di rielezione del presidente in carica, Franklin D. Roosevelt. In realtà, Landon fu
pesantemente sconfitto, ottenendo solo il 38% delle preferenze. Una rivista non aveva mai
commesso prima un errore di questo genere in relazione alle elezioni più importati del
paese. Come conseguenza, la previsione sbagliata distrusse la credibilità della rivista
presso il pubblico, conducendola alla fine al fallimento.
Literary Digest pensava tuttavia di non aver commesso errori. Aveva basato le sue previsioni su un ampio campione di 2.4 milioni di rispondenti a un questionario inviato a 10
(continua)
VALUTARE L’ADEGUATEZZA
DELLE INDAGINI CAMPIONARIE
19
levine1_1-34
5-12-2001
12:02
Pagina 20
C OMMENTO : Un caso di distorsione nella selezione (seguito)
milioni di elettori. Dove era allora l’errore? Ci sono due risposte: distorsione nella selezione e distorsione da mancata risposta.
Per capire il ruolo svolto dalla distorsione nella selezione, si deve tener conto del
momento storico in cui i fatti sono avvenuti. Nel 1936 gli Stati Uniti soffrivano ancora
delle conseguenze della Grande Depressione. Senza tener conto di questo, il Literary
Digest aveva compilato la lista della popolazione sulla base di fonti quali gli elenchi del
telefono, le liste dei membri di alcuni club, gli elenchi degli abbonati a riviste, le immatricolazioni delle automobili (riferimento bibliografico 6). Inavvertitamente aveva scelto
una lista della popolazione che comprendeva i più ricchi ed escludeva la maggioranza
della popolazione votante, che durante la Grande Depressione non poteva permettersi il
telefono, l’iscrizione a un club, l’abbonamento a una rivista o un’automobile. Pertanto
una stima del 57% delle preferenze per Landon poteva essere corretta con riferimento alla
lista della popolazione, ma non per la vera popolazione.
La distorsione dovuta ai non rispondenti si è verificata quando l’ampio campione di
10 milioni di elettori ha prodotto solo 2.4 milioni di risposte. Un tasso di risposta del solo
24% è troppo basso per consentire stime accurate dei parametri della popolazione in
assenza di meccanismi che garantiscano che i 7.6 milioni di non rispondenti hanno la
stessa opinione dei rispondenti. Comunque il problema dei non rispondenti è stato secondario rispetto a quello della distorsione nella selezione. Anche se i 10 milioni di elettori
del campione avessero risposto, questo non avrebbe compensato il fatto che la lista della
popolazione differiva in maniera sostanziale nella composizione dalla vera popolazione
dei votanti.
◆ L’errore da mancata risposta Non tutti sono ugualmente disposti a rispondere a un
sondaggio. Di fatto, ricerche empiriche hanno mostrato come persone appartenenti alle
classi più alte e a quelle più basse tendano in genere a rispondere con meno facilità ai sondaggi rispetto alle persone che appartengono alle classi medie. L’errore da mancata risposta si verifica quando non si raccolgono dati su tutte le persone nel campione, e dà luogo
alla distorsione da mancata risposta. Dal momento che non è possibile, in generale, assumere che le persone che non rispondono siano simili a quelle che rispondono, è estremamente importante indagare sulle non risposte dopo uno specifico periodo di tempo. Si
devono fare vari tentativi, sia per corrispondenza che per telefono, per convincere queste
persone a cambiare idea. Sulla base dei risultati, le stime ottenute dalle risposte iniziali
devono essere unite a quelle ottenute successivamente, affinché le inferenze fatte dal sondaggio siano valide (riferimento bibliografico 1).
Le modalità di attuazione del sondaggio, inoltre, influenzano il tasso di risposta. Le interviste personali e le interviste telefoniche in genere producono un tasso di risposta più alto
delle interviste per posta, ma comportano anche dei costi più alti. Il commento sul sondaggio del 1936 del Literary Digest illustra la distorsione da mancata risposta.
◆ L’errore di campionamento Tre sono i motivi principali per estrarre un campione
piuttosto che fare un censimento dell’intera popolazione: è più veloce, meno costoso e più
efficiente. Tuttavia è la sorte a stabilire chi nella lista della popolazione sarà incluso nel
campione e chi no. L’errore di campionamento riflette le differenze tra i campioni che
sono riconducibili alla sorte, ossia dovute alla probabilità che un particolare individuo o
oggetto ha di entrare a far parte di particolari campioni.
Quando leggiamo i risultati di un sondaggio o di un’inchiesta sui giornali, c’è spesso
una frase riguardante il margine di errore o precisione; per esempio, “Ci si aspetta che il
risultato di questo sondaggio differisca dal vero valore al massimo di 4 punti percentuali”.
20
CAPITOLO 1
INTRODUZIONE
E RACCOLTA DEI DATI
levine1_1-34
5-12-2001
12:02
Pagina 21
Questo margine di errore è proprio il nostro errore di campionamento. Gli errori si possono
ridurre aumentando l’ampiezza del campione, sebbene questo comporti un aumento dei
costi.
◆ L’errore di misurazione Se si vuole condurre una buona ricerca sulla base di un sondaggio, si deve cominciare col redigere un questionario in maniera tale da ottenere delle
informazioni significative. I dati raccolti devono essere validi; vale a dire che le risposte su
cui si effettuerà l’analisi devono essere quelle “giuste”, e devono essere suscettibili di misurazioni significative.
Ma qui sorge un problema: ottenere delle misurazioni significative non è spesso cosa
facile. Spesso si sceglie il procedimento attraverso cui si ottengono le misurazioni sulla base
di considerazioni legate alla sua comodità, piuttosto che alla sua validità. E le misurazioni
ottenute sono solo delle approssimazioni di ciò che veramente si desidera.
Gli errori di misurazione si riferiscono a inaccuratezze nelle risposte raccolte che
possono derivare da un’inadeguata formulazione della domanda, da un’influenza dell’intervistatore sulle risposte o dall’atteggiamento dell’intervistato.
Grande attenzione è stata data agli errori di misurazione che derivano da una formulazione
inadeguata della domanda (riferimento bibliografico 7). Una domanda deve essere chiara,
non ambigua. Deve essere presentata oggettivamente, in una maniera neutrale; si devono
quindi evitare le “domande guidate”.
Le fonti degli errori di misurazione sono: la formulazione ambigua delle domande, il
cosiddetto “effetto alone”, l’errore del rispondente. Consideriamo il seguente esempio di
formulazione ambigua delle domande: nel novembre del 1993 il Labor Department dichiarò
che il tasso di disoccupazione degli Stati Uniti era stato sottostimato per più di dieci anni
a causa della formulazione inadeguata delle domande nella Current Population Survey (indagine sulla popolazione). In particolare, la formulazione di alcune domande aveva condotto
a un conteggio incompleto delle donne nella forza lavoro.
Si parla di “effetto alone” quando l’intervistato si sente obbligato a compiacere l’intervistatore dando una risposta non veritiera. Questo tipo di errore si può ridurre attraverso un
appropriato addestramento degli intervistatori.
Gli errori dell’intervistato si verificano a causa di una eccessiva minuziosità o di una
mancanza di attenzione nelle risposte. Possiamo ridurre questo tipo di errore in due modi:
(1) analizzando attentamente i dati e ricontattando le persone le cui risposte sembrano inusuali, (2) ricontattando a caso degli intervistati con lo scopo di verificare il grado di affidabilità della risposta.
Problemi etici
Con riferimento alla proliferazione di ricerche basate sui sondaggi (riferimento bibliografico 2) Eric Miller, direttore della newsletter Resarch Alert, ha detto: “C’è stato un lento
abbassamento degli standard etici. L’aspetto più allarmante è che le persone prendono delle
decisioni sulla base di queste ricerche. Può essere un crimine invisibile, ma non è senza
vittime.” Non tutte le ricerche fondate sui sondaggi sono valide, significative o importanti,
e non tutte sono difendibili sul piano etico. Dobbiamo cercare di distinguere tra sondaggi
impostati in modo errato e sondaggi eticamente discutibili.
Considerazioni di carattere etico sorgono con riferimento ai quattro tipi di errori che si
possono verificare quando si pianificano dei sondaggi che fanno ricorso a campioni probabilistici: l’errore di copertura o la distorsione nella selezione, l’errore da mancata risposta
o la distorsione da mancata risposta, l’errore di campionamento e l’errore di misurazione.
VALUTARE L’ADEGUATEZZA
DELLE INDAGINI CAMPIONARIE
21
levine1_1-34
5-12-2001
12:02
Pagina 22
L’errore di copertura o la distorsione della selezione fanno sorgere un problema di carattere etico solo quando gruppi o persone sono escluse di proposito dalla lista della popolazione, di modo che i risultati del sondaggio siano distorti a favore della posizione di chi lo
ha promosso.
In modo analogo, l’errore da mancata risposta o la distorsione da mancata risposta diventano un problema etico solo se alcuni gruppi o individui hanno una probabilità più bassa
di rispondere a un particolare tipo di sondaggio, e chi promuove il sondaggio pianifica ciò
deliberatamente con l’intento di escludere tali gruppi o persone. Gli errori di campionamento diventano un problema etico solo se le conclusioni sono intenzionalmente presentate
senza riferimento alla dimensione del campione e al margine di errore, di modo che l’organizzatore del sondaggio possa promuovere un punto di vista che altrimenti potrebbe essere
insignificante. Gli errori di misurazione possono far sorgere un problema etico in tre casi:
(1) l’organizzatore del sondaggio può deliberatamente scegliere domande tendenziose, pilotate in modo da guidare la risposta in una direzione particolare; (2) un intervistatore può
usare toni e atteggiamenti studiati in modo da creare un effetto alone o guidare altrimenti
le risposte in una direzione particolare; (3) un intervistato che valuta in maniera negativa i
sondaggi può volutamente fornire delle informazioni false.
Esercizi del paragrafo 1.9
1.21 “Un sondaggio mostra che gli americani preferiscono di gran lunga una Chrysler a una
Toyota, dopo aver provato entrambi i tipi di automobile.” Quali informazioni vorreste prima
di accettare i risultati di questo sondaggio?
1.22 “Un sondaggio mostra che una grande maggioranza di studenti del college considera i jeans
Gap come il tipo di vestiti più alla moda.” Quali informazioni vorreste prima di accettare
i risultati di questo sondaggio?
1.23 Un campione casuale semplice di n = 300 impiegati a tempo pieno è estratto dall’elenco di
un’azienda contenente i nomi di N = 5000 impiegati a tempo pieno, con lo scopo di valutare il grado di soddisfazione sul lavoro.
(a) Date un esempio di un possibile errore di copertura.
(b) Date un esempio di un possibile errore da mancata risposta.
(c) Date un esempio di un possibile errore di campionamento.
(d) Date un esempio di un possibile errore di misurazione.
◆R
IEPILOGO
Come potete vedere dal diagramma di riepilogo che segue, in questo capitolo abbiamo presentato un’introduzione alla statistica e abbiamo analizzato le modalità di raccolta dei dati.
Abbiamo studiato le diverse modalità di risposta a un sondaggio, i vari tipi di dati e i differenti modi di selezionare campioni causali. Inoltre abbiamo esaminato alcuni aspetti della
adeguatezza di un sondaggio.
Una volta raccolti, i dati devono essere organizzati e preparati in maniera da poter condurre le proprie analisi. Nei prossimi due capitoli illustreremo i metodi di rappresentazione
a mezzo di tabelle e grafici, descriveremo varie tecniche di “analisi esplorativa dei dati” e
presenteremo diverse misure descrittive di sintesi utili per l’analisi e l’interpretazione dei dati.
22
CAPITOLO 1
INTRODUZIONE
E RACCOLTA DEI DATI
levine1_1-34
5-12-2001
12:02
Pagina 23
Statistica
Campione
Pensiero
statistico
Parametro
Popolazione
Miglioramento
dei processi
Variabile
casuale
Tipi
di
variabile
Qualitativa
Quantitativa
Discreta
Continua
Fonte
dei dati
Uso di dati già
pubblicati
Ideazione
di un esperimento
Realizzazione
di un sondaggio
Tipo
di campione
Probabilistico
Conduzione di uno
studio sul campo
Considerazioni
etiche
Non probabilistico
Diagramma di riepilogo del Capitolo 1
Parole chiave
campionamento a grappoli
campionamento casuale semplice
campionamento con reimmissione
campionamento non probabilistico
campionamento probabilistico
campionamento senza reimmissione
campionamento sistematico
campionamento stratificato
campione
dati
distorsione da mancata risposta
distorsioni nella selezione
errore da mancata risposta
errore di campionamento
errore di copertura
errore di misurazione
fonti primarie
fonti secondarie
liste
parametro
popolazione
statistica
statistica descrittiva
statistica inferenziale
tavola dei numeri casuali
universo
variabile casuale
variabile qualitativa
variabile quantitativa
variabile quantitativa continua
variabile quantitativa discreta
PAROLE
CHIAVE
23
levine1_1-34
5-12-2001
12:02
Pagina 24
Verifica della comprensione
1.24
1.25
1.26
1.27
1.28
1.29
1.30
1.31
1.32
1.33
1.34
1.35
1.36
1.37
1.38
1.39
1.40
Qual è la differenza tra un campione e una popolazione?
Qual è la differenza tra una statistica e un parametro?
Qual è la differenza tra la statistica descrittiva e quella inferenziale?
In che modo i metodi statistici possono essere utili al manager?
In quale maniera lo sviluppo della tecnologia informatica ha modificato il campo della
statistica?
In quale maniera lo sviluppo della statistica si è intrecciato con la necessità di raccolta di
informazioni sistematiche da parte dei governi?
Come sono cambiati negli ultimi 30 anni i pacchetti software per l’analisi statistica?
Quali sono i tre aspetti del miglioramento della qualità?
Qual è la differenza tra una variabile qualitativa e una quantitativa?
Qual è la differenza tra i dati continui e quelli discreti?
Quali sono i motivi alla base della raccolta dei dati?
Qual è la differenza tra il campionamento probabilistico e quello non probabilistico?
Quali sono i problemi che si possono incontrare usando i metodi di estrazione da un’urna
per estrarre un campione casuale semplice?
Qual è la differenza tra il campionamento con reimmissione e quello senza reimmissione?
Qual è la differenza tra un campione casuale e uno sistematico?
Qual è la differenza tra un campione stratificato e uno a grappolo?
Quali sono le quattro fonti di errore nei sondaggi che fanno uso del campionamento probabilistico?
Esercizi di riepilogo del capitolo
1.41 La Data and Story Library (DASL) (http://lib.stat.cmu.edu./DASL) è una biblioteca in rete
in cui sono raccolti file contenenti dati e brevi storie, che consentono di chiarire l’uso dei
metodi statistici di base. A ogni insieme di dati corrispondono una o più storie. Accedete
al sito Internet e, una volta letta una storia, dite in che modo le statistiche sono state usate
in una delle aree di interesse.
1.42 Accedete al sito della Microsoft nell’area dedicata a Microsoft Excel (http://www.microsoft.com/office/excel). Spiegate in quale maniera Microsoft Excel potrebbe essere utile nel
campo della statistica.
1.43 La società di ricerche Gallup presenta i risultati dei sondaggi più recenti nel suo sito Web
http://gallup.com. Accedete al sito e fate clic su Business and Economy. Per uno dei sondaggio indicati:
(a) date un esempio di una variabile qualitativa trovata nel sondaggio;
(b) date un esempio di una variabile quantitativa trovata nel sondaggio;
(c) formulate tre domande che potrebbero essere usate in questo sondaggio.
1.44 Il sito Internet della British Airways presenta un questionario che può essere compilato per
via elettronica (http://www.britishairways.comm/feedback/feedback.html).
Tra le domande elencate in passato c’erano:
1. In che modo siete venuti a conoscenza del sito Internet della British Airways?
2. Qual è la vostra età?
3. Che velocità ha la vostra connessione Internet?
(a) Il sondaggio sul sito della British Airways dà luogo a un campione casuale? Commentate.
(b) Come si può ottenere un campione casuale?
(c) Definite la lista della British Airways.
(d) Se il sondaggio non è ancora stato fatto in questa maniera, scrivete una domanda in cui
l’età è una variabile quantitativa.
(e) La risposta alla domanda: “In che modo siete venuti a conoscenza del sito Internet della
British Airways?” dà luogo a una variabile qualitativa o quantitativa? Spiegate.
(f) Formulate tre domande che attualmente non fanno parte del sondaggio e che ritenete
dovrebbero essere incluse.
24
CAPITOLO 1
INTRODUZIONE
E RACCOLTA DEI DATI
levine1_1-34
5-12-2001
12:02
Pagina 25
1.45 I sondaggi elettorali sono tradizionalmente condotti a mezzo di interviste telefoniche. I ricercatori alla Harris Black International Ltd. sostengono che i sondaggi via Internet sono meno
costosi, più veloci e garantiscono dei tassi di risposta più alti di quelli per telefono. Altri
ricercatori sono scettici rispetto all’affidabilità scientifica di questo approccio (Wall Street
Journal, 13 aprile 1999). Nonostante queste critiche, i sondaggi via Internet stanno diventando sempre più frequenti. Quali perplessità avete, se ne avete, circa i sondaggi via Internet?
1.46 Uno studio di Rajesh Mirani e Albert Lederer (“An Instrument for Assessing the Organizational Benefits of the IS Projects,” Decision Sciences, Vol.29, 1998, pp.803-838) analizza
i benefici, in termini di organizzazione, che possono derivare dai progetti relativi ai sistemi
informativi aziendali. I ricercatori hanno spedito per posta 936 questionari ai membri (scelti
a caso) di una grande organizzazione nazionale nell’ambito dei sistemi informativi. Sono
state ricevute 200 risposte valide, per un tasso di risposta pari al 21%. Dei 200 rispondenti,
190 hanno risposto a delle domande concernenti un progetto recentemente completato. Il
budget per questi progetti era in media di 3.8 milioni di dollari, con una banda di oscillazione da 4000 dollari a 100 milioni di dollari. Tra i 190 intervistati che hanno risposto, il
45% ha dichiarato che era necessaria un’autorizzazione del CEO per poter iniziare i progetti.
(a) Qual è la fonte dei dati usati in questo studio?
(b) Indicate una variabile qualitativa trattata in questo articolo.
(c) Indicate una variabile quantitativa trattata in questo articolo.
(d) Illustrate il metodo di campionamento usato in questo studio.
(e) In che tipi di errore pensate che i ricercatori potrebbero incorrere?
1.47 Il Bureau of the Census (http://www.census.gov) ha un ricco sito Internet con link a molti
tipi di dati. Il sito contiene informazioni sulle persone, l’economia, la geografia e molte
altre categorie. Accedete al sito e trovate la descrizione dell’American Housing Survey (sondaggio sulle abitazioni) nella sezione People.
(a) Descrivete brevemente l’American Housing Survey.
(b) Qual è l’ampiezza del campione e che tipo di metodo di selezione del campione è stato
impiegato?
(c) Date un esempio di variabile qualitativa trovata nel sondaggio.
(d) Date un esempio di variabile quantitativa trovata nel sondaggio.
(e) Quali tipi di attività economiche possono trarre beneficio dalle informazioni fornite dal
sondaggio? Perché?
(f) Accedete al link per le attività economiche e individuate la sezione dedicata al settore
manifatturiero. Descrivete l’Annual Survey of Manufacturers (il sondaggio annuale sul
settore manifatturiero).
(g) Qual è l’ampiezza del campione e che tipo di metodo di selezione del campione è stato
impiegato?
(h) Date un esempio di variabile qualitativa trovata nel sondaggio.
(i) Date un esempio di variabile quantitativa trovata nel sondaggio.
(j) In che maniera un dirigente di un’azienda manifatturiera può trarre benefici dalle informazioni fornite dal sondaggio?
1.48 Supponete che il manager della divisione servizi alla clientela di una società di prodotti
elettronici intenda stabilire se i clienti che hanno acquistato un videoregistratore negli ultimi
12 mesi sono soddisfatti del prodotto. Il manager programma di intervistare questi clienti,
contattandoli sulla base dei certificati di garanzia spediti dopo l’acquisto.
(a) Descrivete la popolazione.
(b) Descrivete la lista.
(c) Che differenze ci sono tra la popolazione e la lista della popolazione? In che maniera
queste differenze potrebbero influenzare i risultati?
(d) Formulate tre domande qualitative che ritenete appropriate per questo sondaggio.
(e) Formulate tre domande quantitative che ritenete appropriate per questo sondaggio.
(f) Come si potrebbe estrarre un campione casuale semplice di certificati di garanzia?
(g) Se il manager volesse estrarre un campione casuale semplice di certificati di garanzia
per ogni modello di videoregistratore venduto, come potrebbe selezionare il campione?
ESERCIZI
DI RIEPILOGO DEL CAPITOLO
25
levine1_1-34
5-12-2001
12:02
Pagina 26
1.49 I sondaggi politici sono condotti per cercare di prevedere i risultati di una elezione. I risultati di sondaggi di questo genere sono solitamente riportati sui giornali o alla televisione
nelle settimane precedenti l’elezione. Per una elezione in particolare, quella del Presidente
degli Stati Uniti:
(a) Qual è la popolazione a cui si vogliono estendere i risultati del sondaggio?
(b) Come si può ottenere un campione casuale semplice da questa popolazione?
(c) Da quello che sapete sul modo in cui questi sondaggi sono condotti attualmente, quali
sono i problemi che si possono incontrare in questo tipo di sondaggi?
1.50 Il seguente questionario si trova in ogni camera di un albergo conosciuto e apprezzato. Lo
scopo della direzione è valutare la soddisfazione degli ospiti.
Come vi abbiamo servito?
Prenotazioni
Portiere
Ricezione
Camera
Pulizia
Ristorante
Pensate che questo sistema di quattro categorie con relativi giudizi a mezzo di “faccine”
fornisca alla direzione informazioni sufficienti su ogni servizio o prestazione fornita? Commentate.
(a) L’aggiunta di un’altra “faccina corrucciata” per bilanciare le due “faccine sorridenti”
migliorerebbe il questionario? Commentate.
(b) Che valore hanno questi sondaggi autoselettivi? Possono essere utilizzati per valutare
le opinioni degli ospiti durante un particolare intervallo di tempo (ad esempio una settimana o un mese)? Commentate.
(c) Come si potrebbe selezionare un campione casuale di ospiti?
(d) Quale domanda qualitativa aggiungereste al sondaggio?
(e) Quale domanda quantitativa aggiungereste al sondaggio?
1.51 Supponete che un produttore di cibo per gatti voglia fare un sondaggio per stabilire le abitudini di acquisto dei proprietari di gatti. Tra le domande da includere nel sondaggio compaiono:
1. Dove il cibo per gatti è acquistato principalmente.
2. Se si acquista del cibo secco o meno.
3. Il numero di gatti che vivono in casa.
4. Se il gatto ha un pedigree o meno.
(a) Descrivete la popolazione.
(b) Definite la lista.
(c) Indicate il tipo di campionamento che usereste e perché lo scegliereste.
(d) Per ciascuna delle quattro domande elencate, indicate se la variabile è qualitativa o
quantitativa.
(e) Formulate cinque domande qualitative per il sondaggio.
(f) Formulate cinque domande quantitative per il sondaggio.
26
CAPITOLO 1
INTRODUZIONE
E RACCOLTA DEI DATI
levine1_1-34
5-12-2001
12:02
◆
Pagina 27
Il caso — SONDAGGIO
DI UNA ASSOCIAZIONE DI EX-STUDENTI
Supponete che il presidente di un’associazione di
ex-studenti di un’università intenda condurre un
sondaggio sui suoi soci dalle classi del 1988 e
1989 per conoscere i passati successi, le attuali occupazioni e le future aspirazioni. A tale scopo, si
rendono necessarie le seguenti informazioni:
sesso, area di studi, voto di laurea, eventuali studi
successivi (ad esempio master o dottorato), occupazione attuale, stipendio annuo attuale, numero
di impieghi a tempo pieno dal momento della laurea, stipendio annuo previsto tra cinque anni, appartenenza a un partito politico, stato civile.
In quanto direttori di un centro di ricerca, redigete una proposta in cui dite come intendete condurre il sondaggio. Tale proposta dovrà includere i
seguente elementi:
3.
4.
5.
6.
7.
8.
1. Una dichiarazione di intenti (cosa volete scoprire e perché).
2. Una valutazione di come e dove il sondaggio
sarà condotto (ad esempio, come intendete selezionare 300 ex-studenti dalla lista dei 3000
membri dell’associazione per i due anni considerati).
Una prima bozza del questionario (contenente
un elenco organizzato di domande qualitative e
quantitative).
Una prima bozza della lettera di accompagnamento al questionario.
Una prima bozza delle particolari istruzione ai
rispondenti per aiutarli nella compilazione del
questionario.
Una considerazione su come intendete verificare la validità del sondaggio.
La dichiarazione che avete preso in considerazioni aspetti quali i costi del sondaggio, il bisogno di personale e il lasso di tempo necessario
per l’attuazione e il completamento.
Una valutazione sulla popolazione di riferimento, quella dei membri dell’associazione di
ex-studenti, a confronto con la popolazione dei
laureati dei due anni 1988 e 1989 e sulla possibilità di estendere i risultati del sondaggio a
tutti i laureati di quei due anni.
Bibliografia
1. Cochran, W. G., Sampling Techniques, 3d ed. (New York:
Wiley, 1977).
2. Crossen, C., “Margin of Error: Studies and Surveys Proliferate, but Poor Methodology Makes Many Unreliable,”
The Wall Street Journal, November 14, 1991, A1 and A9.
3. Deming, W. E., Sample Design in Business Research (New
York: Wiley, 1960).
4. Deming, W. E., Out of the Crisis (Cambridge: Massachusetts Institute of Technology Center for Advanced Engineering Study, 1986).
5. Deming, W. E., The New Economics for Industry, Government, Education (Cambridge: Massachusetts Institute of
Technology Center for Advanced Engineering Study, 1993).
6. Gallup, G. H., The Sophisticated Poll-Watcher’s Guide
(Princeton, NJ: Princeton Opinion Press, 1972).
7. Goleman, D., “Pollsters Enlist Psychologists in Quest for
Unbiased Results,” The New York Times, September 7,
1993, C1 and C11.
8. Groves, R. M., Survey Errors and Survey Costs (New
York: Wiley, 1989).
9. Hansen, M. H., W. N. Hurwitz, and W. G. Madow, Sample
Survey Methods and Theory, vols. 1 and 2 (New York: Wiley, 1953).
10. Juran, J. M., Juran on Leadership for Quality (New York:
The Free Press, 1989).
11. Juran, J. M., and F. M. Gryna, Quality Planning and
Analysis, 2d ed. (New York: McGraw-Hill, 1980).
12. Kendall, M. G., and R. L. Plackett, eds., Studies in the History of Statistics and Probability, vol. 2 (London: Charles
W. Griffin, 1977).
13. Kirk, R. E., ed., Statistical Issues: A Reader for the Behavioral Sciences (Monterey, CA: Brooks/Cole, 1972).
14. Lotus 1-2-3 Release 5 (Cambridge, MA: Lotus Development Corporation, 1994).
15. Microsoft Excel 2000 (Redmond, WA: Microsoft Corporation, 1999).
16. Minitab Version 12 (State College, PA: Minitab, Inc., 1998).
17. Mosteller, F., et al., The Pre-Election Polls of 1948 (New
York: Social Science Research Council, 1949).
18. Norusis, M., SPSS Guide to Data Analysis for SPSS-X:
With Additional Instructions for SPSS/PC (Chicago:
SPSS Inc., 1986).
19. Pearson, E. S., ed., The History of Statistics in the Seventeenth and Eighteenth Centuries (New York: Macmillan,
1978).
20. Pearson, E. S., and M. G. Kendall, eds., Studies in the History
of Statistics and Probability (Darien, CT: Hafner, 1970).
21. Rand Corporation, A Million Random Digits with 100,000
Normal Deviates (New York: The Free Press, 1955).
22. Robbins, S. P., Management, 5th ed. (Upper Saddle River,
NJ: Prentice Hall, 1997).
23. SAS Language and Procedures Usage, Version 6 (Raleigh,
NC: SAS Institute, 1988).
24. Walker, H. M., Studies in the History of the Statistical
Method (Baltimore: Williams & Wilkins, 1929).
25. Wattenberg, B. E., ed., Statistical History of the United
States: From Colonial Times to the Present (New York:
Basic Books, 1976).
BIBLIOGRAFIA
27
levine1_1-34
5-12-2001
12:02
Pagina 28
APPENDICE 1.1
INTRODUZIONE
A
MICROSOFT EXCEL
Micrsoft Excel e questo libro
Microsoft Excel è un esempio di foglio elettronico, il programma di produttività individuale più adatto
per una manipolazione interattiva di dati numerici. I fogli elettronici consentono agli utenti di lavorare su fogli in formato elettronico, o fogli di lavoro, che si presentano come una serie di righe (orizzontali) e colonne (verticali) in cui si inseriscono i dati. Utilizzati in principio nell’ambito della contabilità, i moderni fogli elettronici, grazie alla loro flessibilità, sono ormai diventati uno strumento di
risoluzione di molti problemi, compresi i problemi che gli studenti di un corso di statistica si trovano
di fronte.
Tra i molti fogli elettronici disponibili, gli autori hanno scelto Excel non solo per gli ovvii motivi
che il programma è ampiamente disponibile e fa parte di un pacchetto integrato, Microsoft Office,
particolarmente usato in ambito aziendale. Excel contiene molte specifiche funzioni statistiche, nonché procedure che aiutano nell’analisi dei dati; è inoltre possibile istallare dei “componenti aggiuntivi”, procedure programmate che estendono la funzionalità di Excel. Queste caratteristiche aiutano
nella elaborazione delle soluzioni in Excel e semplificano il suo uso. (Nelle appendici su Excel presenti al termine dei diversi capitoli, si fa riferimento al componente aggiuntivo Prentice Hall PHStat,
scaricabile dal sito Web abbinato al libro (www.apogeonline.com/libri/00805/allegati/); tale aggiunta,
sviluppata per semplificare ulteriormente l’uso di Excel, è illustrata più avanti in questa appendice).
Excel consente anche di creare delle raccolte di fogli elettronici e altre informazioni, racchiuse in
un unico file, la cartella di lavoro. Le cartelle di lavoro contenenti più fogli di lavoro facilitano l’elaborazione delle soluzioni in maniera ordinata. In questo libro, le soluzioni seguono il prevedibile
schema consistente nell’usare fogli di lavoro distinti per i dati del problema, per i calcoli e per i grafici. Questo metodo facilita il riutilizzo della cartella, l’inserimento di eventuali modifiche, e in genere
rende più chiara la presentazione dei risultati.
Sebbene Excel sia molto utile nell’apprendimento della statistica, dovete essere consapevoli del fatto
che non si tratta di un programma che può sostituirsi completamente ai pacchetti standard di analisi
statistiche. In presenza di insiemi di dati molto grandi o di dati con delle proprietà statistiche particolarmente inusuali, Excel può produrre dei risultati non validi.
Conoscere un foglio Excel
Quando si lancia Excel da Windows, compare una finestra di dialogo simile a quella della Figura
A1.1. Ciascun utilizzatore può scegliere come configurare la finestra e dove posizionare i singoli
oggetti che vi compaiono. Nella Figura A1.1, come in tutte le illustrazioni di Excel di questo libro,
la barra standard e quella di formattazione sono disposte sotto la barra degli strumenti.
Il foglio elettronico che compare nell’area di lavoro, è ingrandito sino a coprire tutta l’area. I
comandi di ridimensionamento e di chiusura compaiono in cima al foglio elettronico e le barre di
scorrimento orizzontale e verticale consentono di mostrare le parti del foglio che sono fuori dallo
schermo. Le etichette del foglio, che ne identificano il nome, consentono di passare da un foglio all’altro della cartella. Una barra di stato fornisce le informazioni circa le operazioni in corso e lo stato di
alcuni tasti chiave.
Specificare le posizioni nei fogli di lavoro
Quando si fa uso di un foglio elettronico, una parte del lavoro consiste nell’inserire i dati, i calcoli e
i risultati richiesti, assieme ai titoli e alle etichette, ad esempio l’intestazione delle colonne, in una
griglia che forma un singolo foglio di lavoro. Usando una notazione standard per i fogli di lavoro, ci
riferiamo alle colonne di ogni foglio con le lettere e alle righe con i numeri, per identificare le celle
in cui inserire i dati, date dall’intersezione delle righe e delle colonne. In questo sistema, che ricorda
il gioco della “battaglia navale”, con A1 si indica la cella individuata dalla prima colonna e della
prima riga (la prima cella in alto a sinistra nel foglio), B4 si riferisce alla cella della seconda colonna
e quarta riga, e così via.
Poiché Excel può contenere diversi fogli di lavoro, questo formato in termini di lettera per la
colonna e numero per la riga in alcuni contesti non è sufficiente per specificare la cella di interesse.
28
CAPITOLO 1
INTRODUZIONE
E RACCOLTA DEI DATI
levine1_1-34
5-12-2001
12:02
Pagina 29
Barra
dei menu
Barra degli
strumenti
standard
Barra
della formula
Pulsanti di
ridimensionamento
e di chiusura
Barra di
formattazione
Area di lavoro
Etichette
del foglio
FIGURA A1.2.1
Barre di
scorrimento
La finestra di Excel.
Quando all’interno di un foglio di lavoro ci si vuole riferire a una cella di un altro foglio, il riferimento deve essere effettuato in questa forma:
nome del foglio di lavoro!ColonnaRiga
Usando questa notazione è possibile distinguere due celle che occupano la stessa posizione in fogli
diversi di una stessa cartella. Per esempio, Dati!A1 e Calcoli!A1 si riferiscono alla cella in alto a sinistra rispettivamente del foglio Dati e del foglio Calcoli. Questa notazione estesa è necessaria solo
quando ci si voglia riferire alla cella di un foglio diverso da quello in cui si stanno effettuando le
registrazioni.
È possibile riferirsi non solo alla singola cella, ma anche a gruppi di celle adiacenti. Questi gruppi
di celle sono richiamati facendo riferimento alla cella più in alto a sinistra e a quella più in basso a
destra. La notazione per il riferimento a un gruppo di celle avrà allora la seguente forma:
cella in alto a sinistra: cella in basso a destra
Per esempio, l’intervallo di celle A1:B3 si riferisce alle sei celle A1, B1, A2, B2, A3 e B3, e l’intervallo A1:A8 si riferisce alle prime otto celle nella prima colonna del foglio di lavoro. Intervalli
nella forma seguente:
Nome del foglio! cella in alto a sinistra: cella in basso a destra
si riferiscono a intervalli di celle che non appartengono al foglio in uso.
Talvolta è necessario distinguere tra gruppi di celle che hanno la stessa posizione in fogli di lavoro
che si chiamano allo stesso modo ma appartengono a cartelle differenti. In questi casi i riferimenti
alla cella sono scritti nel seguente modo:
‘[Nome della cartella] Nome del foglio!’ ColonnaRiga
Configurare Excel
In Excel è possibile configurare la finestra delle applicazioni. Potreste voler configurare la vostra finestra di Excel in modo da renderla simile a quella della Figura A1.1, oppure simile ad altre illustrazioni della finestra che appaiono nel testo. Per configurare Excel in modo da ottenere una finestra
uguale a quella della Figura A1.1 seguite la procedura descritta nel Riquadro A1.1
APPENDICE
29
levine1_1-34
5-12-2001
12:02
Pagina 30
Riquadro A1.1 Configurare Microsoft Excel
✓
✓
✓
1. Per visualizzare la barra delle formule, la barra di stato, la barra degli strumenti
standard e la barra di formattazione:
• Selezionate Visualizza. Se la Barra della formula non è selezionata,
selezionatela. Se la Barra di Stato non è selezionata, selezionatela.
• Selezionate Visualizza | Barra degli Strumenti. Se l’opzione Standard
non è selezionata, selezionatela. Se l’opzione Formattazione non è selezionata, selezionatela.
Per standardizzare l’aspetto dell’area di lavoro
• Selezionate Strumenti | Opzioni. Nella finestra di dialogo di Opzioni,
scegliete Visualizza. Selezionate Interruzioni pagina automatiche, Griglia,
Zeri, Intestazioni righe e colonne, Barra di scorrimento orizzontale, Barra di scorrimento verticale e Schede. Deselezionate Formule
se è stato selezionato. Fate click su OK.
2. Per verificare le opzioni di calcolo, di scrittura e di configurazione generale usate
nel testo:
• Selezionate Strumenti | Opzioni. Nella finestra di dialogo di Opzioni,
selezionate Calcolo, e verificate che Automatico sia selezionato. Selezionate Modifica e verificate che tutti i comandi siano selezionati ad eccezione
di Decimali fissi. Selezionate Generale. Verificate che Stile di riferimento R1C1 e Fornisce commenti con suono non siano selezionati e
che Protezione da virus macro sia stato scelto. Cambiate il valore con
3 se c’è un altro valore in Fogli nella nuova cartella. Scegliete Arial (o
un altro carattere simile) nel Carattere Standard. Scrivete 10 nella quadrato Dim.
3. Per verificare l’installazione dell’aggiunta Strumenti di analisi:
• Selezionate Strumenti. Selezionate Analisi dati se questa voce compare
nel menu e verificate se la finestra di dialogo che appare contiene una lista
di strumenti di analisi. Fate click su Annulla.
Se la voce Analisi dati non compare nel menù Strumenti, selezionate
Aggiunte dal menu. Nella finestra di dialogo che compare, selezionate
Strumenti di analisi e Strumenti di analisi-VBA. Fate click su OK. Uscite
da Excel (File | Esci). Riavviate Excel e seguite le istruzioni del paragrafo
precedente per verificare l’installazione
• Se non trovate i comandi Strumenti di analisi e Strumenti di analisiVBA, controllate nella Guida la lista delle Aggiunte a disposizione: è probabile che questa aggiunte così specifiche non siano state selezionate durante
il processo di installazione di Excel. Per esempio, se si sceglie l’opzione Installazione Tipica al momento dell’installazione di Excel/Office le aggiunte di analisi dei dati usate in questo libro non vengono selezionate, e pertanto si deve
procedere a una nuova installazione di Excel per includerle. (Consultate la
Guida in linea di Excel alla voce “Installazione e Uso delle Aggiunte” per ulteriori informazioni.)
Rinominare i fogli di lavoro
L’uso della cartella può essere facilitato assegnando un nome ai fogli di lavoro. Excel assegna automaticamente ai fogli di lavoro il nome Foglio1, Foglio2 e così via. È chiaro che i nomi migliori sono
quelli che richiamano il contenuto del foglio, ad esempio Dati per un foglio che contiene i dati da
analizzare o Calcoli per il foglio in cui sono contenuti i calcoli necessari per l’analisi. Per assegnare
un nome ai fogli, fate doppio clic sull’etichetta del foglio, scrivete il nome e premete il tasto Invio.
30
CAPITOLO 1
INTRODUZIONE
E RACCOLTA DEI DATI
levine1_1-34
5-12-2001
12:02
Pagina 31
Inserire i dati in una cartella Excel
Ora che abbiamo descritto gli elementi di base di Excel, possiamo passare a considerare il seguente
esempio. Supponete di disporre di dati sull’ammontare di denaro speso da cinque clienti in un grande
magazzino. I risultati sono illustrati nella Tabella A1.1.
Tabella A1.2.1 Ammontare speso da un campione
di 5 clienti di un grande magazzino
NOME
AMMONTARE (IN DOLLARI)
Allen
Barry
Diane
Kim
Susan
125
250
72
105
48
Possiamo ora usare Excel per analizzare questi dati. Per i dati della Tabella A1.1 vogliamo che il
titolo della prima colonna (Nome) compaia nella cella A1. Sulla base dello stesso ragionamento, stabiliamo che il titolo Ammontare debba comparire nella cella B1 e che i valori di ciascuna delle variabili per i cinque clienti debbano comparire nelle prime cinque righe (dalla 2 alla 6). Dopo aver specificato il contenuto delle celle per ciascun elemento del foglio di lavoro, possiamo passare a inserire
i valori nelle celle del foglio che chiameremo Dati. A tale scopo, selezionate File | Nuovo per creare
un nuovo foglio di lavoro, a cui assegnate il nome Dati.
Selezionate la cella A1, facendo clic al suo interno. Il contorno della cella si evidenzia a indicare
che A1 è la cella attiva, quella in cui sarà inserito il valore che digiteremo (notate anche che A1, la
designazione della cella attiva, compare nel riquadro di riferimento alla cella). Digitate il titolo della
colonna Nome. Notate come i caratteri digitati compaiono sia nella cella A1 sia nella barra della formula. Premete il tasto Invio (oppure fate clic sul tasto di controllo alla sinistra del riquadro della formula) per terminare l’inserimento. Continuate selezionando la cella B1 e inserendo il titolo della
colonna Ammontare.
Passiamo ora a inserire i dati che appariranno sotto i titoli delle colonne. Digiteremo i dati per
colonna, usando il tasto Invio per passare da una cella a quella sottostante dopo l’inserimento di ciascun dato. (Se volessimo inserire i dati per riga dovremmo premere il tasto della Tabulazione per passare da una cella a quella accanto a destra).
Selezionate la cella A2, digitate il nome Allen e premete il tasto Invio. Continuate in questo modo
a inserire i nomi nelle celle dalla A3 alla A6, passando di cella in cella con il tasto Invio. Selezionate quindi la cella B2 e inserite il numero 125. Proseguite in questo modo dalla cella B3 alla B6
inserendo i valori 250, 75, 105 e 48. Non resta che salvare il documento con gli abituali comandi
File | Salva o File | Salva con nome.
C OMMENTO : Correggere gli errori
È probabile che nell’inserire dati nel foglio di lavoro commettiate degli errori di battitura.
Per correggerli, potete fare una delle seguenti cose:
•
•
•
Per cancellare i dati immessi mentre li si digita, premete il tasto Esc o fate click
sulla “X” in fondo alla barra della formula.
Per cancellare i caratteri alla sinistra del cursore uno alla volta, premete il tasto
di Backspace (la freccia ← sopra il tasto Invio).
Per cancellare i caratteri alla destra del cursore uno alla volta premete il tasto
Canc.
(continua)
APPENDICE
31
levine1_1-34
5-12-2001
12:02
Pagina 32
C OMMENTO : Correggere gli errori (seguito)
•
Per sostituire il testo già digitato, evidenziatelo facendo clic con il tasto destro del
mouse all’inizio del testo e trascinando il puntatore del mouse sul resto del testo,
e sostituitelo con un testo nuovo. Se volete annullare l’ultima digitazione, selezionate Modifica | Annulla digitazione. Se cambiate ancora idea e volete annullare la
modifica, selezionate Modifica | Ripristina.
Elaborare delle formule per effettuare dei calcoli
A questo punto siamo pronti per calcolare una statistica semplice, l’ammontare totale speso dai cinque clienti.
Anche se si potrebbe sostenere che calcoli così semplici si possono più facilmente effettuare a
mano, è senz’altro meglio lasciar lavorare Excel al nostro posto. A tale scopo dobbiamo sviluppare
e inserire delle formule o dare delle istruzioni nelle celle appropriate del nostro foglio di lavoro Dati
(ad esempio nella cella B7).
Per distinguerle da altri tipi di digitazioni, le formule sono sempre precedute dal simbolo =. Per
creare delle formule è necessario conoscere gli operatori o simboli speciali, impiegati per indicare le
operazioni aritmetiche. Tra gli operatori usati nelle formule di questo libro, ci sono i simboli di addizione (+), sottrazione (-), moltiplicazione (*), divisione (/) e elevamento a potenza (^).
Per il calcolo dell’ammontare totale di spesa, useremo il simbolo + combinato con i riferimenti
alle celle che contengono i valori che si vogliono sommare: sommeremo le celle B2, B3, B4, B5 e
B6 del foglio di lavoro Dati. Si otterrà la seguente formula:
Data!B2 Data!B3 Data!B4 Data!B5 Data!B6
e il risultato sarà inserito nella cella B7. Dal momento che stiamo inserendo una formula nel foglio
che contiene le celle a cui ci si riferisce, potremo usare la notazione più breve:
B2 B3 B4 B5 B6
Usare le funzioni nelle formule
Nel paragrafo precedente abbiamo fatto ricorso all’operatore aritmetico + dell’addizione per costruire
la formula. In effetti avremmo potuto usare la funzione Somma, una delle molte istruzioni preprogrammate che possono essere usate quando si risolvono problemi di aritmetica, economia, ingegneria
e statistica.
Per usare la funzione Somma, scriviamo la formula =SOMMA(B2:B6) nella cella B7, invece della
formula =B2+B3+B4+B5+B6. Nella formula =SOMMA(B2:B6), la parola SOMMA identifica la funzione Somma, la coppia di parentesi () racchiude le celle di riferimento e B2:B6 indica l’intervallo di
celle di interesse, le celle a cui si vuole applicare la formula.
C OMMENTO : Copiare degli oggetti in Excel
In Excel gli oggetti, da una singola cella a un intero foglio di lavoro, possono essere
copiati per semplificare la pianificazione di un foglio di lavoro. In generale la copia di
oggetti comporta la selezione dell’oggetto e quindi la selezione degli appropriati comandi
di copia e incolla.
•
•
32
CAPITOLO 1
Per copiare un singolo valore o una serie di valori, selezionate le celle che contengono tali valori evidenziandole. Selezionate Modifica | Copia. Selezionate le celle
(è sufficiente selezionare la prima cella dell’intervallo) in cui intendete copiare i
valori. Selezionate Modifica | Incolla. (Attenzione: se si copiano oggetti che contengono delle formule non è detto che il risultato sia una duplicazione dell’oggetto!
Vedete l’Appendice 2.1 per una spiegazione dei riferimenti assoluti.)
Per copiare un intero foglio di lavoro, selezionate il foglio da copiare facendo clic
sulla sua etichetta. Selezionate Modifica | Sposta o copia foglio. Nella finestra di
INTRODUZIONE
E RACCOLTA DEI DATI
levine1_1-34
5-12-2001
12:02
Pagina 33
dialogo che compare, selezionate Crea una nuova copia. Se volete copiare il foglio
in una nuova cartella, selezionate Nuova cartella nel riquadro Alla cartella, e scegliete la cartella in cui volete copiare il foglio. Indicate la posizione del foglio da
copiare nella cartella selezionando la scelta appropriata nel riquadro Prima del
foglio. Fate clic sul comando OK.
Autocomposizioni
Le autocomposizioni (o creazioni guidate) sono degli insiemi di finestre di dialogo che guidano l’utilizzatore nella creazione di alcuni oggetti. Gli utilizzatori inseriscono delle informazioni, fanno le
opportune scelte nelle finestre di dialogo e passano da una finestra all’altra facendo clic sul comando
Avanti (e alla fine, per creare l’oggetto, sul comando Fine, mentre facendo clic su Annulla la finestra
di autocomposizione di chiude). Come esempio, si può considerare la Autocomposizione Importa
testo, che assiste nell’importare o trasferire i dati da un file di testo a un foglio di lavoro (un file di
testo contiene dei valori che sono privi di etichette e di formattazione e sono separati da delimitatori
come spazi, virgole o tabulazioni).
Per illustrare il funzionamento di questa autocomposizione, supponete che un insieme di dati sui
fondi di investimento siano contenuti nel file MUTUAL.TXT (scaricabile dal sito Web abbinato al
libro). Per importare i dati dal file in un foglio di lavoro di Excel: selezionate File | Apri. Nella finestra di dialogo che appare, selezionate la cartella che contiene il file MUTUAL.TXT nella casella
Cerca in. Nell’elenco Tipo file, selezionate File di Testo. Si può selezionare anche l’opzione Tutti
i file(*.*). Inserite il nome MUTUAL.TXT in Nome file. Fate clic sul comando Apri.
In questa maniera si dà inizio alla Importazione guidata testo, che si articola in tre passaggi. Nel
primo passaggio, selezionate il comando Larghezza fissa (perché i dati sono stati collocati in questo
file in colonne dalla larghezza fissa). Notate che nella finestra di dialogo ci si riferisce alle variabili
con il termine “campi”. Fate clic sul comando Avanti. Nella finestra di dialogo del Passaggio 2, fate
click sul comando Avanti per accettare che i dati di ogni riga del file di testo siano posizionati in
colonne. (Spostando le linee con frecce che indicano un’interruzione di colonna si possono cambiare
le posizioni se è necessario). Nella finestra di dialogo del passaggio 3, selezionate l’opzione Generale nel riquadro Formato dati per colonna. Fate clic sul comando Fine. I dati del file di testo sono
trasferiti nel nuovo foglio di lavoro, che ha lo stesso nome del file di testo (MUTUAL) in una nuova
cartella. Salvate la nuova cartella nel formato Excel (.xls).
Gli oggetti creati con le creazioni guidate si devono controllare per verificare se sono presenti degli
errori. In presenza di errori, si può sia modificare l’oggetto, facendovi sopra clic col tasto destro del
mouse e quindi scegliendo la voce appropriata, sia cancellare l’oggetto stesso e ricrearlo con la stessa
creazione guidata. (Nel nostro esempio, si potrebbero rivedere i dati appena trasferiti e inserire anche
una riga per l’intestazione delle colonne, evidenziando tutte le celle della riga 1, selezionando Inserisci | Riga e quindi digitando i titoli delle colonne.)
Le aggiunte
Le aggiunte, o componenti aggiuntivi, sono delle procedure opzionali che estendono la funzionalità
di Excel. Alcune aggiunte, come Analisi dati, sono fornite con il programma e possono essere installate mediante il programma di installazione di Excel. Altre, come Prentice Hall PHStat, devono essere
installate separatamente (in questo caso, come già detto, è necessario prima scaricare PHStat dal sito
Web abbinato a questo libro).
I componenti aggiuntivi in genere modificano la barra del menu di Excel inserendo una nuova
voce nel menu preesistente oppure un nuovo menu di scelte. Una volta selezionate, alcune voci dell’aggiunta conducono a finestre di dialogo in cui l’utilizzatore deve effettuare delle scelte, mentre altre
generano nuovi oggetti o risultati. Per esempio, l’aggiunta di analisi dei dati inserisce la voce Analisi dati nel menu Strumenti, mentre l’aggiunta PHStat inserisce un nuovo menu nella barra del menu
(vedi Figura A1.2).
Quando si seleziona Strumenti | Analisi dati si apre una finestra di dialogo in cui è possibile selezionare le analisi statistiche che si intendono compiere. Quando si seleziona PHStat, si apre invece
un nuovo menu, da cui si possono selezionare le operazioni di interesse.
Diverse aggiunte, inclusa PHStat, possono essere caricate temporaneamente, facendo due volte clic
APPENDICE
33
levine1_1-34
5-12-2001
12:02
Pagina 34
FIGURA A1.2.2
Menu PHStat.
sulle icone PHStat per Excel 97/2000 o PHStat per Excel 95, che compaiono sul Desktop (vedi le
istruzioni di installazione di PHStat nell’Appendice F). o usando le solite procedure per aprire una
cartella di Excel (se si seleziona PHStat dal menu di avvio delle aggiunte Prentice Hall, l’aggiunta
viene installata in questa maniera). Quando le aggiunte vengono caricate temporaneamente è possibile che si apra la finestra di dialogo del Controllo di virus nelle macro, che avvisa sulla possibilità
che la macro che si va ad attivare contenga dei virus. In tal caso, fate clic sul comando Attiva in
maniera tale da consentire l’installazione temporanea dell’aggiunta. Fate attenzione a non caricare
temporaneamente aggiunte che invece sono già permanentemente installate: potrebbero sorgere seri
problemi.
Ricordate che, per poter usare Excel e il componente aggiuntivo PHStat in questo libro, è necessario installare sia le aggiunte Strumenti di analisi e Strumenti di analisi-VBA, che sono fornite con
Excel, sia l’aggiunta PHStat, che è disponibile sul sito Web abbinato a questo libro. Per installare
PHStat è necessario che siano state preventivamente installate le aggiunte Strumenti di analisi e Strumenti di analisi-VBA.
Riepilogo
In questa appendice abbiamo presentato un’introduzione alle caratteristiche principali di Excel. Nelle
appendici dei prossimi capitoli esamineremo altri aspetti di Excel con riferimento a specifiche analisi
statistiche.
34
CAPITOLO 1
INTRODUZIONE
E RACCOLTA DEI DATI