levine1_1-34 5-12-2001 12:02 Pagina 1 1 Introduzione e raccolta dei dati 1.1 1.2 1.3 1.4 1.5 1.6 1.7 1.8 1.9 Perché un manager deve conoscere la statistica 2 Lo sviluppo della statistica moderna 3 Il pensiero statistico e il management moderno 4 La statistica descrittiva e la statistica inferenziale 4 Perché abbiamo bisogno dei dati? 6 Le fonti dei dati 7 Tipi di dati 9 Tipi di metodi di campionamento 11 Valutare l’adeguatezza delle indagini campionarie 18 Riepilogo 22 A1.1 Introduzione a Microsoft Excel 28 ◆ 1 levine1_1-34 5-12-2001 12:02 Pagina 2 OBIETTIVI ✓ ✓ ✓ ✓ ✓ ✓ Presentare una rassegna dei campi di applicazione della statistica Illustrare le differenze tra statistica descrittiva e statistica inferenziale Illustrare quali sono le fonti dei dati Illustrare quali sono i tipi di dati Introdurre i metodi di selezione di un campione Comprendere come valutare l’adeguatezza delle indagini campionarie ◆ 1.1 PERCHÉ UN MANAGER DEVE CONOSCERE LA STATISTICA Un secolo fa H.G. Wells affermava: “La statistica un giorno sarà necessaria come il saper leggere e scrivere”. Oggi il problema che i manager si trovano più spesso ad affrontare non è la mancanza di informazioni, ma semmai l’opposto, una sovrabbondanza di informazioni difficili da sintetizzare e interpretare; è pertanto necessario saper usare correttamente le informazioni a disposizione per prendere le decisioni migliori. È proprio a partire da questa prospettiva, ossia dalla prospettiva di un processo decisionale che si fondi sulle informazioni disponibili, che vogliamo prendere in considerazione la necessità per il manager di conoscere la statistica. I manager devono conoscere la statistica per i seguenti quattro motivi fondamentali: 1. Per sapere come presentare e descrivere in maniera appropriata le informazioni in loro possesso. 2. Per sapere come trarre conclusioni riferite a intere popolazioni sulla base delle informazioni che si ottengono da campioni. 3. Per sapere come migliorare i processi aziendali. 4. Per sapere come ottenere previsioni affidabili. Di seguito trovate una mappa per orientarvi nel libro sulla base della prospettiva tracciata da questi quattro motivi. Dalla piantina potete osservare che i primi tre capitoli riguardano i metodi di raccolta, la presentazione e la descrizione delle informazioni. Nel Capitolo 4 vengono introdotti i concetti di base del calcolo delle probabilità, la distribuzione binomiale, la distribuzione normale e altre distribuzioni di utilizzo comune, in modo tale che nei Capitoli 5-8 potrete imparare a trarre conclusioni riferite a intere popolazioni sulla base delle informazioni ottenute da campioni. I Capitoli 9-11 si concentrano su regressione lineare semplice, regressione multipla e analisi delle serie temporali, che sono metodi per ottenere previsioni affidabili. Il Capitolo 12 riguarda le applicazioni statistiche nella gestione della qualità e della produttività, essenziali per il miglioramento dei processi. I metodi statistici sono comunemente usati nelle diverse aree funzionali di un’azienda: dalla contabilità alla finanza, dalla produzione al marketing. Nell’ambito della contabilità i metodi statistici sono usati, ad esempio, per selezionare i campioni utilizzati per l’auditing e per individuare le determinanti principali dei costi (cost driver) nella contabilità industriale. L’area finanziaria usa i metodi statistici per scegliere tra portafogli alternativi e per tracciare i trend delle misure finanziarie nel tempo. L’area produzione usa i metodi statistici per migliorare le qualità dei beni prodotti o dei servizi forniti dall’azienda. L’area marketing usa i metodi statistici per stimare la proporzione di clienti che preferisce un prodotto a un altro e il motivo sotteso a tale preferenza, o per trarre delle conclusioni su quale strategia pubblicitaria risulta più efficace nell’aumentare le vendite di un prodotto. 2 CAPITOLO 1 INTRODUZIONE E RACCOLTA DEI DATI levine1_1-34 5-12-2001 12:02 Pagina 3 Trarre conclusioni su un’intera popolazione basandosi su informazioni campionarie Presentare e descrivere le informazioni Applicazioni statistiche nella gestione della qualità e della produttività (Capitolo 12) Introduzione e raccolta dei dati (Capitolo 1) Tabelle e grafici (Capitolo 2) Migliorare i processi aziendali Calcolo delle probabilità e distribuzioni di probabilità (Capitolo 4) Statistiche descrittive (Capitolo 3) Ottenere previsioni affidabili sulle variabili di interesse Il modello di regressione lineare semplice e la correlazione (Capitolo 9) Regressione multipla (Capitolo 10) Distribuzioni campionarie e stima (Capitolo 5) Analisi delle serie temporali (Capitolo 11) Verifica di ipotesi (Capitoli 6-8) Mappa del libro ◆ 1.2 LO SVILUPPO DELLA STATISTICA MODERNA Storicamente, lo sviluppo della statistica moderna si può attribuire a tre distinti fenomeni: la necessità da parte dei governi di raccogliere dati sui propri cittadini (vedete i riferimenti bibliografici 12, 19, 20, 24 e 25 a fine capitolo), lo sviluppo dell’uso della matematica nel calcolo delle probabilità e l’avvento del computer. I dati sono stati raccolti dai governi nel corso di tutta la storia umana documentata. Durante le civiltà egiziana, greca e romana, i dati erano raccolti principalmente per gli scopi della tassazione e della coscrizione militare. Nel Medio Evo, le istituzioni della Chiesa tenevano una documentazione delle nascite, delle morti e dei matrimoni. In America, durante il periodo coloniale, erano effettuate diverse registrazioni sistematiche (riferimento bibliografico 25) e, dal 1790, la Costituzione federale stabilì di istituire un censimento ogni dieci anni. Di fatto, le esigenze sempre maggiori poste dal censimento contribuirono a innescare lo sviluppo delle macchine tabulatrici all’inizio del ventesimo secolo. Questa conquista condusse alcuni decenni più tardi allo sviluppo dei mainframe, e infine del personal computer. Negli ultimi 30 anni, l’apporto della tecnologia informatica ha profondamente cambiato il campo della statistica. Programmi su mainframe come SAS e SPSS (riferimenti bibliografici 16, 18 e 23) hanno cominciato a diffondersi nel corso degli anni ’60 e ’70. Durante gli anni ’80, i programmi statistici hanno conosciuto una vera rivoluzione tecnologica. Accanto agli abituali miglioramenti compiuti in occasione degli aggiornamenti periodici, la disponibilità dei personal computer ha condotto alla elaborazione di nuovi programmi. Inoltre, in breve tempo sono state rese disponibili versioni per il personal computer dei programmi esistenti, come SAS, SPSS e Minitab (riferimenti bibliografici 16, 18 e 23), e l’uso crescente di fogli elettronici, come Lotus 1-2-3 e Microsoft Excel (riferimenti bibliografici 14 e 15), ha portato a incorporare in questi programmi dei componenti di analisi statistica. In questo libro analizzeremo spesso gli output ottenuti mediante l’uso di Microsoft Excel; inoltre, le appendici che seguono ogni capitolo contengono dettagliate spiegazioni su come usare Excel con riferimento agli argomenti trattati nel capitolo. LO SVILUPPO DELLA STATISTICA MODERNA 3 levine1_1-34 5-12-2001 12:02 Pagina 4 Sebbene i pacchetti statistici e i fogli elettronici abbiano reso fattibili anche le analisi più sofisticate, dobbiamo essere consapevoli dei problemi che possono sorgere quando utilizzatori che non hanno conoscenze approfondite di statistica (e non conoscono, quindi, le ipotesi alla base delle procedure statistiche oppure i loro limiti) sono fuorviati dai risultati ottenuti. Pertanto, crediamo sia importante che le applicazioni dei metodi presentati in questo libro vengano illustrate mediante esempi. ◆ 1.3 IL PENSIERO STATISTICO E IL MANAGEMENT MODERNO Nel corso degli ultimi dieci anni, l’emergere di una economia globale ha condotto a un’attenzione crescente per la qualità dei beni prodotti e dei servizi forniti. In effetti, è stato proprio il lavoro di uno statistico, W. Edwards Deming, a contribuire in modo fondamentale a questo cambiamento nell’ambito delle aziende. Una parte integrante dell’approccio manageriale che prevede un’attenzione crescente alla qualità (approccio cui ci si riferisce spesso come “gestione della qualità totale” o TQM, Total Quality Management) consiste nell’applicazione di alcuni metodi statistici e nell’uso del pensiero statistico da parte dei manager nell’azienda. Il pensiero statistico si può definire come un insieme di processi di pensiero che si focalizzano sui modi di capire, gestire e ridurre la variabilità. Il pensiero statistico include il riconoscimento che la variabilità è intrinseca ai dati (due cose o due persone non saranno mai esattamente le stesse sotto ogni aspetto), e che l’identificazione, la misurazione, il controllo e la riduzione della variabilità forniscono delle opportunità di miglioramento della qualità. I metodi statistici offrono uno strumento per trarre vantaggi da queste opportunità. Il ruolo dei metodi statistici nel miglioramento della qualità può essere meglio inteso se ci si riferisce al modello di miglioramento della qualità illustrato nella Figura 1.1. Osserviamo dalla Figura 1.1 che il modello si compone di tre parti: in cima abbiamo la filosofia di management, e ai due angoli inferiori del triangolo i metodi statistici e gli strumenti comportamentali. Ciascuno di questi tre aspetti è indispensabile per un miglioramento di lungo periodo della qualità dei beni prodotti o dei servizi erogati da una organizzazione. Una solida filosofia di management fornisce uno stabile fondamento agli sforzi di miglioramento della qualità. Tra i vari approcci, vi sono quelli sviluppati da W. Edwards Deming (riferimenti bibliografici 4 e 5 e paragrafo 12.2) e Joseph Juran (riferimenti bibliografici 10 e 11). Per implementare l’approccio che mira al miglioramento della qualità in una organizzazione, bisogna usare sia strumenti comportamentali che metodi statistici. Ciascuno di questi aiuta nel comprendere e migliorare i processi. Utili strumenti comportamentali sono il process flow (o analisi di processo) e i diagrammi a spina di pesce, il brainstorming, il nominal group decision making e il team building. Tra i più utili metodi statistici per il miglioramento della qualità vi sono le tabelle, i grafici e le statistiche descrittive introdotte nei Capitoli 2 e 3 e i diagrammi di controllo sviluppati nel Capitolo 12. ◆ 1.4 4 LA STATISTICA DESCRITTIVA E LA STATISTICA INFERENZIALE CAPITOLO 1 Il bisogno di dati sull’intera popolazione da parte dei governi nazionali si è intrecciato con lo sviluppo della statistica descrittiva. INTRODUZIONE E RACCOLTA DEI DATI levine1_1-34 5-12-2001 12:02 Pagina 5 FIGURA 1.1 Uno schema del processo di miglioramento della qualità. Filosofia di management Metodi statistici Strumenti comportamentali La statistica descrittiva si può definire come un complesso di metodi che comprendono la raccolta, la presentazione e la caratterizzazione di un insieme di dati con lo scopo di descriverne le varie caratteristiche in maniera appropriata. Sebbene i metodi della statistica descrittiva siano importanti per presentare e caratterizzare un insieme di dati (Capitoli 2 e 3), è stato lo sviluppo della statistica inferenziale, come prodotto del calcolo delle probabilità, a condurre a un’ampia applicazione della statistica in tutti gli attuali campi di ricerca. La spinta iniziale all’elaborazione della componente matematica della teoria delle probabilità derivò dallo studio dei giochi d’azzardo nel corso del Rinascimento. I fondamenti del concetto di probabilità si possono rintracciare, alla metà del diciassettesimo secolo, nella corrispondenza tra il matematico Pascal e il giocatore d’azzardo de Mere (riferimenti bibliografici 12 e 13). Questi e altri sviluppi, a opera di matematici come Bernoulli, DeMoivre e Gauss, posero le basi della statistica inferenziale. Fu solo agli inizi del ventesimo secolo che statistici come Pearson, Fisher, Gosset, Neyman, Wald e Tukey aprirono la strada allo sviluppo dei metodi di statistica inferenziale oggi così diffusamente applicati. La statistica inferenziale può essere definita come il complesso dei metodi che consentono di stimare una caratteristica di una popolazione, oppure di prendere una decisione che concerne l’intera popolazione, sulla base dei soli risultati campionari. Per chiarire questa definizione, alcune definizioni ulteriori si rendono necessarie. Una popolazione (o universo) è l’insieme degli elementi o delle “cose” che si prendono in considerazione. Un campione è la porzione della popolazione che si seleziona per l’analisi. Un parametro è una misura di sintesi che descrive una caratteristica dell’intera popolazione. Una statistica è una misura di sintesi che si calcola per descrivere una caratteristica soltanto sulla base di un campione della popolazione. LA STATISTICA DESCRITTIVA E LA STATISTICA INFERENZIALE 5 levine1_1-34 5-12-2001 12:02 Pagina 6 Supponete che il preside della vostra facoltà voglia condurre un sondaggio per conoscere le impressioni degli studenti sulla qualità della vita universitaria. La popolazione, o universo, in questo caso si compone di tutti gli studenti attualmente iscritti, mentre il campione consiste dei soli studenti selezionati per partecipare al sondaggio. Lo scopo del sondaggio è descrivere alcune caratteristiche dell’intera popolazione (i parametri). Questo viene fatto utilizzando le statistiche che si ottengono sulla base del campione di studenti per stimare le caratteristiche di interesse nella popolazione. Pertanto, uno degli aspetti principali della statistica inferenziale consiste nell’utilizzo delle statistiche campionarie per trarre delle conclusioni circa i parametri della popolazione. La necessità di ricorrere ai metodi della statistica inferenziale deriva dalla necessità del campionamento. Quando una popolazione è molto ampia, ottenere informazioni dall’intera popolazione diventa troppo costoso e complicato, e in certi casi può rivelarsi materialmente impossibile. Le valutazioni sulle caratteristiche della popolazione si devono dunque basare sulle informazioni contenute in un campione estratto dalla popolazione. La teoria della probabilità è l’anello di congiunzione, perché consente di determinare la probabilità che i risultati provenienti dal campione riflettano i risultati ottenibili dall’intera popolazione. ◆ 1.5 PERCHÉ ABBIAMO BISOGNO DEI DATI ? ◆ APPLICAZIONE: Sondaggio sulla soddisfazione dei clienti Good Tunes è un’azienda che si occupa della vendita per corrispondenza di impianti stereo di alta qualità attraverso il suo sito Internet. L’azienda sa che per avere successo è necessario che i suoi clienti siano convinti di ricevere un servizio eccezionale e prodotti di altissima qualità. Per capire quali siano le impressioni dei clienti, è incluso in ogni buono d’ordine un questionario sul grado si soddisfazione del cliente. Ai clienti si chiede di restituire il questionario nel più breve tempo possibile e la Good Tunes offre a coloro che lo restituiscono entro un mese dall’acquisto la possibilità di ottenere alcuni prodotti gratuitamente o con uno sconto. Parte del questionario è riprodotta di seguito. • • • Indicate il numero di giorni intercorsi tra quando avete ordinato i prodotti e quando li avete ricevuti. ____ Quanto prevedete di spendere in impianti stereo nei prossimi 12 mesi? (esprimete tale ammontare in dollari). ____ Come giudicate nel suo complesso il servizio fornito dalla Good Tunes per quanto attiene ai vostri acquisti recenti? □ □ □ • □ □ Peggio di quanto mi aspettassi Molto peggio di quanto mi aspettassi Come valutate la qualità degli impianti stereo della Good Tunes recentemente acquistati? □ □ □ • Molto meglio di quanto mi aspettassi Meglio di quanto mi aspettassi Come mi aspettavo Molto meglio di quanto mi aspettassi Meglio di quanto mi aspettassi Come mi aspettavo □ □ Peggio di quanto mi aspettassi Molto peggio di quanto mi aspettassi Prevedete di acquistare altri prodotti dalla Good Tunes nei prossimi 12 mesi? Sì ____ No ____ ◆ Ottenere informazioni appropriate è essenziale nel gestire un’azienda, e più in generale in qualunque attività, economica e non. Possiamo considerare i dati come le informazioni di 6 CAPITOLO 1 INTRODUZIONE E RACCOLTA DEI DATI levine1_1-34 5-12-2001 12:02 Pagina 7 cui abbiamo bisogno per prendere delle decisioni consapevoli in una situazione particolare. Molti sono i casi in cui si rende necessario raccogliere dati; ecco alcuni esempi. • • • • • • Un ricercatore di mercato deve valutare le caratteristiche di un prodotto per differenziarlo rispetto ai prodotti concorrenti. Un’azienda farmaceutica deve stabilire se un farmaco è più efficace di un altro. Un manager vuole monitorare un processo in modo sistematico per stabilire se la qualità del servizio fornito o del bene prodotto è conforme agli standard dell’azienda. Un revisore dei conti vuole riesaminare le transazioni finanziarie di una società per stabilire se sono conformi con i principi contabili generalmente accettati. Un potenziale investitore vuole stabilire quali aziende, all’interno di quali settori industriali, avranno probabilmente una crescita accelerata in un periodo di ripresa economica. Uno studente raccoglie dati sui gruppi rock preferiti dai suoi compagni per soddisfare la propria curiosità. Ci sono sei ragioni principali che spingono alla raccolta di dati, come illustrato nel Riquadro 1.1. Riquadro 1.1 Motivi che spingono alla raccolta di dati ✓ ✓ ✓ ✓ ✓ ✓ 1. I dati sono necessari per fornire l’input necessario a un sondaggio. 2. I dati sono necessari per fornire l'input necessario a una ricerca. 3. I dati sono necessario per misurare la performance nella prestazione di un servizio o in un processo produttivo. 4. I dati sono necessari per valutare la conformità agli standard. 5. I dati sono necessari per valutare azioni alternative in un processo decisionale. 6. I dati sono necessari per soddisfare la nostra curiosità. Il sondaggio sulla soddisfazione della clientela della Good Tunes illustra i motivi 1, 3, 4 e 5. Per esempio, la Good Tunes raccoglie i dati sulla base di un sondaggio. Poi analizza i dati per misurare la propria performance, valutare la conformità agli standard e formulare le azioni alternative che potrebbero essere richieste. È fondamentale iniziare la nostra analisi statistica identificando le fonti più appropriate per la raccolta dei dati. Se i dati sono viziati da distorsioni, ambiguità o altre fonti di errore, è probabile che anche le metodologie statistiche più elaborate e sofisticate non possano compensare tali carenze. ◆ 1.6 LE FONTI DEI DATI Quattro sono le principali fonti dei dati, come illustrato nel Riquadro 1.2. Coloro che si occupano direttamente della raccolta dei dati sono definiti fonti primarie; i compilatori dei dati raccolti da altri sono chiamati fonti secondarie. Come mostrato nel Riquadro 1.2, un primo modo per ottenere dei dati è ricorrere a dati già pubblicati da altre fonti, ossia dalle pubbliche amministrazioni, dalle associazioni di settore o da soggetti privati. Tra queste fonti, lo stato è il principale collettore e compilatore di dati, utili a scopi sia pubblici che privati. LE FONTI DEI DATI 7 levine1_1-34 5-12-2001 12:02 Pagina 8 Riquadro 1.2 Le principali fonti per la raccolta dei dati ✓ ✓ ✓ ✓ 1. Possiamo ottenere dei dati già pubblicati da altre fonti, pubbliche o private. 2. Possiamo ideare un esperimento per ottenere i dati necessari. 3. Possiamo condurre un sondaggio. 4. Possiamo compiere delle osservazioni attraverso uno studio sul campo Molti enti pubblici facilitano questo lavoro. Negli Stati Uniti, ad esempio, il Bureau of Labor Statistics è responsabile della raccolta dei dati sull’occupazione e del calcolo mensile dell’Indice dei Prezzi al Consumo. In aggiunta al compito, sancito dalla costituzione, di indire un censimento ogni dieci anni, il Bureau of the Census sovrintende a vari sondaggi periodici riguardanti la popolazione, le abitazioni e l'industria, e intraprende inoltre studi specialistici su argomenti quali il crimine, i viaggi e l'assistenza sanitaria. Numerose pubblicazioni di settore presentano dati attinenti a specifici ambiti di attività. Società di servizi finanziari, come Moody's, forniscono dati sulle singole aziende. Società di ricerche di mercato, come A.C. Nielsen, forniscono ai propri clienti informazioni che rendono possibile il confronto tra prodotti concorrenti. Anche i quotidiani sono pieni di informazioni quantitative: i prezzi delle azioni, le condizioni del tempo, le statistiche sportive... La terza fonte di raccolta dei dati è il sondaggio. Nel caso di un sondaggio, non viene esercitato alcun controllo sull’effettivo comportamento dei soggetti intervistati; vengono semplicemente poste loro delle domande relative alle loro opinioni, preferenze, attitudini, ai loro comportamenti o ad altre caratteristiche. Le risposte vengono quindi codificate e tabulate per l’analisi. La quarta fonte di raccolta dei dati è lo studio sul campo. In questo caso, un ricercatore osserva direttamente il comportamento studiato, in genere in un contesto naturale. La maggior parte delle conoscenze sul comportamento animale si ottiene in questa maniera; lo stesso vale per la nostra conoscenza in molti campi, come l'astronomia e la geologia, nei quali esperimenti e sondaggi sono poco pratici, se non impossibili. Lo studio sul campo ha forme diverse nell'azienda, tutte miranti alla raccolta di informazioni nell’ambito di una struttura di gruppo per sostenere il processo decisionale. Ad esempio, il focus group è un diffuso strumento di ricerca di mercato, che viene impiegato per stimolare risposte non strutturate a domande aperte. Un moderatore conduce la conversazione e ogni partecipante risponde alle domande poste. Altre forme più strutturate che utilizzano dinamiche di gruppo per ottenere delle informazioni (e per la costruzione del consenso nell’organizzazione) includono vari strumenti tipici della psicologia industriale e del comportamento organizzativo, come il brainstorming, la tecnica Delphi e il metodo nominal group (riferimento bibliografico 22). L’uso di questi strumenti è diventato più frequente negli anni recenti come conseguenza della diffusione della gestione della qualità totale (TQM), perché questa filosofia di management enfatizza l'importanza del lavoro di gruppo e del conferimento di responsabilità ai dipendenti con lo scopo di migliorare prodotti e servizi. COMMENTO: Le fonti dei dati e l'età della tecnologia Grazie alla diffusione delle tecnologie dell'informazione, abbiamo a disposizione una quantità senza precedenti di dati e informazioni, con una tempestività e un’accuratezza fino a pochi anni fa inimmaginabili. I codici a barre permettono di aggiornare automaticamente le informazioni sulle scorte di magazzino via via che i prodotti sono comprati nei supermercati, nei grandi magazzini e in altri punti vendita. I bancomat consentono di 8 CAPITOLO 1 INTRODUZIONE E RACCOLTA DEI DATI levine1_1-34 5-12-2001 12:02 Pagina 9 effettuare transazioni bancarie registrando immediatamente le relative informazioni nel saldo dei rispettivi conti bancari. Le biglietterie aeree e le agenzie di viaggio conoscono minuto per minuto la disponibilità nei voli e negli alberghi. Transazioni che dieci anni fa richiedevano ore o perfino giorni ora sono compiute in pochi secondi. L'espressione “fare ricerche in biblioteca” è venuta assumendo un nuovo significato. Non c'è più bisogno di limitarsi all'uso di mezzi di informazione su carta, come libri, periodici, riviste, opuscoli e giornali. Con l'uso di sistemi di informazione computerizzati, possiamo reperire i dati elettronicamente consultando banche dati su CD-ROM, navigando in Internet o scambiando e-mail con altri utilizzatori di Internet. Con la frase “andare in biblioteca” ora ci riferiamo anche alle visite a biblioteche elettroniche, da casa nostra, dall’università o dall'ufficio, attraverso l'uso di un personal computer attrezzato in maniera adeguata. Per disegnare un esperimento, condurre un sondaggio o porre in atto uno studio sul campo, è necessario saper distinguere i vari tipi di dati e i diversi possibili livelli di misurazione dei valori. Per trattare dei problemi che possono sorgere nella ricerca dei dati, faremo riferimento al contesto di un sondaggio, sebbene la maggior parte di questi problemi si incontrino anche in altri tipi di ricerca. ◆ 1.7 TIPI DI DATI Gli statistici conducono sondaggi per analizzare una varietà di fenomeni o caratteristiche. Tali fenomeni o caratteristiche si chiamano variabili casuali. I dati, che sono i risultati osservati di queste variabili casuali, differiranno senza dubbio da risposta a risposta. Come illustrato dalla Figura 1.2, ci sono due tipi di variabili casuali che danno luogo ai risultati osservati o dati: le variabili qualitative e le variabili quantitative. Le variabili casuali qualitative, come suggerito dal loro nome, danno luogo a risposte qualitative, non numeriche, come sì o no, maschio o femmina, cattolico, protestante o islamico. Un esempio è dato dalla risposta alla domanda: “Possedete attualmente titoli di stato?”, perché si può solo rispondere di sì o di no. Un altro esempio è la risposta alla domanda del questionario della Good Tunes: “Prevedete di acquistare altri prodotti dalla Good Tunes nei prossimi 12 mesi?”. Le variabili casuali quantitative danno luogo a risposte quantitative, ossia all’indicazione di grandezze numeriche, come l'altezza in centimetri in risposta alla domanda “Quanto siete alti?”. Altri esempi sono “Quanto prevedete di spendere in impianti stereo nei prossimi 12 mesi?”, dal questionario della Good Tunes, oppure: “A quante riviste siete abbonati attualmente?”. Tipo di dati Tipo di domande Possedete attualmente titoli di stato? Qualitativi Risposte Sì No Discreti A quante riviste siete abbonati attualmente? numero Continui Quanto siete alti? centimetri Quantitativi FIGURA 1.2 Tipi di dati TIPI DI DATI 9 levine1_1-34 5-12-2001 12:02 Pagina 10 Ci sono due tipi di variabili quantitative: le variabili discrete e le variabili continue. Le variabili casuali discrete producono risposte numeriche che derivano da un processo di conteggio. “Il numero delle riviste cui si è abbonati” è un esempio di variabile quantitativa discreta, perché la risposta è un numero intero. Ci si può abbonare solo a una, due, o comunque a un numero intero di riviste. Le variabili casuali continue generano risposte che derivano da un processo di misurazione. La vostra altezza è un esempio di variabile quantitativa continua, perché la risposta può assumere un qualunque valore nel continuo, a seconda della precisione dello strumento di misurazione. Per esempio, la vostra altezza può essere 171 cm, o 170.8 cm o 170.79 cm o 170.792 cm, a seconda della precisione degli strumenti a disposizione. Teoricamente due persone non potrebbero avere esattamente la stessa altezza, perché quanto più è preciso l'apparato di misurazione, tanto più grande è la probabilità di cogliere le differenze tra di loro. Comunque, la maggior parte degli apparecchi di misurazione non è così sofisticata da percepire le più piccole differenze. Pertanto, osservazioni ripetute sono spesso rilevate in dati provenienti da esperimenti o sondaggi, anche se la variabile osservata in realtà è continua. Esercizi del paragrafo 1.7 1.1 1.2 1.3 1.4 1.5 1.6 10 CAPITOLO 1 Supponete che in un fast-food siano venduti tre diversi tipi di bevande: bibite, tè e caffè. Spiegate perché il tipo di bevanda venduta è un esempio di variabile qualitativa. Supponete che le bibite siano vendute in tre dimensioni diverse: piccola, media e grande. Spiegate perché la dimensione della bibita è anch’essa, in questo caso, una variabile qualitativa. Supponete di voler misurare il tempo di volo di un aeroplano da New York a Los Angeles dal decollo all'atterraggio. Spiegate perché il tempo di volo di un aeroplano è una variabile quantitativa. Per ognuna delle seguenti variabili, dite se sono qualitative o quantitative. Se la variabile è quantitativa dite se il fenomeno di interesse è discreto o continuo. (g) Possesso di un telefono cellulare. (a) Numero di telefoni per famiglia. (h) Numero di telefonate locali fatte (b) Tipo di telefono usato principalmente. ogni mese. (c) Numero di telefonate interurbane (i) Durata (in minuti) della telefonata fatte al mese. locale più lunga fatta ogni mese. (d) Durata (in minuti) dell’interurbana (j) Esistenza di una linea telefonica più lunga fatta ogni mese. collegata a un modem. (e) Colore del telefono usato (k) Esistenza di una linea telefonica principalmente. collegata a un fax. (f) Costo mensile (in lire) delle telefonate interurbane fatte. Supponete che le seguenti informazioni siano ottenute da studenti intervistati all'uscita della libreria dell’università nel corso della prima settimana di lezione: (f) Possesso di un personal computer. (a) Ammontare speso per libri. (g) Possesso di un videoregistratore. (b) Numero di libri di testo acquistati. (h) Numero di corsi seguiti nel semestre (c) Tempo dedicato agli acquisti. attuale. (d) Corso di laurea seguito. (i) Mezzo di pagamento. (e) Sesso. Stabilite per ciascuna di queste variabili se è qualitativa o quantitativa. Se la variabile è quantitativa, dite se è discreta o continua. Per ciascuna delle seguenti variabili, dite se è qualitativa o quantitativa. Se la variabile è quantitativa dite se il fenomeno di interesse è discreto o continuo. INTRODUZIONE E RACCOLTA DEI DATI levine1_1-34 5-12-2001 12:02 Pagina 11 1.7 1.8 1.9 (e) Numero di componenti della famiglia (a) Marca del proprio personal computer. che usano il personal computer. (b) Costo del personal computer. (f) Numero di riviste cui si è abbonati. (c) Tempo dedicato all’uso del personal (g) Programma di videoscrittura computer ogni settimana. che si utilizza principalmente. (d) Utilizzo principale del personal (h) Esistenza di un collegamento a Internet. computer. Per ciascuna delle seguenti variabili, dite se è qualitativa o quantitativa. Se la variabile è quantitativa, dite se il fenomeno di interesse è discreto o continuo. più alta hanno luogo gli acquisti (a) Ammontare di denaro speso di vestiti (giorni della settimana, per l’abbigliamento lo scorso mese. sere della settimane o fine settimana). (b) Numero di giacche invernali possedute. (f) Numero di guanti posseduti. (c) Grande magazzino preferito. (g) Tipo di mezzo di trasporto usato (d) Tempo dedicato a fare spese principalmente quando si fanno per abbigliamento lo scorso mese. acquisti di vestiti. (e) Periodo di tempo in cui con probabilità Supponete che le seguenti informazioni su Robert Keeler siano state ottenute dalla sua banca a seguito della richiesta di un mutuo per la casa: (i) Altri redditi: 16 000 dollari (a) Domicilio: Stony Brook, New York (b) Tipo di abitazione: casa monofamiliare (j) Stato civile: coniugato (k) Numero di figli: 2 (c) Data di nascita: 9 aprile 1962 (l) Ipoteca richiesta: 120 000 dollari (d) Occupazione: giornalista, scrittore (m) Durata dell’ipoteca: 30 anni (e) Datore di lavoro: un quotidiano (n) Motivo della richiesta di altri prestiti: (f) Anni di lavoro: 14 acquisto di un’automobile (g) Numero di impieghi negli ultimi 10 (o) Ammontare degli altri prestiti: anni: 1 8000 dollari (h) Reddito annuo da lavoro dipendente: 66 000 dollari Per ciascuna delle risposte, stabilite di che tipo di dato si tratta. Una delle variabili che spesso è inclusa nei sondaggi è il reddito. Talvolta la domanda viene posta nella forma: “Qual è il vostro reddito (in migliaia di euro)?”. Altre volte si dice agli intervistati qualcosa di simile: “Ponete una X nel cerchio corrispondente al livello del vostro reddito. Sotto i 40 000 euro 40 000-80 000 80 000 e oltre (a) Spiegate perché nel primo tipo di domanda il reddito può essere considerato sia una variabile continua che una discreta. (b) A quale dei due tipi di domanda ricorrereste se foste voi a organizzare il sondaggio? Perché? (c) Quale dei due tipi di domanda vi porterebbe probabilmente un numero maggiore di risposte (un tasso più alto di risposta)? Perché? 1.10 Se due studenti ottengono 27 a uno stesso esame, quali argomentazioni si potrebbero usare per mostrare che la variabile sottostante (voto ottenuto) è continua? 1.11 Supponete che il direttore delle ricerche di mercato di una catena di grandi magazzini voglia condurre un sondaggio nell’area metropolitana per stabilire quanto tempo le donne che lavorano dedicano all’acquisto di vestiti in un mese rappresentativo. (a) Descrivete sia la popolazione che il campione di interesse, e indicate il tipo di dati che il direttore potrebbe voler raccogliere. (b) Fate una bozza del questionario formulando tre domande qualitative e tre domande quantitative che voi ritenete appropriate per questo sondaggio. ◆ 1.8 TIPI DI METODI DI CAMPIONAMENTO Come abbiamo visto nel paragrafo 1.4, il campione è la parte di una popolazione che si seleziona per l’analisi. Piuttosto che ricorrere ad un censimento completo dell’intera popolazione, le procedure di campionamento statistico si concentrano su un piccolo gruppo, rap- TIPI DI METODI DI CAMPIONAMENTO 11 levine1_1-34 5-12-2001 12:02 Pagina 12 presentativo della popolazione. Il campione che ne risulta fornisce le informazioni che possono essere utilizzate per stimare le caratteristiche della popolazione nel suo insieme. Il campionamento ha inizio con l’individuazione delle fonti appropriate dei dati, ad esempio registri dell’anagrafe, elenchi telefonici, carte topografiche o altre fonti, che vengono genericamente chiamate liste. I campioni sono estratti dalle liste. Se la lista è inadeguata, alcuni gruppi di individui o oggetti della popolazione non sono inclusi in maniera appropriata e i campioni risultano non accurati o distorti. L’uso di liste diverse per la generazione dei dati può dare luogo a conclusioni opposte, come illustrato nell’esempio 1.1. Esempio 1.1 Un caso di conclusioni opposte Consideriamo il seguente titolo apparso su un giornale di New York alcuni anni fa: “Suffolk è più popolata di Nassau? LILCO e il Census Bureau non sono d’accordo” (Newsday, 25 aprile 1988). L’articolo si riferiva alla controversia tra le due contee di Suffolk e Nassau, l’amministrazione di ciascuna delle quali sosteneva di avere un numero di abitanti superiore all’altra, basandosi sui risultati di differenti indagini campionarie. S OLUZIONE Le differenze tra le due stime derivano dal fatto che il Census Bureau e la compagnia elettrica di Long Island (LILCO) avevano usato liste e tecniche differenti per la stima della popolazione nelle due contee di Suffolk e di Nassau. Il Census Bureau aveva usato i tassi di nascita e morte, i flussi migratori (derivati dalle dichiarazioni dei redditi) e una formula usata in demografia che tiene conto del fatto che il numero medio di componenti delle famiglie si è andato riducendo negli ultimi anni. L’azienda elettrica, invece, aveva usato le letture annuali dei contatori elettrici e del gas, le licenze di costruzione e un apposito fattore per stimare il numero di persone per ogni abitazione. Ci sono tre motivi principali per utilizzare un campione, come mostra il Riquadro 1.3 Riquadro 1.3 I motivi per utilizzare un campione ✓ ✓ ✓ 1. L’estrazione di un campione richiede meno tempo di un censimento. 2. Un campione è meno costoso di un censimento. 3. Un campione è più pratico da gestire di un censimento della popolazione considerata. Come mostrato dalla Figura 1.3, ci sono fondamentalmente due tipi di campioni: i campioni non probabilistici e i campioni probabilistici. Un campione non probabilistico è un campione in cui gli oggetti o gli individui sono inclusi senza tenere conto della loro probabilità di manifestarsi. Siccome nei campioni non probabilistici i partecipanti sono scelti senza conoscere la loro probabilità di selezione (e in alcuni casi si sono autoselezionati), la teoria sviluppata per il campionamento probabilistico non può essere applicata. Molte aziende conducono sondaggi dando ai visitatori del loro sito Web la possibilità di compilare dei formulari e di inviarli elettronicamente. Le risposte a questi sondaggi possono fornire molti dati in modo tempestivo, ma il campione si compone di utilizzatori di Internet che si autoselezionano. Per molti studi sono disponibili solo campioni non probabilistici, come quelli a scelta ragionata. In 12 CAPITOLO 1 INTRODUZIONE E RACCOLTA DEI DATI levine1_1-34 5-12-2001 12:02 Pagina 13 questi casi, l’opinione di un esperto dell’argomento diventa cruciale se si vogliono usare i risultati ottenuti per introdurre dei cambiamenti in un processo. Altri tipi di campionamento non probabilistico sono il campionamento per quote e il campionamento chunk: queste modalità di campionamento sono discusse in dettaglio in testi specialistici che trattano i metodi di campionamento (riferimenti bibliografici 1, 3 e 9). I campioni non probabilistici possono avere alcuni vantaggi, come la comodità, la velocità di estrazione, e anche costi più bassi. Dall’altro lato, i due svantaggi fondamentali (mancanza di accuratezza per la selezione distorta e impossibilità di generalizzarne i risultati) in genere più che compensano i vantaggi. Pertanto, dovremmo restringere il nostro uso di campioni non probabilistici alle situazioni in cui vogliamo ottenere delle approssimazioni grezze a basso costo per soddisfare la nostra curiosità circa il particolare argomento in esame oppure a piccoli studi iniziali o pilota, che saranno successivamente seguiti da indagini più rigorose. Il campionamento probabilistico dovrebbe essere usato ogni qual volta sia possibile, perché è il solo metodo che consente di ottenere inferenze corrette sulla base di un campione. Un campione probabilistico è un campione in cui i soggetti sono scelti sulla base delle probabilità note. I quattro tipi di campionamento probabilistico maggiormente usati sono il campionamento casuale semplice, il campionamento sistematico, il campionamento stratificato e il campionamento a grappolo. Questi tipi di campionamento differiscono per il costo, l’accuratezza e la complessità. Segue una discussione di ciascuno di essi. Campionamento casuale semplice Nel campionamento casuale semplice si estrae un campione in cui ogni individuo o oggetto della popolazione ha la stessa probabilità di essere selezionato. Inoltre, campioni della medesima dimensione hanno tutti la stessa probabilità di essere selezionati. Il campionamento casuale semplice è la più semplice tecnica di selezione del campione. Nel campionamento casuale semplice useremo n per indicare la dimensione del campione e N per indicare la dimensione della popolazione. Ogni oggetto o persona della lista è numerato da 1 a N. La probabilità che un elemento della popolazione ha di essere selezionato alla prima estrazione è 1/N. Ci sono due metodi fondamentali per la selezione del campione: con reimmissione e senza reimmissione. Tipi di campionamento usati Campioni non probabilistici Campione a scelta ragionata Campione per quote Campione chunk Campioni probabilistici Campione Campione Campione Campione casuale sistematico stratificato a grappolo semplice FIGURA 1.3 Tipi di campionamento TIPI DI METODI DI CAMPIONAMENTO 13 levine1_1-34 5-12-2001 12:02 Pagina 14 Nel campionamento con reimmissione una persona o un oggetto, una volta selezionati, vengono rimessi nella lista, da cui hanno la stessa probabilità di essere selezionati di nuovo. Consideriamo per esempio un’urna con 100 biglietti da visita. Supponiamo che alla prima selezione venga scelto il nome Giulia Bianchi. Le informazioni pertinenti sono registrate e il biglietto da visita è rimesso nell’urna. I biglietti nell’urna vengono mescolati e viene estratto un secondo biglietto. Alla seconda estrazione Giulia Bianchi ha la stessa probabilità di essere estratta, 1/N. Il processo viene ripetuto fino a quando si ottiene il campione desiderato di ampiezza n. Comunque, in genere si preferisce avere un campione di persone o oggetti diversi piuttosto che compiere misure ripetute su una stessa persona o uno stesso oggetto. Nel campionamento senza reimmissione una persona o un oggetto, una volta selezionati, non sono rimessi nella lista e pertanto non possono essere scelti di nuovo. Come prima, nel campionamento senza reimmissione la probabilità che un qualunque elemento della popolazione, ad esempio Giulia Bianchi, venga selezionato alla prima estrazione è 1/N. La probabilità che un qualunque altro individuo, non selezionato precedentemente, sia selezionato alla seconda estrazione è ora 1/N – 1. Il processo continua sino a quando non si ottiene il campione desiderato di ampiezza n. Indipendentemente dal fatto che campioniamo con o senza reimmissione, questi metodi di estrazione del campione, che seguono lo schema di estrazione da un’urna, hanno un inconveniente fondamentale: dipendono dalla nostra capacità di “mescolare da cima a fondo i biglietti da visita” e di estrarre casualmente un campione. Come conseguenza, questi metodi non sono molto utili. Sono in genere preferibili dei metodi meno complessi e più scientifici. Uno di questi metodi impiega la tavola dei numeri casuali (vedi Tavola E.1 dell’Appendice E) per ottenere un campione. Una tavola di numeri casuali si compone di una serie di cifre generate casualmente e elencate nell’ordine secondo cui sono state generate (riferimenti bibliografici 9 e 21). Poiché il nostro sistema numerico si compone di 10 cifre (0, 1,…, 9), queste hanno tutte la stessa probabilità, pari a 1/10, di essere generate casualmente. Pertanto, se generiamo una successione di 800 cifre, ci aspettiamo che 80 siano uguali a 0, 80 uguali a 1 e così via. In effetti i ricercatori che impiegano la tavola dei numeri casuali sottopongono a verifica l’ipotesi di casualità dei numeri generati, prima di usarli. La Tavola E.1 soddisfa le condizioni di casualità. Poiché tutte le cifre o successioni di cifre nella tavola sono casuali, possiamo usare la tavola leggendola sia in senso orizzontale che verticale. Sui margini della tavola sono riportati i numeri di riga e di colonna. Le cifre stesse sono riunite in gruppi di 5 per facilitare la lettura della tavola. Per usare questa tavola nella selezione del campione, è necessario in primo luogo assegnare un codice numerico a ogni elemento della popolazione. Possiamo ottenere un campione leggendo la tavola dei numeri casuali e selezionando quegli elementi della popolazione il cui codice coincide con le cifre trovate nella tavola. Per capire meglio il procedimento di selezione del campione ora illustrato, consideriamo l’esempio 1.2 Esempio 1.2 Selezionare un campione casuale con l’uso della tavola dei numeri casuali Supponete che una società voglia selezionare un campione di 32 unità da una popolazione di 800 impiegati a tempo pieno per ottenere delle informazioni in relazione a un progetto promosso dall’azienda. Ci aspettiamo che non tutti vorranno rispondere al questionario, quindi pensiamo di contattare più di 32 persone per riuscire a ottenere le 32 risposte desiderate. Se supponiamo che 8 impiegati a tempo pieno su 10 risponderanno al questionario (il che equivale a supporre un tasso di risposta pari all’80%), stabiliamo di contattare un totale di 40 impiegati per ottenere le 32 risposte. Pertanto, il nostro questionario deve essere 14 CAPITOLO 1 INTRODUZIONE E RACCOLTA DEI DATI levine1_1-34 5-12-2001 12:02 Pagina 15 distribuito a 40 impiegati a tempo pieno scelti dagli schedari del personale dell’azienda. Come scegliamo gli impiegati a cui somministrare il questionario? S OLUZIONE Per selezionare il campione casuale, usiamo la tavola dei numeri casuali. La lista della popolazione è costituita dall’elenco dei nomi e dei numeri delle caselle della posta aziendali degli N = 800 impiegati a tempo pieno ottenuti dagli schedari del personale dell’azienda. Dal momento che la dimensione della popolazione (800) è un numero di tre cifre, ciascun codice da assegnare deve essere composto da tre cifre, di modo che tutti gli impiegati abbiano la stessa probabilità di essere selezionati. Pertanto, al primo impiegato è assegnato il codice 001, al secondo il codice 002, e così via fino al codice 800 che è assegnato all’Nesimo impiegato a tempo pieno. Poiché 800 è il più grande codice possibile, tutte le successioni di codici più grandi di N (da 801 a 999, oltre a 000) sono scartate. Per selezionare il campione casuale semplice, viene scelto a caso un punto di partenza nella tavola dei numeri casuali. Un metodo può essere quello di chiudere gli occhi e colpire la tavola con una matita. Usiamo quindi questo metodo e scegliamo come punto di partenza la riga 06 e la colonna 05 della Tabella 1.1 (che è una copia della Tavola E.1). Sebbene possiamo andare in ogni direzione nella tavola, decidiamo di leggere da sinistra verso destra le sequenze di tre cifre senza saltarne nessuna. La persona con codice 003 è il primo impiegato a tempo pieno del campione (riga 06 e colonne 05-07), la seconda persona ha codice 364 (riga 06 e colonne 08-10) e la terza persona ha codice 884. Dal momento che il codice più grande è 800, questo numero viene scartato. Le persone con i codici 720, 433, 463, 363, 109, 592, 470 e 705 sono scelte come elementi rispettivamente dal terzo al decimo del campione. Il processo di selezione continua in maniera analoga fino a quando si ottiene il campione di 40 impiegati a tempo pieno. Durante il processo di selezione, se un codice di tre cifre si ripete, l’impiegato corrispondente è incluso di nuovo nel campione se campioniamo con reimmissione, è scartato se campioniamo senza reimmissione. ◆ Campionamento sistematico Nel campionamento sistematico gli N individui o oggetti della lista della popolazione sono ripartiti in k gruppi dividendo la dimensione N della popolazione per la dimensione desiderata del campione, vale a dire: k N n dove k è arrotondato all’intero più vicino. Per ottenere un campione sistematico, il primo individuo o oggetto è scelto casualmente tra i k individui o oggetti nel primo dei gruppi in cui si è suddivisa la lista della popolazione e il resto del campione si ottiene scegliendo da quel punto in poi ogni k-esimo elemento successivo dell’intera lista della popolazione. Se la lista della popolazione è una lista di assegni numerati, di ricevute di acquisti o di fatture, o se è una lista dei membri di un club, un elenco di matricole di studenti o un numero prestabilito di oggetti provenienti da una catena di montaggio, il campione sistematico si ottiene più facilmente e velocemente di un campione casuale semplice. In questi casi il campionamento sistematico è un meccanismo conveniente per ottenere i dati desiderati. Sebbene più facili da usare, il campionamento casuale e il campionamento sistematico sono in genere meno efficienti di altri schemi di campionamento più sofisticati. Vale a dire, per ogni campione ottenuto sia da un campionamento semplice sia da un campionamento sistematico, i dati raccolti potrebbero dare una rappresentazione non buona delle caratteristiche sottostanti della popolazione (i parametri). Sebbene la maggior parte dei campioni casuali semplici siano rappresentativi della popolazione sottostante, non è possibile stabilire se il particolare campione estratto lo sia effettivamente. TIPI DI METODI DI CAMPIONAMENTO 15 levine1_1-34 5-12-2001 12:02 Pagina 16 Tabella 1.1 Uso della tavola dei numeri casuali 81163 98083 78496 56095 71865 63919 55980 34101 22380 23298 55790 08401 11865 83832 63491 06546 78305 46427 68479 80336 42050 57600 96644 17381 51690 : 07275 97349 97653 20664 79488 36394 64688 81277 16703 56203 69229 26299 63397 32768 04233 83246 55058 56788 27686 94598 82341 40881 89439 68856 54607 : 89863 20775 91550 12872 76783 11095 68239 66090 53362 92671 28661 49420 44251 18928 33825 47651 52551 96297 46162 26940 44104 12250 28707 25853 72407 : 02348 45091 08078 64647 31708 92470 20461 88872 44940 15925 13675 59208 43189 57070 69662 04877 47182 78822 83554 36858 82949 73742 25815 35041 55538 : … 00283 08612 86129 84598 85507 04334 10072 95945 50785 96593 19436 54324 32596 75912 92827 81718 82455 68514 14523 20048 33340 26575 74697 57143 16090 : … 35779 07468 25078 30454 51438 88472 10087 00796 67140 14130 84731 40355 93247 78643 70654 31888 15130 14225 91499 37089 53140 32979 12860 30592 63308 : COLONNA 33333 33334 12345 67890 … 22223 67890 … 88924 41657 65923 93912 58555 03364 29776 93809 72142 22834 66158 71938 24586 23997 53251 73751 26926 20505 74598 89923 34135 47954 02340 50775 48357 : 22222 12345 … 49280 61870 43898 62993 33850 97340 70543 89382 37818 60430 82975 39087 55700 14756 32166 23236 45794 09893 54382 94750 70297 85157 11100 36871 23913 : 11112 67890 … 11111 12345 … … Inizio della selezione (riga 06 colonna 05) 01 02 03 04 05 06 07 08 09 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 00001 67890 … RIGA 00000 12345 Fonte: Parzialmente estratta da The Rand Corporation, A Million Random Digits with 100 000 Normal Deviates (Glencoe, IL: The Free Press. 1955), riprodotta nella Tavola E.1 nell’Appendice E in fondo al libro. La possibilità di incorrere in una selezione distorta o nella mancanza di rappresentatività è anche maggiore nel caso di campioni sistematici. In presenza di una struttura nella lista della popolazione, si va incontro a distorsioni nella selezione. Per superare il problema di una rappresentazione non proporzionata nel campione di specifici gruppi, possiamo ricorrere sia al campionamento stratificato sia al campionamento a grappolo. ◆ Campionamento stratificato In un campionamento stratificato, gli N individui o oggetti della popolazione sono suddivisi in distinte sottopopolazioni, o strati, sulla base di una caratteristica comune. Si conduce un campionamento casuale semplice in ogni strato e i risultati dei singoli campionamenti sono poi messi assieme. Questo metodo di campionamento è più efficiente sia del campionamento casuale semplice che del campionamento sistematico, perché assicura che gli individui o oggetti della popolazione siano rappresentati adeguatamente nel campione, e questo garantisce una maggiore precisione delle stime dei parametri sottostanti alla popolazione. È l’omogeneità degli individui o oggetti all’interno di ogni strato che, quando combinata attraverso gli strati, fornisce la precisione. 16 CAPITOLO 1 INTRODUZIONE E RACCOLTA DEI DATI levine1_1-34 5-12-2001 12:02 Pagina 17 ◆ Campionamento a grappolo Nel campionamento a grappolo, gli N individui o oggetti nella popolazione sono suddivisi in molti gruppi, detti grappoli (sottopopolazioni), in maniera tale che ogni grappolo sia rappresentativo dell’intera popolazione. Si estrae poi un campione casuale di grappoli e tutti gli individui o oggetti di ciascuno dei grappoli selezionati sono inclusi nel campione. I grappoli possono essere definiti sulla base di raggruppamenti naturali, come quelli determinati dalle regioni, dalle città, dalle circoscrizioni elettorali, dai quartieri urbani, dagli edifici o dalle famiglie. Il campionamento a grappolo può essere meno costoso del campionamento casuale semplice, soprattutto quando la popolazione sottostante è disseminata su una vasta area geografica. Comunque, il campionamento a grappolo tende a essere meno efficiente sia del campionamento casuale semplice che del campionamento stratificato, e si rende necessaria una dimensione complessiva del campione più grande per ottenere risultati precisi come quelli che si ottengono da procedure più efficienti. Una discussione dettagliata dei metodi del campionamento sistematico, del campionamento stratificato e del campionamento a grappolo si può ritrovare nei riferimenti bibliografici 3 e 9. Esercizi del paragrafo 1.8 1.12 Per una popolazione di N = 902 individui, quale codice numerico assegnereste a 1.13 1.14 1.15 1.16 1.17 1.18 (a) la prima persona della lista; (b) la 40-esima persona della lista; (c) l’ultima persona della lista? Per una popolazione di N = 902, verificate che partendo dalla linea 05 della tavola dei numeri casuali (Tavola E.1) sono necessarie solo sei righe per estrarre un campione di ampiezza n = 60 senza reimmissione. Data una popolazione di N = 93, partendo dalla linea 29 della tavola dei numeri casuali (Tavola E.1) e leggendo per riga, estraete un campione di ampiezza n = 15 (a) senza reimmissione; (b) con reimmissione. Spiegate perché in uno studio basato sulle interviste personali dei partecipanti (piuttosto che in un sondaggio per corrispondenza o per telefono) un campionamento casuale semplice potrebbe essere meno efficiente di altri metodi. Immaginate di estrarre un campione di ampiezza 1 da una popolazione di tre oggetti (che possiamo indicare con A, B e C). La regola di campionamento è: si lancia una moneta; se esce testa si estrae A, se esce croce si lancia la moneta di nuovo; se esce testa si sceglie B, se esce croce si sceglie C. Spiegate perché il campione estratto in questa maniera è casuale ma non semplice. Supponete che una popolazione si componga di quattro elementi (A, B, C e D). Vogliamo estrarre un campione casuale di dimensione 2 nel modo seguente: lanciamo una moneta; se esce testa il campione è A B, se esce croce il campione è C D. Il campione così selezionato, sebbene casuale, non è un campione casuale semplice. Dite perché. (Se avete fatto l’esercizio 1.16 confrontate la procedura di campionamento lì descritta con quella descritta in questo esercizio.) Supponete che la segreteria di un’università con N = 4000 studenti sia incaricata dal rettore di fare un sondaggio per valutare il grado di soddisfazione per la qualità di vita nel campus. Considerate la seguente tabella, in cui gli studenti sono ripartiti in base al sesso e al corso di laurea seguito: SESSO Femmine Maschi Totale GIURISPRUDENZA 700 1,560 1,260 NOME DEL CORSO ECONOMIA MEDICINA LETTERE 520 460 980 TIPI 500 400 900 TOTALE 480 380 860 DI METODI DI CAMPIONAMENTO 2,200 1,800 4,000 17 levine1_1-34 5-12-2001 12:02 Pagina 18 La segreteria vuole estrarre un campione casuale di ampiezza n = 200 studenti e generalizzare i risultati ottenuti all’intera popolazione degli studenti. (a) Se la lista della popolazione che si ottiene in base ai registri della segreteria è un elenco in ordine alfabetico degli N = 4000 studenti iscritti, che tipo di campione si può estrarre? Commentate. (b) Quale potrebbe essere il vantaggio di selezionare un campione casuale semplice in (a)? (c) Quale potrebbe essere il vantaggio di selezionare un campione sistematico in (a)? (d) Se la lista della popolazione è un elenco dei nomi degli N = 4000 studenti iscritti divisi in 8 liste separate a seconda del sesso e del corso seguito, come dalla tabella precedente, quale tipo di campione scegliereste? Commentate. (e) Supponete che gli N = 4000 studenti vivano in 20 pensionati universitari. Ciascun pensionato ha 4 piani con 50 letti per piano, pertanto ospita 200 studenti. In ciascun pensionato, si attua una politica di integrazione degli studenti per sesso e per corso seguito, in ciascun piano. Se la segreteria potesse compilare una lista della popolazione elencando gli studenti per ciascun pensionato in base al piano in cui dormono, che tipo di campione dovrebbe essere scelto? Commentate. 1.19 Un libro contabile contiene le fatture relative alle vendite effettuate da un’azienda. Le fatture sono numerate da 0001 a 5000. (a) Iniziando dall’elemento individuato dalla riga 16 e dalla colonna 1 e procedendo in senso orizzontale nella Tavola E.1, selezionate un campione semplice di 50 numeri di fatture. (b) Selezionate un campione sistematico di 20 numeri di fatture. Usate i numeri casuali della riga 20 e colonne 5-7 come punto di partenza della selezione. (c) Le fatture selezionate in (a) sono uguali a quelle selezionate in (b)? 1.20 Suppone che 5000 fatture vengano ripartite in quattro strati. Lo strato 1 contiene 50 fatture, lo strato 2 contiene 500 fatture, lo strato 3 contiene 1000 fatture e lo strato 4 3450 fatture. Sono selezionate tutte le fatture dello strato 1 e 50 fatture da ogni altro strato. (a) Che tipo di campionamento viene effettuato? Perché? (b) Spiegate come condurreste il campionamento sulla base del metodo descritto in (a). (c) Perché il campionamento in (a) non è un campionamento casuale semplice? ◆ 1.9 18 VALUTARE L’ADEGUATEZZA CAPITOLO 1 DELLE INDAGINI CAMPIONARIE Quasi ogni giorno leggiamo o ascoltiamo i risultati di un’inchiesta o di un sondaggio di opinione sui giornali, in Internet, alla radio o alla televisione. Indubbiamente, gli sviluppi della tecnologia dell’informazione hanno condotto a una proliferazione di ricerche basate su sondaggi. Non tutte queste ricerche, tuttavia, sono valide, significative o importanti (riferimento bibliografico 2). Per evitare di essere fuorviati da sondaggi che mancano di oggettività o credibilità, dobbiamo valutare criticamente cosa leggiamo o sentiamo esaminando l’adeguatezza del sondaggio. In primo luogo, dobbiamo considerare lo scopo dell’indagine: perché è stato condotta e con quale intento. Un sondaggio di opinione o un’inchiesta condotta per soddisfare la curiosità hanno prevalentemente uno scopo di intrattenimento. Il loro risultato è fine a sé stesso piuttosto che mezzo per un fine. Dovremmo essere scettici rispetto a un’indagine di questo tipo, perché il suo risultato non può essere impiegato per altri usi. Il secondo passo nella valutazione dell’adeguatezza di un’indagine consiste nello stabilire se è basata su un campionamento probabilistico o non probabilistico (come già discusso nel paragrafo 1.8). Ricordate che il solo modo per fare inferenze statistiche corrette da un campione all’intera popolazione passa attraverso l’uso di un campione probabilistico. Indagini che fanno ricorso al campionamento non probabilistico sono soggette a serie distorsioni, anche non intenzionali, che potrebbero rendere i risultati privi di ogni significato, come è illustrato nel seguente riquadro di commento. INTRODUZIONE E RACCOLTA DEI DATI levine1_1-34 5-12-2001 12:02 Pagina 19 C OMMENTO : Una figuraccia dovuta a un campionamento non probabilistico Nel 1948 i maggiori esperti di sondaggi elettorali prevedevano che nelle elezioni presidenziali americane Harry S. Truman, il presidente uscente, sarebbe stato sconfitto da Thomas E. Dewey, il governatore di New York. Il Chicago Tribune era così fiducioso nelle previsioni dei sondaggi che stampò la sua prima edizione sulla base delle previsioni senza aspettare lo scrutinio dei voti. Nei giorni successivi, un imbarazzato giornale e gli esperti di sondaggi su cui aveva fatto affidamento dovettero dare molte spiegazioni. Cercando la fonte del loro errore, gli analisti scoprirono che esso era da ascriversi all’uso del campionamento non probabilistico (riferimento bibliografico 17). Come conseguenza, le organizzazioni di sondaggi hanno fatto ricorso al campionamento probabilistico per le elezioni successive. Gli errori nei sondaggi Anche quando fanno uso del campionamento probabilistico, i sondaggi sono soggetti a possibili errori. Come mostra il Riquadro 1.4, ci sono quattro tipi di errori nelle indagini campionarie (riferimento bibliografico 8). Indagini e sondaggi validi vengono condotti cercando di ridurre o minimizzare questi errori, spesso a un costo considerevole. Riquadro 1.4 Gli errori nei sondaggi ✓ ✓ ✓ ✓ 1. Errore di copertura o distorsione nella selezione. 2. Errore da mancata risposta o distorsione da mancata risposta. 3. Errore di campionamento. 4. Errore di misurazione. ◆ L’errore di copertura Elemento chiave di un’appropriata selezione del campione è un’adeguata lista della popolazione o un elenco aggiornato di tutti i soggetti da cui estrarre il campione. Un errore di copertura si verifica se si escludono certi gruppi di soggetti dalla lista della popolazione, in maniera tale che questi non hanno nessuna probabilità di entrare a far parte del campione. Gli errori di copertura danno luogo a una distorsione nella selezione. Se la lista è inadeguata perché alcuni gruppi di soggetti della popolazione non sono inclusi in maniera appropriata, ogni campione casuale che venisse selezionato fornirebbe uno stimatore delle caratteristiche della lista della popolazione, non della vera popolazione. Per una presentazione di un caso famoso di distorsione nella selezione, vi rimandiamo al seguente riquadro di commento. C OMMENTO : Un caso di distorsione nella selezione Nel 1936, la rivista Literary Digest previde che il governatore del Kansas Alf Landon avrebbe ottenuto il 57% dei voti nelle elezioni presidenziali americane, frustrando le ambizioni di rielezione del presidente in carica, Franklin D. Roosevelt. In realtà, Landon fu pesantemente sconfitto, ottenendo solo il 38% delle preferenze. Una rivista non aveva mai commesso prima un errore di questo genere in relazione alle elezioni più importati del paese. Come conseguenza, la previsione sbagliata distrusse la credibilità della rivista presso il pubblico, conducendola alla fine al fallimento. Literary Digest pensava tuttavia di non aver commesso errori. Aveva basato le sue previsioni su un ampio campione di 2.4 milioni di rispondenti a un questionario inviato a 10 (continua) VALUTARE L’ADEGUATEZZA DELLE INDAGINI CAMPIONARIE 19 levine1_1-34 5-12-2001 12:02 Pagina 20 C OMMENTO : Un caso di distorsione nella selezione (seguito) milioni di elettori. Dove era allora l’errore? Ci sono due risposte: distorsione nella selezione e distorsione da mancata risposta. Per capire il ruolo svolto dalla distorsione nella selezione, si deve tener conto del momento storico in cui i fatti sono avvenuti. Nel 1936 gli Stati Uniti soffrivano ancora delle conseguenze della Grande Depressione. Senza tener conto di questo, il Literary Digest aveva compilato la lista della popolazione sulla base di fonti quali gli elenchi del telefono, le liste dei membri di alcuni club, gli elenchi degli abbonati a riviste, le immatricolazioni delle automobili (riferimento bibliografico 6). Inavvertitamente aveva scelto una lista della popolazione che comprendeva i più ricchi ed escludeva la maggioranza della popolazione votante, che durante la Grande Depressione non poteva permettersi il telefono, l’iscrizione a un club, l’abbonamento a una rivista o un’automobile. Pertanto una stima del 57% delle preferenze per Landon poteva essere corretta con riferimento alla lista della popolazione, ma non per la vera popolazione. La distorsione dovuta ai non rispondenti si è verificata quando l’ampio campione di 10 milioni di elettori ha prodotto solo 2.4 milioni di risposte. Un tasso di risposta del solo 24% è troppo basso per consentire stime accurate dei parametri della popolazione in assenza di meccanismi che garantiscano che i 7.6 milioni di non rispondenti hanno la stessa opinione dei rispondenti. Comunque il problema dei non rispondenti è stato secondario rispetto a quello della distorsione nella selezione. Anche se i 10 milioni di elettori del campione avessero risposto, questo non avrebbe compensato il fatto che la lista della popolazione differiva in maniera sostanziale nella composizione dalla vera popolazione dei votanti. ◆ L’errore da mancata risposta Non tutti sono ugualmente disposti a rispondere a un sondaggio. Di fatto, ricerche empiriche hanno mostrato come persone appartenenti alle classi più alte e a quelle più basse tendano in genere a rispondere con meno facilità ai sondaggi rispetto alle persone che appartengono alle classi medie. L’errore da mancata risposta si verifica quando non si raccolgono dati su tutte le persone nel campione, e dà luogo alla distorsione da mancata risposta. Dal momento che non è possibile, in generale, assumere che le persone che non rispondono siano simili a quelle che rispondono, è estremamente importante indagare sulle non risposte dopo uno specifico periodo di tempo. Si devono fare vari tentativi, sia per corrispondenza che per telefono, per convincere queste persone a cambiare idea. Sulla base dei risultati, le stime ottenute dalle risposte iniziali devono essere unite a quelle ottenute successivamente, affinché le inferenze fatte dal sondaggio siano valide (riferimento bibliografico 1). Le modalità di attuazione del sondaggio, inoltre, influenzano il tasso di risposta. Le interviste personali e le interviste telefoniche in genere producono un tasso di risposta più alto delle interviste per posta, ma comportano anche dei costi più alti. Il commento sul sondaggio del 1936 del Literary Digest illustra la distorsione da mancata risposta. ◆ L’errore di campionamento Tre sono i motivi principali per estrarre un campione piuttosto che fare un censimento dell’intera popolazione: è più veloce, meno costoso e più efficiente. Tuttavia è la sorte a stabilire chi nella lista della popolazione sarà incluso nel campione e chi no. L’errore di campionamento riflette le differenze tra i campioni che sono riconducibili alla sorte, ossia dovute alla probabilità che un particolare individuo o oggetto ha di entrare a far parte di particolari campioni. Quando leggiamo i risultati di un sondaggio o di un’inchiesta sui giornali, c’è spesso una frase riguardante il margine di errore o precisione; per esempio, “Ci si aspetta che il risultato di questo sondaggio differisca dal vero valore al massimo di 4 punti percentuali”. 20 CAPITOLO 1 INTRODUZIONE E RACCOLTA DEI DATI levine1_1-34 5-12-2001 12:02 Pagina 21 Questo margine di errore è proprio il nostro errore di campionamento. Gli errori si possono ridurre aumentando l’ampiezza del campione, sebbene questo comporti un aumento dei costi. ◆ L’errore di misurazione Se si vuole condurre una buona ricerca sulla base di un sondaggio, si deve cominciare col redigere un questionario in maniera tale da ottenere delle informazioni significative. I dati raccolti devono essere validi; vale a dire che le risposte su cui si effettuerà l’analisi devono essere quelle “giuste”, e devono essere suscettibili di misurazioni significative. Ma qui sorge un problema: ottenere delle misurazioni significative non è spesso cosa facile. Spesso si sceglie il procedimento attraverso cui si ottengono le misurazioni sulla base di considerazioni legate alla sua comodità, piuttosto che alla sua validità. E le misurazioni ottenute sono solo delle approssimazioni di ciò che veramente si desidera. Gli errori di misurazione si riferiscono a inaccuratezze nelle risposte raccolte che possono derivare da un’inadeguata formulazione della domanda, da un’influenza dell’intervistatore sulle risposte o dall’atteggiamento dell’intervistato. Grande attenzione è stata data agli errori di misurazione che derivano da una formulazione inadeguata della domanda (riferimento bibliografico 7). Una domanda deve essere chiara, non ambigua. Deve essere presentata oggettivamente, in una maniera neutrale; si devono quindi evitare le “domande guidate”. Le fonti degli errori di misurazione sono: la formulazione ambigua delle domande, il cosiddetto “effetto alone”, l’errore del rispondente. Consideriamo il seguente esempio di formulazione ambigua delle domande: nel novembre del 1993 il Labor Department dichiarò che il tasso di disoccupazione degli Stati Uniti era stato sottostimato per più di dieci anni a causa della formulazione inadeguata delle domande nella Current Population Survey (indagine sulla popolazione). In particolare, la formulazione di alcune domande aveva condotto a un conteggio incompleto delle donne nella forza lavoro. Si parla di “effetto alone” quando l’intervistato si sente obbligato a compiacere l’intervistatore dando una risposta non veritiera. Questo tipo di errore si può ridurre attraverso un appropriato addestramento degli intervistatori. Gli errori dell’intervistato si verificano a causa di una eccessiva minuziosità o di una mancanza di attenzione nelle risposte. Possiamo ridurre questo tipo di errore in due modi: (1) analizzando attentamente i dati e ricontattando le persone le cui risposte sembrano inusuali, (2) ricontattando a caso degli intervistati con lo scopo di verificare il grado di affidabilità della risposta. Problemi etici Con riferimento alla proliferazione di ricerche basate sui sondaggi (riferimento bibliografico 2) Eric Miller, direttore della newsletter Resarch Alert, ha detto: “C’è stato un lento abbassamento degli standard etici. L’aspetto più allarmante è che le persone prendono delle decisioni sulla base di queste ricerche. Può essere un crimine invisibile, ma non è senza vittime.” Non tutte le ricerche fondate sui sondaggi sono valide, significative o importanti, e non tutte sono difendibili sul piano etico. Dobbiamo cercare di distinguere tra sondaggi impostati in modo errato e sondaggi eticamente discutibili. Considerazioni di carattere etico sorgono con riferimento ai quattro tipi di errori che si possono verificare quando si pianificano dei sondaggi che fanno ricorso a campioni probabilistici: l’errore di copertura o la distorsione nella selezione, l’errore da mancata risposta o la distorsione da mancata risposta, l’errore di campionamento e l’errore di misurazione. VALUTARE L’ADEGUATEZZA DELLE INDAGINI CAMPIONARIE 21 levine1_1-34 5-12-2001 12:02 Pagina 22 L’errore di copertura o la distorsione della selezione fanno sorgere un problema di carattere etico solo quando gruppi o persone sono escluse di proposito dalla lista della popolazione, di modo che i risultati del sondaggio siano distorti a favore della posizione di chi lo ha promosso. In modo analogo, l’errore da mancata risposta o la distorsione da mancata risposta diventano un problema etico solo se alcuni gruppi o individui hanno una probabilità più bassa di rispondere a un particolare tipo di sondaggio, e chi promuove il sondaggio pianifica ciò deliberatamente con l’intento di escludere tali gruppi o persone. Gli errori di campionamento diventano un problema etico solo se le conclusioni sono intenzionalmente presentate senza riferimento alla dimensione del campione e al margine di errore, di modo che l’organizzatore del sondaggio possa promuovere un punto di vista che altrimenti potrebbe essere insignificante. Gli errori di misurazione possono far sorgere un problema etico in tre casi: (1) l’organizzatore del sondaggio può deliberatamente scegliere domande tendenziose, pilotate in modo da guidare la risposta in una direzione particolare; (2) un intervistatore può usare toni e atteggiamenti studiati in modo da creare un effetto alone o guidare altrimenti le risposte in una direzione particolare; (3) un intervistato che valuta in maniera negativa i sondaggi può volutamente fornire delle informazioni false. Esercizi del paragrafo 1.9 1.21 “Un sondaggio mostra che gli americani preferiscono di gran lunga una Chrysler a una Toyota, dopo aver provato entrambi i tipi di automobile.” Quali informazioni vorreste prima di accettare i risultati di questo sondaggio? 1.22 “Un sondaggio mostra che una grande maggioranza di studenti del college considera i jeans Gap come il tipo di vestiti più alla moda.” Quali informazioni vorreste prima di accettare i risultati di questo sondaggio? 1.23 Un campione casuale semplice di n = 300 impiegati a tempo pieno è estratto dall’elenco di un’azienda contenente i nomi di N = 5000 impiegati a tempo pieno, con lo scopo di valutare il grado di soddisfazione sul lavoro. (a) Date un esempio di un possibile errore di copertura. (b) Date un esempio di un possibile errore da mancata risposta. (c) Date un esempio di un possibile errore di campionamento. (d) Date un esempio di un possibile errore di misurazione. ◆R IEPILOGO Come potete vedere dal diagramma di riepilogo che segue, in questo capitolo abbiamo presentato un’introduzione alla statistica e abbiamo analizzato le modalità di raccolta dei dati. Abbiamo studiato le diverse modalità di risposta a un sondaggio, i vari tipi di dati e i differenti modi di selezionare campioni causali. Inoltre abbiamo esaminato alcuni aspetti della adeguatezza di un sondaggio. Una volta raccolti, i dati devono essere organizzati e preparati in maniera da poter condurre le proprie analisi. Nei prossimi due capitoli illustreremo i metodi di rappresentazione a mezzo di tabelle e grafici, descriveremo varie tecniche di “analisi esplorativa dei dati” e presenteremo diverse misure descrittive di sintesi utili per l’analisi e l’interpretazione dei dati. 22 CAPITOLO 1 INTRODUZIONE E RACCOLTA DEI DATI levine1_1-34 5-12-2001 12:02 Pagina 23 Statistica Campione Pensiero statistico Parametro Popolazione Miglioramento dei processi Variabile casuale Tipi di variabile Qualitativa Quantitativa Discreta Continua Fonte dei dati Uso di dati già pubblicati Ideazione di un esperimento Realizzazione di un sondaggio Tipo di campione Probabilistico Conduzione di uno studio sul campo Considerazioni etiche Non probabilistico Diagramma di riepilogo del Capitolo 1 Parole chiave campionamento a grappoli campionamento casuale semplice campionamento con reimmissione campionamento non probabilistico campionamento probabilistico campionamento senza reimmissione campionamento sistematico campionamento stratificato campione dati distorsione da mancata risposta distorsioni nella selezione errore da mancata risposta errore di campionamento errore di copertura errore di misurazione fonti primarie fonti secondarie liste parametro popolazione statistica statistica descrittiva statistica inferenziale tavola dei numeri casuali universo variabile casuale variabile qualitativa variabile quantitativa variabile quantitativa continua variabile quantitativa discreta PAROLE CHIAVE 23 levine1_1-34 5-12-2001 12:02 Pagina 24 Verifica della comprensione 1.24 1.25 1.26 1.27 1.28 1.29 1.30 1.31 1.32 1.33 1.34 1.35 1.36 1.37 1.38 1.39 1.40 Qual è la differenza tra un campione e una popolazione? Qual è la differenza tra una statistica e un parametro? Qual è la differenza tra la statistica descrittiva e quella inferenziale? In che modo i metodi statistici possono essere utili al manager? In quale maniera lo sviluppo della tecnologia informatica ha modificato il campo della statistica? In quale maniera lo sviluppo della statistica si è intrecciato con la necessità di raccolta di informazioni sistematiche da parte dei governi? Come sono cambiati negli ultimi 30 anni i pacchetti software per l’analisi statistica? Quali sono i tre aspetti del miglioramento della qualità? Qual è la differenza tra una variabile qualitativa e una quantitativa? Qual è la differenza tra i dati continui e quelli discreti? Quali sono i motivi alla base della raccolta dei dati? Qual è la differenza tra il campionamento probabilistico e quello non probabilistico? Quali sono i problemi che si possono incontrare usando i metodi di estrazione da un’urna per estrarre un campione casuale semplice? Qual è la differenza tra il campionamento con reimmissione e quello senza reimmissione? Qual è la differenza tra un campione casuale e uno sistematico? Qual è la differenza tra un campione stratificato e uno a grappolo? Quali sono le quattro fonti di errore nei sondaggi che fanno uso del campionamento probabilistico? Esercizi di riepilogo del capitolo 1.41 La Data and Story Library (DASL) (http://lib.stat.cmu.edu./DASL) è una biblioteca in rete in cui sono raccolti file contenenti dati e brevi storie, che consentono di chiarire l’uso dei metodi statistici di base. A ogni insieme di dati corrispondono una o più storie. Accedete al sito Internet e, una volta letta una storia, dite in che modo le statistiche sono state usate in una delle aree di interesse. 1.42 Accedete al sito della Microsoft nell’area dedicata a Microsoft Excel (http://www.microsoft.com/office/excel). Spiegate in quale maniera Microsoft Excel potrebbe essere utile nel campo della statistica. 1.43 La società di ricerche Gallup presenta i risultati dei sondaggi più recenti nel suo sito Web http://gallup.com. Accedete al sito e fate clic su Business and Economy. Per uno dei sondaggio indicati: (a) date un esempio di una variabile qualitativa trovata nel sondaggio; (b) date un esempio di una variabile quantitativa trovata nel sondaggio; (c) formulate tre domande che potrebbero essere usate in questo sondaggio. 1.44 Il sito Internet della British Airways presenta un questionario che può essere compilato per via elettronica (http://www.britishairways.comm/feedback/feedback.html). Tra le domande elencate in passato c’erano: 1. In che modo siete venuti a conoscenza del sito Internet della British Airways? 2. Qual è la vostra età? 3. Che velocità ha la vostra connessione Internet? (a) Il sondaggio sul sito della British Airways dà luogo a un campione casuale? Commentate. (b) Come si può ottenere un campione casuale? (c) Definite la lista della British Airways. (d) Se il sondaggio non è ancora stato fatto in questa maniera, scrivete una domanda in cui l’età è una variabile quantitativa. (e) La risposta alla domanda: “In che modo siete venuti a conoscenza del sito Internet della British Airways?” dà luogo a una variabile qualitativa o quantitativa? Spiegate. (f) Formulate tre domande che attualmente non fanno parte del sondaggio e che ritenete dovrebbero essere incluse. 24 CAPITOLO 1 INTRODUZIONE E RACCOLTA DEI DATI levine1_1-34 5-12-2001 12:02 Pagina 25 1.45 I sondaggi elettorali sono tradizionalmente condotti a mezzo di interviste telefoniche. I ricercatori alla Harris Black International Ltd. sostengono che i sondaggi via Internet sono meno costosi, più veloci e garantiscono dei tassi di risposta più alti di quelli per telefono. Altri ricercatori sono scettici rispetto all’affidabilità scientifica di questo approccio (Wall Street Journal, 13 aprile 1999). Nonostante queste critiche, i sondaggi via Internet stanno diventando sempre più frequenti. Quali perplessità avete, se ne avete, circa i sondaggi via Internet? 1.46 Uno studio di Rajesh Mirani e Albert Lederer (“An Instrument for Assessing the Organizational Benefits of the IS Projects,” Decision Sciences, Vol.29, 1998, pp.803-838) analizza i benefici, in termini di organizzazione, che possono derivare dai progetti relativi ai sistemi informativi aziendali. I ricercatori hanno spedito per posta 936 questionari ai membri (scelti a caso) di una grande organizzazione nazionale nell’ambito dei sistemi informativi. Sono state ricevute 200 risposte valide, per un tasso di risposta pari al 21%. Dei 200 rispondenti, 190 hanno risposto a delle domande concernenti un progetto recentemente completato. Il budget per questi progetti era in media di 3.8 milioni di dollari, con una banda di oscillazione da 4000 dollari a 100 milioni di dollari. Tra i 190 intervistati che hanno risposto, il 45% ha dichiarato che era necessaria un’autorizzazione del CEO per poter iniziare i progetti. (a) Qual è la fonte dei dati usati in questo studio? (b) Indicate una variabile qualitativa trattata in questo articolo. (c) Indicate una variabile quantitativa trattata in questo articolo. (d) Illustrate il metodo di campionamento usato in questo studio. (e) In che tipi di errore pensate che i ricercatori potrebbero incorrere? 1.47 Il Bureau of the Census (http://www.census.gov) ha un ricco sito Internet con link a molti tipi di dati. Il sito contiene informazioni sulle persone, l’economia, la geografia e molte altre categorie. Accedete al sito e trovate la descrizione dell’American Housing Survey (sondaggio sulle abitazioni) nella sezione People. (a) Descrivete brevemente l’American Housing Survey. (b) Qual è l’ampiezza del campione e che tipo di metodo di selezione del campione è stato impiegato? (c) Date un esempio di variabile qualitativa trovata nel sondaggio. (d) Date un esempio di variabile quantitativa trovata nel sondaggio. (e) Quali tipi di attività economiche possono trarre beneficio dalle informazioni fornite dal sondaggio? Perché? (f) Accedete al link per le attività economiche e individuate la sezione dedicata al settore manifatturiero. Descrivete l’Annual Survey of Manufacturers (il sondaggio annuale sul settore manifatturiero). (g) Qual è l’ampiezza del campione e che tipo di metodo di selezione del campione è stato impiegato? (h) Date un esempio di variabile qualitativa trovata nel sondaggio. (i) Date un esempio di variabile quantitativa trovata nel sondaggio. (j) In che maniera un dirigente di un’azienda manifatturiera può trarre benefici dalle informazioni fornite dal sondaggio? 1.48 Supponete che il manager della divisione servizi alla clientela di una società di prodotti elettronici intenda stabilire se i clienti che hanno acquistato un videoregistratore negli ultimi 12 mesi sono soddisfatti del prodotto. Il manager programma di intervistare questi clienti, contattandoli sulla base dei certificati di garanzia spediti dopo l’acquisto. (a) Descrivete la popolazione. (b) Descrivete la lista. (c) Che differenze ci sono tra la popolazione e la lista della popolazione? In che maniera queste differenze potrebbero influenzare i risultati? (d) Formulate tre domande qualitative che ritenete appropriate per questo sondaggio. (e) Formulate tre domande quantitative che ritenete appropriate per questo sondaggio. (f) Come si potrebbe estrarre un campione casuale semplice di certificati di garanzia? (g) Se il manager volesse estrarre un campione casuale semplice di certificati di garanzia per ogni modello di videoregistratore venduto, come potrebbe selezionare il campione? ESERCIZI DI RIEPILOGO DEL CAPITOLO 25 levine1_1-34 5-12-2001 12:02 Pagina 26 1.49 I sondaggi politici sono condotti per cercare di prevedere i risultati di una elezione. I risultati di sondaggi di questo genere sono solitamente riportati sui giornali o alla televisione nelle settimane precedenti l’elezione. Per una elezione in particolare, quella del Presidente degli Stati Uniti: (a) Qual è la popolazione a cui si vogliono estendere i risultati del sondaggio? (b) Come si può ottenere un campione casuale semplice da questa popolazione? (c) Da quello che sapete sul modo in cui questi sondaggi sono condotti attualmente, quali sono i problemi che si possono incontrare in questo tipo di sondaggi? 1.50 Il seguente questionario si trova in ogni camera di un albergo conosciuto e apprezzato. Lo scopo della direzione è valutare la soddisfazione degli ospiti. Come vi abbiamo servito? Prenotazioni Portiere Ricezione Camera Pulizia Ristorante Pensate che questo sistema di quattro categorie con relativi giudizi a mezzo di “faccine” fornisca alla direzione informazioni sufficienti su ogni servizio o prestazione fornita? Commentate. (a) L’aggiunta di un’altra “faccina corrucciata” per bilanciare le due “faccine sorridenti” migliorerebbe il questionario? Commentate. (b) Che valore hanno questi sondaggi autoselettivi? Possono essere utilizzati per valutare le opinioni degli ospiti durante un particolare intervallo di tempo (ad esempio una settimana o un mese)? Commentate. (c) Come si potrebbe selezionare un campione casuale di ospiti? (d) Quale domanda qualitativa aggiungereste al sondaggio? (e) Quale domanda quantitativa aggiungereste al sondaggio? 1.51 Supponete che un produttore di cibo per gatti voglia fare un sondaggio per stabilire le abitudini di acquisto dei proprietari di gatti. Tra le domande da includere nel sondaggio compaiono: 1. Dove il cibo per gatti è acquistato principalmente. 2. Se si acquista del cibo secco o meno. 3. Il numero di gatti che vivono in casa. 4. Se il gatto ha un pedigree o meno. (a) Descrivete la popolazione. (b) Definite la lista. (c) Indicate il tipo di campionamento che usereste e perché lo scegliereste. (d) Per ciascuna delle quattro domande elencate, indicate se la variabile è qualitativa o quantitativa. (e) Formulate cinque domande qualitative per il sondaggio. (f) Formulate cinque domande quantitative per il sondaggio. 26 CAPITOLO 1 INTRODUZIONE E RACCOLTA DEI DATI levine1_1-34 5-12-2001 12:02 ◆ Pagina 27 Il caso — SONDAGGIO DI UNA ASSOCIAZIONE DI EX-STUDENTI Supponete che il presidente di un’associazione di ex-studenti di un’università intenda condurre un sondaggio sui suoi soci dalle classi del 1988 e 1989 per conoscere i passati successi, le attuali occupazioni e le future aspirazioni. A tale scopo, si rendono necessarie le seguenti informazioni: sesso, area di studi, voto di laurea, eventuali studi successivi (ad esempio master o dottorato), occupazione attuale, stipendio annuo attuale, numero di impieghi a tempo pieno dal momento della laurea, stipendio annuo previsto tra cinque anni, appartenenza a un partito politico, stato civile. In quanto direttori di un centro di ricerca, redigete una proposta in cui dite come intendete condurre il sondaggio. Tale proposta dovrà includere i seguente elementi: 3. 4. 5. 6. 7. 8. 1. Una dichiarazione di intenti (cosa volete scoprire e perché). 2. Una valutazione di come e dove il sondaggio sarà condotto (ad esempio, come intendete selezionare 300 ex-studenti dalla lista dei 3000 membri dell’associazione per i due anni considerati). Una prima bozza del questionario (contenente un elenco organizzato di domande qualitative e quantitative). Una prima bozza della lettera di accompagnamento al questionario. Una prima bozza delle particolari istruzione ai rispondenti per aiutarli nella compilazione del questionario. Una considerazione su come intendete verificare la validità del sondaggio. La dichiarazione che avete preso in considerazioni aspetti quali i costi del sondaggio, il bisogno di personale e il lasso di tempo necessario per l’attuazione e il completamento. Una valutazione sulla popolazione di riferimento, quella dei membri dell’associazione di ex-studenti, a confronto con la popolazione dei laureati dei due anni 1988 e 1989 e sulla possibilità di estendere i risultati del sondaggio a tutti i laureati di quei due anni. Bibliografia 1. Cochran, W. G., Sampling Techniques, 3d ed. (New York: Wiley, 1977). 2. Crossen, C., “Margin of Error: Studies and Surveys Proliferate, but Poor Methodology Makes Many Unreliable,” The Wall Street Journal, November 14, 1991, A1 and A9. 3. Deming, W. E., Sample Design in Business Research (New York: Wiley, 1960). 4. Deming, W. E., Out of the Crisis (Cambridge: Massachusetts Institute of Technology Center for Advanced Engineering Study, 1986). 5. Deming, W. E., The New Economics for Industry, Government, Education (Cambridge: Massachusetts Institute of Technology Center for Advanced Engineering Study, 1993). 6. Gallup, G. H., The Sophisticated Poll-Watcher’s Guide (Princeton, NJ: Princeton Opinion Press, 1972). 7. Goleman, D., “Pollsters Enlist Psychologists in Quest for Unbiased Results,” The New York Times, September 7, 1993, C1 and C11. 8. Groves, R. M., Survey Errors and Survey Costs (New York: Wiley, 1989). 9. Hansen, M. H., W. N. Hurwitz, and W. G. Madow, Sample Survey Methods and Theory, vols. 1 and 2 (New York: Wiley, 1953). 10. Juran, J. M., Juran on Leadership for Quality (New York: The Free Press, 1989). 11. Juran, J. M., and F. M. Gryna, Quality Planning and Analysis, 2d ed. (New York: McGraw-Hill, 1980). 12. Kendall, M. G., and R. L. Plackett, eds., Studies in the History of Statistics and Probability, vol. 2 (London: Charles W. Griffin, 1977). 13. Kirk, R. E., ed., Statistical Issues: A Reader for the Behavioral Sciences (Monterey, CA: Brooks/Cole, 1972). 14. Lotus 1-2-3 Release 5 (Cambridge, MA: Lotus Development Corporation, 1994). 15. Microsoft Excel 2000 (Redmond, WA: Microsoft Corporation, 1999). 16. Minitab Version 12 (State College, PA: Minitab, Inc., 1998). 17. Mosteller, F., et al., The Pre-Election Polls of 1948 (New York: Social Science Research Council, 1949). 18. Norusis, M., SPSS Guide to Data Analysis for SPSS-X: With Additional Instructions for SPSS/PC (Chicago: SPSS Inc., 1986). 19. Pearson, E. S., ed., The History of Statistics in the Seventeenth and Eighteenth Centuries (New York: Macmillan, 1978). 20. Pearson, E. S., and M. G. Kendall, eds., Studies in the History of Statistics and Probability (Darien, CT: Hafner, 1970). 21. Rand Corporation, A Million Random Digits with 100,000 Normal Deviates (New York: The Free Press, 1955). 22. Robbins, S. P., Management, 5th ed. (Upper Saddle River, NJ: Prentice Hall, 1997). 23. SAS Language and Procedures Usage, Version 6 (Raleigh, NC: SAS Institute, 1988). 24. Walker, H. M., Studies in the History of the Statistical Method (Baltimore: Williams & Wilkins, 1929). 25. Wattenberg, B. E., ed., Statistical History of the United States: From Colonial Times to the Present (New York: Basic Books, 1976). BIBLIOGRAFIA 27 levine1_1-34 5-12-2001 12:02 Pagina 28 APPENDICE 1.1 INTRODUZIONE A MICROSOFT EXCEL Micrsoft Excel e questo libro Microsoft Excel è un esempio di foglio elettronico, il programma di produttività individuale più adatto per una manipolazione interattiva di dati numerici. I fogli elettronici consentono agli utenti di lavorare su fogli in formato elettronico, o fogli di lavoro, che si presentano come una serie di righe (orizzontali) e colonne (verticali) in cui si inseriscono i dati. Utilizzati in principio nell’ambito della contabilità, i moderni fogli elettronici, grazie alla loro flessibilità, sono ormai diventati uno strumento di risoluzione di molti problemi, compresi i problemi che gli studenti di un corso di statistica si trovano di fronte. Tra i molti fogli elettronici disponibili, gli autori hanno scelto Excel non solo per gli ovvii motivi che il programma è ampiamente disponibile e fa parte di un pacchetto integrato, Microsoft Office, particolarmente usato in ambito aziendale. Excel contiene molte specifiche funzioni statistiche, nonché procedure che aiutano nell’analisi dei dati; è inoltre possibile istallare dei “componenti aggiuntivi”, procedure programmate che estendono la funzionalità di Excel. Queste caratteristiche aiutano nella elaborazione delle soluzioni in Excel e semplificano il suo uso. (Nelle appendici su Excel presenti al termine dei diversi capitoli, si fa riferimento al componente aggiuntivo Prentice Hall PHStat, scaricabile dal sito Web abbinato al libro (www.apogeonline.com/libri/00805/allegati/); tale aggiunta, sviluppata per semplificare ulteriormente l’uso di Excel, è illustrata più avanti in questa appendice). Excel consente anche di creare delle raccolte di fogli elettronici e altre informazioni, racchiuse in un unico file, la cartella di lavoro. Le cartelle di lavoro contenenti più fogli di lavoro facilitano l’elaborazione delle soluzioni in maniera ordinata. In questo libro, le soluzioni seguono il prevedibile schema consistente nell’usare fogli di lavoro distinti per i dati del problema, per i calcoli e per i grafici. Questo metodo facilita il riutilizzo della cartella, l’inserimento di eventuali modifiche, e in genere rende più chiara la presentazione dei risultati. Sebbene Excel sia molto utile nell’apprendimento della statistica, dovete essere consapevoli del fatto che non si tratta di un programma che può sostituirsi completamente ai pacchetti standard di analisi statistiche. In presenza di insiemi di dati molto grandi o di dati con delle proprietà statistiche particolarmente inusuali, Excel può produrre dei risultati non validi. Conoscere un foglio Excel Quando si lancia Excel da Windows, compare una finestra di dialogo simile a quella della Figura A1.1. Ciascun utilizzatore può scegliere come configurare la finestra e dove posizionare i singoli oggetti che vi compaiono. Nella Figura A1.1, come in tutte le illustrazioni di Excel di questo libro, la barra standard e quella di formattazione sono disposte sotto la barra degli strumenti. Il foglio elettronico che compare nell’area di lavoro, è ingrandito sino a coprire tutta l’area. I comandi di ridimensionamento e di chiusura compaiono in cima al foglio elettronico e le barre di scorrimento orizzontale e verticale consentono di mostrare le parti del foglio che sono fuori dallo schermo. Le etichette del foglio, che ne identificano il nome, consentono di passare da un foglio all’altro della cartella. Una barra di stato fornisce le informazioni circa le operazioni in corso e lo stato di alcuni tasti chiave. Specificare le posizioni nei fogli di lavoro Quando si fa uso di un foglio elettronico, una parte del lavoro consiste nell’inserire i dati, i calcoli e i risultati richiesti, assieme ai titoli e alle etichette, ad esempio l’intestazione delle colonne, in una griglia che forma un singolo foglio di lavoro. Usando una notazione standard per i fogli di lavoro, ci riferiamo alle colonne di ogni foglio con le lettere e alle righe con i numeri, per identificare le celle in cui inserire i dati, date dall’intersezione delle righe e delle colonne. In questo sistema, che ricorda il gioco della “battaglia navale”, con A1 si indica la cella individuata dalla prima colonna e della prima riga (la prima cella in alto a sinistra nel foglio), B4 si riferisce alla cella della seconda colonna e quarta riga, e così via. Poiché Excel può contenere diversi fogli di lavoro, questo formato in termini di lettera per la colonna e numero per la riga in alcuni contesti non è sufficiente per specificare la cella di interesse. 28 CAPITOLO 1 INTRODUZIONE E RACCOLTA DEI DATI levine1_1-34 5-12-2001 12:02 Pagina 29 Barra dei menu Barra degli strumenti standard Barra della formula Pulsanti di ridimensionamento e di chiusura Barra di formattazione Area di lavoro Etichette del foglio FIGURA A1.2.1 Barre di scorrimento La finestra di Excel. Quando all’interno di un foglio di lavoro ci si vuole riferire a una cella di un altro foglio, il riferimento deve essere effettuato in questa forma: nome del foglio di lavoro!ColonnaRiga Usando questa notazione è possibile distinguere due celle che occupano la stessa posizione in fogli diversi di una stessa cartella. Per esempio, Dati!A1 e Calcoli!A1 si riferiscono alla cella in alto a sinistra rispettivamente del foglio Dati e del foglio Calcoli. Questa notazione estesa è necessaria solo quando ci si voglia riferire alla cella di un foglio diverso da quello in cui si stanno effettuando le registrazioni. È possibile riferirsi non solo alla singola cella, ma anche a gruppi di celle adiacenti. Questi gruppi di celle sono richiamati facendo riferimento alla cella più in alto a sinistra e a quella più in basso a destra. La notazione per il riferimento a un gruppo di celle avrà allora la seguente forma: cella in alto a sinistra: cella in basso a destra Per esempio, l’intervallo di celle A1:B3 si riferisce alle sei celle A1, B1, A2, B2, A3 e B3, e l’intervallo A1:A8 si riferisce alle prime otto celle nella prima colonna del foglio di lavoro. Intervalli nella forma seguente: Nome del foglio! cella in alto a sinistra: cella in basso a destra si riferiscono a intervalli di celle che non appartengono al foglio in uso. Talvolta è necessario distinguere tra gruppi di celle che hanno la stessa posizione in fogli di lavoro che si chiamano allo stesso modo ma appartengono a cartelle differenti. In questi casi i riferimenti alla cella sono scritti nel seguente modo: ‘[Nome della cartella] Nome del foglio!’ ColonnaRiga Configurare Excel In Excel è possibile configurare la finestra delle applicazioni. Potreste voler configurare la vostra finestra di Excel in modo da renderla simile a quella della Figura A1.1, oppure simile ad altre illustrazioni della finestra che appaiono nel testo. Per configurare Excel in modo da ottenere una finestra uguale a quella della Figura A1.1 seguite la procedura descritta nel Riquadro A1.1 APPENDICE 29 levine1_1-34 5-12-2001 12:02 Pagina 30 Riquadro A1.1 Configurare Microsoft Excel ✓ ✓ ✓ 1. Per visualizzare la barra delle formule, la barra di stato, la barra degli strumenti standard e la barra di formattazione: • Selezionate Visualizza. Se la Barra della formula non è selezionata, selezionatela. Se la Barra di Stato non è selezionata, selezionatela. • Selezionate Visualizza | Barra degli Strumenti. Se l’opzione Standard non è selezionata, selezionatela. Se l’opzione Formattazione non è selezionata, selezionatela. Per standardizzare l’aspetto dell’area di lavoro • Selezionate Strumenti | Opzioni. Nella finestra di dialogo di Opzioni, scegliete Visualizza. Selezionate Interruzioni pagina automatiche, Griglia, Zeri, Intestazioni righe e colonne, Barra di scorrimento orizzontale, Barra di scorrimento verticale e Schede. Deselezionate Formule se è stato selezionato. Fate click su OK. 2. Per verificare le opzioni di calcolo, di scrittura e di configurazione generale usate nel testo: • Selezionate Strumenti | Opzioni. Nella finestra di dialogo di Opzioni, selezionate Calcolo, e verificate che Automatico sia selezionato. Selezionate Modifica e verificate che tutti i comandi siano selezionati ad eccezione di Decimali fissi. Selezionate Generale. Verificate che Stile di riferimento R1C1 e Fornisce commenti con suono non siano selezionati e che Protezione da virus macro sia stato scelto. Cambiate il valore con 3 se c’è un altro valore in Fogli nella nuova cartella. Scegliete Arial (o un altro carattere simile) nel Carattere Standard. Scrivete 10 nella quadrato Dim. 3. Per verificare l’installazione dell’aggiunta Strumenti di analisi: • Selezionate Strumenti. Selezionate Analisi dati se questa voce compare nel menu e verificate se la finestra di dialogo che appare contiene una lista di strumenti di analisi. Fate click su Annulla. Se la voce Analisi dati non compare nel menù Strumenti, selezionate Aggiunte dal menu. Nella finestra di dialogo che compare, selezionate Strumenti di analisi e Strumenti di analisi-VBA. Fate click su OK. Uscite da Excel (File | Esci). Riavviate Excel e seguite le istruzioni del paragrafo precedente per verificare l’installazione • Se non trovate i comandi Strumenti di analisi e Strumenti di analisiVBA, controllate nella Guida la lista delle Aggiunte a disposizione: è probabile che questa aggiunte così specifiche non siano state selezionate durante il processo di installazione di Excel. Per esempio, se si sceglie l’opzione Installazione Tipica al momento dell’installazione di Excel/Office le aggiunte di analisi dei dati usate in questo libro non vengono selezionate, e pertanto si deve procedere a una nuova installazione di Excel per includerle. (Consultate la Guida in linea di Excel alla voce “Installazione e Uso delle Aggiunte” per ulteriori informazioni.) Rinominare i fogli di lavoro L’uso della cartella può essere facilitato assegnando un nome ai fogli di lavoro. Excel assegna automaticamente ai fogli di lavoro il nome Foglio1, Foglio2 e così via. È chiaro che i nomi migliori sono quelli che richiamano il contenuto del foglio, ad esempio Dati per un foglio che contiene i dati da analizzare o Calcoli per il foglio in cui sono contenuti i calcoli necessari per l’analisi. Per assegnare un nome ai fogli, fate doppio clic sull’etichetta del foglio, scrivete il nome e premete il tasto Invio. 30 CAPITOLO 1 INTRODUZIONE E RACCOLTA DEI DATI levine1_1-34 5-12-2001 12:02 Pagina 31 Inserire i dati in una cartella Excel Ora che abbiamo descritto gli elementi di base di Excel, possiamo passare a considerare il seguente esempio. Supponete di disporre di dati sull’ammontare di denaro speso da cinque clienti in un grande magazzino. I risultati sono illustrati nella Tabella A1.1. Tabella A1.2.1 Ammontare speso da un campione di 5 clienti di un grande magazzino NOME AMMONTARE (IN DOLLARI) Allen Barry Diane Kim Susan 125 250 72 105 48 Possiamo ora usare Excel per analizzare questi dati. Per i dati della Tabella A1.1 vogliamo che il titolo della prima colonna (Nome) compaia nella cella A1. Sulla base dello stesso ragionamento, stabiliamo che il titolo Ammontare debba comparire nella cella B1 e che i valori di ciascuna delle variabili per i cinque clienti debbano comparire nelle prime cinque righe (dalla 2 alla 6). Dopo aver specificato il contenuto delle celle per ciascun elemento del foglio di lavoro, possiamo passare a inserire i valori nelle celle del foglio che chiameremo Dati. A tale scopo, selezionate File | Nuovo per creare un nuovo foglio di lavoro, a cui assegnate il nome Dati. Selezionate la cella A1, facendo clic al suo interno. Il contorno della cella si evidenzia a indicare che A1 è la cella attiva, quella in cui sarà inserito il valore che digiteremo (notate anche che A1, la designazione della cella attiva, compare nel riquadro di riferimento alla cella). Digitate il titolo della colonna Nome. Notate come i caratteri digitati compaiono sia nella cella A1 sia nella barra della formula. Premete il tasto Invio (oppure fate clic sul tasto di controllo alla sinistra del riquadro della formula) per terminare l’inserimento. Continuate selezionando la cella B1 e inserendo il titolo della colonna Ammontare. Passiamo ora a inserire i dati che appariranno sotto i titoli delle colonne. Digiteremo i dati per colonna, usando il tasto Invio per passare da una cella a quella sottostante dopo l’inserimento di ciascun dato. (Se volessimo inserire i dati per riga dovremmo premere il tasto della Tabulazione per passare da una cella a quella accanto a destra). Selezionate la cella A2, digitate il nome Allen e premete il tasto Invio. Continuate in questo modo a inserire i nomi nelle celle dalla A3 alla A6, passando di cella in cella con il tasto Invio. Selezionate quindi la cella B2 e inserite il numero 125. Proseguite in questo modo dalla cella B3 alla B6 inserendo i valori 250, 75, 105 e 48. Non resta che salvare il documento con gli abituali comandi File | Salva o File | Salva con nome. C OMMENTO : Correggere gli errori È probabile che nell’inserire dati nel foglio di lavoro commettiate degli errori di battitura. Per correggerli, potete fare una delle seguenti cose: • • • Per cancellare i dati immessi mentre li si digita, premete il tasto Esc o fate click sulla “X” in fondo alla barra della formula. Per cancellare i caratteri alla sinistra del cursore uno alla volta, premete il tasto di Backspace (la freccia ← sopra il tasto Invio). Per cancellare i caratteri alla destra del cursore uno alla volta premete il tasto Canc. (continua) APPENDICE 31 levine1_1-34 5-12-2001 12:02 Pagina 32 C OMMENTO : Correggere gli errori (seguito) • Per sostituire il testo già digitato, evidenziatelo facendo clic con il tasto destro del mouse all’inizio del testo e trascinando il puntatore del mouse sul resto del testo, e sostituitelo con un testo nuovo. Se volete annullare l’ultima digitazione, selezionate Modifica | Annulla digitazione. Se cambiate ancora idea e volete annullare la modifica, selezionate Modifica | Ripristina. Elaborare delle formule per effettuare dei calcoli A questo punto siamo pronti per calcolare una statistica semplice, l’ammontare totale speso dai cinque clienti. Anche se si potrebbe sostenere che calcoli così semplici si possono più facilmente effettuare a mano, è senz’altro meglio lasciar lavorare Excel al nostro posto. A tale scopo dobbiamo sviluppare e inserire delle formule o dare delle istruzioni nelle celle appropriate del nostro foglio di lavoro Dati (ad esempio nella cella B7). Per distinguerle da altri tipi di digitazioni, le formule sono sempre precedute dal simbolo =. Per creare delle formule è necessario conoscere gli operatori o simboli speciali, impiegati per indicare le operazioni aritmetiche. Tra gli operatori usati nelle formule di questo libro, ci sono i simboli di addizione (+), sottrazione (-), moltiplicazione (*), divisione (/) e elevamento a potenza (^). Per il calcolo dell’ammontare totale di spesa, useremo il simbolo + combinato con i riferimenti alle celle che contengono i valori che si vogliono sommare: sommeremo le celle B2, B3, B4, B5 e B6 del foglio di lavoro Dati. Si otterrà la seguente formula: Data!B2 Data!B3 Data!B4 Data!B5 Data!B6 e il risultato sarà inserito nella cella B7. Dal momento che stiamo inserendo una formula nel foglio che contiene le celle a cui ci si riferisce, potremo usare la notazione più breve: B2 B3 B4 B5 B6 Usare le funzioni nelle formule Nel paragrafo precedente abbiamo fatto ricorso all’operatore aritmetico + dell’addizione per costruire la formula. In effetti avremmo potuto usare la funzione Somma, una delle molte istruzioni preprogrammate che possono essere usate quando si risolvono problemi di aritmetica, economia, ingegneria e statistica. Per usare la funzione Somma, scriviamo la formula =SOMMA(B2:B6) nella cella B7, invece della formula =B2+B3+B4+B5+B6. Nella formula =SOMMA(B2:B6), la parola SOMMA identifica la funzione Somma, la coppia di parentesi () racchiude le celle di riferimento e B2:B6 indica l’intervallo di celle di interesse, le celle a cui si vuole applicare la formula. C OMMENTO : Copiare degli oggetti in Excel In Excel gli oggetti, da una singola cella a un intero foglio di lavoro, possono essere copiati per semplificare la pianificazione di un foglio di lavoro. In generale la copia di oggetti comporta la selezione dell’oggetto e quindi la selezione degli appropriati comandi di copia e incolla. • • 32 CAPITOLO 1 Per copiare un singolo valore o una serie di valori, selezionate le celle che contengono tali valori evidenziandole. Selezionate Modifica | Copia. Selezionate le celle (è sufficiente selezionare la prima cella dell’intervallo) in cui intendete copiare i valori. Selezionate Modifica | Incolla. (Attenzione: se si copiano oggetti che contengono delle formule non è detto che il risultato sia una duplicazione dell’oggetto! Vedete l’Appendice 2.1 per una spiegazione dei riferimenti assoluti.) Per copiare un intero foglio di lavoro, selezionate il foglio da copiare facendo clic sulla sua etichetta. Selezionate Modifica | Sposta o copia foglio. Nella finestra di INTRODUZIONE E RACCOLTA DEI DATI levine1_1-34 5-12-2001 12:02 Pagina 33 dialogo che compare, selezionate Crea una nuova copia. Se volete copiare il foglio in una nuova cartella, selezionate Nuova cartella nel riquadro Alla cartella, e scegliete la cartella in cui volete copiare il foglio. Indicate la posizione del foglio da copiare nella cartella selezionando la scelta appropriata nel riquadro Prima del foglio. Fate clic sul comando OK. Autocomposizioni Le autocomposizioni (o creazioni guidate) sono degli insiemi di finestre di dialogo che guidano l’utilizzatore nella creazione di alcuni oggetti. Gli utilizzatori inseriscono delle informazioni, fanno le opportune scelte nelle finestre di dialogo e passano da una finestra all’altra facendo clic sul comando Avanti (e alla fine, per creare l’oggetto, sul comando Fine, mentre facendo clic su Annulla la finestra di autocomposizione di chiude). Come esempio, si può considerare la Autocomposizione Importa testo, che assiste nell’importare o trasferire i dati da un file di testo a un foglio di lavoro (un file di testo contiene dei valori che sono privi di etichette e di formattazione e sono separati da delimitatori come spazi, virgole o tabulazioni). Per illustrare il funzionamento di questa autocomposizione, supponete che un insieme di dati sui fondi di investimento siano contenuti nel file MUTUAL.TXT (scaricabile dal sito Web abbinato al libro). Per importare i dati dal file in un foglio di lavoro di Excel: selezionate File | Apri. Nella finestra di dialogo che appare, selezionate la cartella che contiene il file MUTUAL.TXT nella casella Cerca in. Nell’elenco Tipo file, selezionate File di Testo. Si può selezionare anche l’opzione Tutti i file(*.*). Inserite il nome MUTUAL.TXT in Nome file. Fate clic sul comando Apri. In questa maniera si dà inizio alla Importazione guidata testo, che si articola in tre passaggi. Nel primo passaggio, selezionate il comando Larghezza fissa (perché i dati sono stati collocati in questo file in colonne dalla larghezza fissa). Notate che nella finestra di dialogo ci si riferisce alle variabili con il termine “campi”. Fate clic sul comando Avanti. Nella finestra di dialogo del Passaggio 2, fate click sul comando Avanti per accettare che i dati di ogni riga del file di testo siano posizionati in colonne. (Spostando le linee con frecce che indicano un’interruzione di colonna si possono cambiare le posizioni se è necessario). Nella finestra di dialogo del passaggio 3, selezionate l’opzione Generale nel riquadro Formato dati per colonna. Fate clic sul comando Fine. I dati del file di testo sono trasferiti nel nuovo foglio di lavoro, che ha lo stesso nome del file di testo (MUTUAL) in una nuova cartella. Salvate la nuova cartella nel formato Excel (.xls). Gli oggetti creati con le creazioni guidate si devono controllare per verificare se sono presenti degli errori. In presenza di errori, si può sia modificare l’oggetto, facendovi sopra clic col tasto destro del mouse e quindi scegliendo la voce appropriata, sia cancellare l’oggetto stesso e ricrearlo con la stessa creazione guidata. (Nel nostro esempio, si potrebbero rivedere i dati appena trasferiti e inserire anche una riga per l’intestazione delle colonne, evidenziando tutte le celle della riga 1, selezionando Inserisci | Riga e quindi digitando i titoli delle colonne.) Le aggiunte Le aggiunte, o componenti aggiuntivi, sono delle procedure opzionali che estendono la funzionalità di Excel. Alcune aggiunte, come Analisi dati, sono fornite con il programma e possono essere installate mediante il programma di installazione di Excel. Altre, come Prentice Hall PHStat, devono essere installate separatamente (in questo caso, come già detto, è necessario prima scaricare PHStat dal sito Web abbinato a questo libro). I componenti aggiuntivi in genere modificano la barra del menu di Excel inserendo una nuova voce nel menu preesistente oppure un nuovo menu di scelte. Una volta selezionate, alcune voci dell’aggiunta conducono a finestre di dialogo in cui l’utilizzatore deve effettuare delle scelte, mentre altre generano nuovi oggetti o risultati. Per esempio, l’aggiunta di analisi dei dati inserisce la voce Analisi dati nel menu Strumenti, mentre l’aggiunta PHStat inserisce un nuovo menu nella barra del menu (vedi Figura A1.2). Quando si seleziona Strumenti | Analisi dati si apre una finestra di dialogo in cui è possibile selezionare le analisi statistiche che si intendono compiere. Quando si seleziona PHStat, si apre invece un nuovo menu, da cui si possono selezionare le operazioni di interesse. Diverse aggiunte, inclusa PHStat, possono essere caricate temporaneamente, facendo due volte clic APPENDICE 33 levine1_1-34 5-12-2001 12:02 Pagina 34 FIGURA A1.2.2 Menu PHStat. sulle icone PHStat per Excel 97/2000 o PHStat per Excel 95, che compaiono sul Desktop (vedi le istruzioni di installazione di PHStat nell’Appendice F). o usando le solite procedure per aprire una cartella di Excel (se si seleziona PHStat dal menu di avvio delle aggiunte Prentice Hall, l’aggiunta viene installata in questa maniera). Quando le aggiunte vengono caricate temporaneamente è possibile che si apra la finestra di dialogo del Controllo di virus nelle macro, che avvisa sulla possibilità che la macro che si va ad attivare contenga dei virus. In tal caso, fate clic sul comando Attiva in maniera tale da consentire l’installazione temporanea dell’aggiunta. Fate attenzione a non caricare temporaneamente aggiunte che invece sono già permanentemente installate: potrebbero sorgere seri problemi. Ricordate che, per poter usare Excel e il componente aggiuntivo PHStat in questo libro, è necessario installare sia le aggiunte Strumenti di analisi e Strumenti di analisi-VBA, che sono fornite con Excel, sia l’aggiunta PHStat, che è disponibile sul sito Web abbinato a questo libro. Per installare PHStat è necessario che siano state preventivamente installate le aggiunte Strumenti di analisi e Strumenti di analisi-VBA. Riepilogo In questa appendice abbiamo presentato un’introduzione alle caratteristiche principali di Excel. Nelle appendici dei prossimi capitoli esamineremo altri aspetti di Excel con riferimento a specifiche analisi statistiche. 34 CAPITOLO 1 INTRODUZIONE E RACCOLTA DEI DATI