1 Prefazione Questo libro è scritto per un corso introduttivo di statistica o di probabilità e statistica per studenti di ingegneria, informatica, matematica, statistica, o scienze naturali. Presuppone perciò qualche conoscenza dell’analisi. Il Capitolo 1 è una breve presentazione della statistica ed illustra le due branche della statistica descrittica e dell’inferenza statistica. La prima è poi affrontata nel Capitolo 2, dove vengono presentati i tipi di grafici e di tabelle utili a descrivere i dati campionari. Vengono inoltre introdotte le quantità che sintetizzano alcune delle proprietà fondamentali dei dati. Per potere arrivare a delle conclusioni, è necessario avere informazioni sull’origine dei dati. Si assume spesso allora che i dati rappresentino campioni casuali di una qualche popolazione. Per capire esattamente cosa ciò significhi e come mettere in relazione le proprietà del campione con quelle dell’intera popolazione è necessario acquisire qualche competenza in probabilità. Quest’ultimo è l’obiettivo del Capitolo 3, che introduce l’idea di esperimento probabilistico, illustra il concetto di probabilità di un evento e presenta gli assiomi della probabilità. Questo studio prosegue e viene sviluppato nel Capitolo 4, che si occupa dei fondamentali concetti di variabile aleatoria e di speranza matematica, e nel Capitolo 5, che passa in rassegna alcuni tipi speciali di variabili aleatorie che emergono spesso nelle applicazioni. Vengono definite le variabili aleatorie binomiali, di Poisson, ipergeometriche, normali, uniformi, gamma, chi-quadro, le di Student e le di Fisher. Nel Capitolo 6 studiamo la distribuzione di statistiche campionarie come la media e la varianza campionarie. Mostriamo come usare un notevole risultato della teoria della probabilità, il Teorema del Limite Centrale, per approssimare la distribuzione di probabilità della media campionaria. Inoltre discutiamo la distribuzione di probabilità congiunta di media e varianza campionaria nel caso fondamentale in cui i dati provengano da una popolazione gaussiana. Il Capitolo 7 mostra come usare i dati per stimare parametri di interesse. Pensiamo ad uno studioso che voglia determinare la frazione dei laghi statunitensi afflitta da pioggia acida. Sono due i tipi di stimatori da studiare. Il primo stima la quantità in questione con un solo numero (per esempio potrebbe stimare che il 47% dei laghi sia afflitto da piogge acide), mentre il secondo fornisce una stima nella forma di un intervallo di valori (nel nostro esempio potrebbe stimare che una percentuale tra il 45% ed il 49% dei laghi sia colpita da piogge acide). Il secondo tipo di stimatori ci dice vi Prefazione anche il “livello di confidenza” che possiamo avere sulla loro validità. Questo perché mentre è quasi certo che il valore non sarà precisamente del 47%, possiamo avere una certa confidenza, ad esempio, del 95% che la percentuale effettiva sia compresa tra il 45% ed il 49%. Il Capitolo 8 presenta i test di ipotesi, un settore importante che riguarda l’utilizzo dei dati per verificare la plausibilità di ipotesi definite in precedenza. Per esempio, un test di questo tipo potrebbe escludere l’ipotesi che meno del 44% dei laghi americani siano afflitti da piogge acide. Viene quindi introdotto il concetto di p-dei-dati, che misura il grado di plausibilità dell’ipotesi assegnata, dopo l’osservazione dei dati. Sono considerati diversi tipi di test di ipotesi, riguardanti i parametri sia di una, sia di due popolazioni normali. Vengono anche presentati i test di ipotesi relativi a parametri di distribuzioni di Bernoulli e di Poisson. Il Capitolo 9 si occupa della regressione. Vengono trattate sia la regressione lineare semplice (includendo argomenti come la regressione alla media, l’analisi dei residui ed i minimi quadrati pesati) sia la regressione lineare multipla. Il Capitolo 10 introduce l’analisi della varianza. Vengono considerati sia i problemi one-way sia quelli two-way (con o senza interazione). Il Capitolo 11 riguarda i test di corrispondenza dei fit, che possono essere usati per verificare se il modello proposto sia compatibile coi dati. Qui presentiamo anche il classico test del chi-quadro, e lo applichiamo per verificare l’indipendenza in tabelle di contingenza. La sezione finale di questo capitolo presenta la procedura di Kolmogorov-Smirnov per verificare per verificare se i dati provengano da una distribuzione di probabilità continua assegnata. Il Capitolo 12 affronta i test di ipotesi non parametrici, che possono essere impiegati quando non si è in grado di stabilire la particolare classe (ad esempio gaussiana) della distribuzione originale dei dati. Il Capitolo 13 considera il controllo di qualità, una tecnica statistica fondamentale per i processi di fabbricazione e produzione. Vengono affrontate diverse carte di controllo di Shewhart, e anche altre più sofisticate, basate su medie mobili e somme progressive. Il Capitolo 14 affronta i problemi annessi al tempo di vita dei sistemi. In questo ambito è la distribuzione esponenziale piuttosto che la normale ad avere un ruolo chiave. Sul sito web dedicato a questo libro è disponibile un software statistico liberamente scaricabile che include molti programmi che possono essere usati per risolvere la gran parte dei problemi di statistica del testo. Ad esempio si può calcolare il p-deidati per la maggior parte dei test di ipotesi, compresi quelli sull’analisi della varianza e la regressione. Può essere usato per ottenere le probabilità che definiscono le più importanti distribuzioni. (Per chi non ha accesso ad un personal computer o al world wide web, sono comunque inclusi tabulati che possono essere usati per risolvere tutti Prefazione vii i problemi del testo). Un altro programma incluso nel nostro software illustra Teorema del Limite Centrale. Considera variabili aleatorie che assumono i valori 0, 1, 2, 3 e 4 con probabilità che sono assegnate dall’utente assieme ad un intero , e visualizza la funzione di massa di probabilità della somma di variabili aleatorie indipendenti con questa distribuzione. Facendo crescere si può “vedere” la funzione di massa convergere alla forma tipica di una densità di probabilità gaussiana.