PROGRAMMA DEL CORSO DI STATISTICA A – Di ANNO ACCADEMICO 2015 – 16 Mario Romanazzi 1 Argomenti Riferimenti bibliografici fra parentesi. 1.1 Parte I. Descrizione e sintesi dei dati Natura e scopo della Statistica Dati empirici come fonte di conoscenza. Campioni e popolazione di riferimento. Statistica descrittiva e inferenza. Scelta casuale delle unità campionarie: la chiave per la misura dell’errore di campionamento. Ruolo della probabilità nella Statistica. (Ross, Cap. 1.) Distribuzioni di frequenza Sintesi dei dati mediante tabelle di frequenza. Nozione di moda. Dati categoriali e numerici. Presentazione ramo-foglia di dati numerici. Raggruppamento in classi di dati numerici. Nozione di densità di frequenza relativa. Istogramma come diagramma normalizzato della curva di densità. Tipologie distributive: unimodale o bimodale (multimodale), simmetrica o asimmetrica, crescente o decrescente, uniforme, normale. Ricavare la tipologia distributiva da un ramo-foglia o da un istogramma. (Ross, Cap. 2.) Quantili e diagramma scatola-baffi Nozione di quantile. Calcolo dei quantili campionari. Quantili notevoli: mediana e quartili. Funzioni dei quantili: minimo e massimo valore campionario, intervallo di variazione, intervallo interquartilico e scarto interquartilico. Diagramma scatola-baffi. Ricavare la tipologia distributiva da un diagramma scatola-baffi. Nozione di outlier. Criterio di Tukey e criterio dei tre sigma per il riconoscimento degli outliers. (Ross, Cap. 3; per il criterio di riconoscimento degli outliers secondo Tukey, Zibaldone 1.1) Media, deviazione standard e curva gaussiana Posizione e dispersione di una distribuzione numerica. Media, varianza e deviazione standard. Calcolo della media e della varianza campionarie. Interpretazione della media e della deviazione standard. Sintesi di una distribuzione mediante quantili o mediante la coppia media, deviazione standard. Nozione di curva di densità normale. Area di intervalli centrati sulla 1 1 ARGOMENTI 2 media per curve normali. Approssimare istogrammi empirici con curve normali. Trasformazioni lineari e loro effetti su media, deviazione standard e quantili. Una particolare trasformazione lineare: la standardizzazione. Interpretazione dei valori della scala standard. Proprietà associativa della media. (Ross, Cap. 3.) Diagramma di dispersione e coefficiente di correlazione lineare Dati numerici bivariati. Nozione di distribuzione congiunta di due variabili. Uso del diagramma di dispersione per visualizzare le caratteristiche della distribuzione congiunta: posizione, dispersione, forma, presenza di outliers. Nozione di dipendenza e indipendenza distributiva. La covarianza campionaria: definizione e formula di calcolo. Il coefficiente di correlazione lineare come covarianza normalizzata. Uso del coefficiente di correlazione lineare per valutare il grado di interdipendenza lineare di una coppia di variabili. La retta dei minimi quadrati. Stima dei parametri. Scomposizione della devianza della variabile dipendente e indice R2 . (Ross, Cap. 2, 3, 12.1-12.3, 12.8, 12.9.) Esercizi consigliati: Cap. 2 (riepilogo): 1-4, 8, 9, 12, 14, 16; Cap. 3 (riepilogo): 2, 6, 8, 12, 13; Cap. 12.2: 3-5, Cap. 12.3: 8, 10, 12, 13, 15, Cap. 12.8: 1, 3 (eccetto parte d.), 6 (eccetto parte d.), Ch. 12.9: 1-5. 1.2 Parte II. Elementi di probabilità Probabilità Esperimenti casuali, spazi campionari, eventi. Proprietà richieste per le misure di probabilità. Teoremi base: probabilità dell’evento complementare di un evento dato e probabilità dell’unione di due eventi. Eventi subordinati e probabilità subordinata. Indipendenza stocastica. Probabilità dell’intersezione di due eventi. Formula della probabilità totale e teorema di Bayes. Elementi di calcolo combinatorio: disposizioni, permutazioni e combinazioni semplici. La funzione fattoriale. (Ross, Cap. 4.) Variabili aleatorie Variabili aleatorie (v. a.) come trasformazioni di uno spazio campionario nell’insieme dei numeri reali. Distribuzione di probabilità di una v. a. V. a. discrete: descrizione della distribuzione di probabilità mediante una funzione di probabilità. V. a. continue: descrizione della distribuzione di probabilità mediante una funzione di densità di probabilità. (Ross, Cap. 5, 6.) Indici di sintesi delle variabili aleatorie Valore atteso come previsione del (futuro) valore di una v. a. Varianza e deviazione standard. Deviazione standard come misura dell’errore di una v. a. rispetto al proprio valore atteso. Calcolo di valore atteso, varianza e deviazione standard di v. a. discrete e continue. Effetto di una trasformazione lineare su valore atteso, varianza e deviazione standard. V. a. stocasticamente indipendenti. Additività del valore atteso. Varianza di somme di v. a. stocasticamente indipendenti o dipendenti. Quantili di una v. a. (Ross, Cap. 5.) 1 ARGOMENTI 3 Alcuni modelli probabilistici Distribuzione binomiale: funzione di probabilità, valore atteso e deviazione standard. Distribuzione ipergeometrica. Distribuzioni binomiale e ipergeometrica come modelli probabilistici del numero dei successi in un campione casuale con o senza reinserimento, rispettivamente, da una popolazione dicotomica. Distribuzione normale (o gaussiana): geometria della funzione di densità. Proprietà base: una trasformazione lineare di una distribuzione normale è ancora normale. Distribuzione normale standard. Calcolo delle probabilità e dei quantili di una distribuzione normale. Proprietà additiva. Distribuzione normale come modello probabilistico di un fenomeno numerico generato dalla somma di molti contributi indipendenti. (Ross, Cap. 5, 6.) Esercizi consigliati: Cap. 4.2: 4-8, 10, 11, Cap. 4.3: 2-5, 9, 11, 13, 15, Cap. 4.4: 8-12, Cap. 4.5: 1, 4, 10, 20, Cap. 4.6: 2, 4, 5, Cap. 4.7: 5, 7, 8, 10, 13, 15, Cap. 4 (riepilogo) 1, 4, 9, 10, 11, 13, 14, 17, 21, 23. Esercizi consigliati: Cap. 5.2: 17, 18, Cap. 5.3: 11, 20, 23, 25, 30, 32, Cap. 5.4: 9, 16, 17, 18, 19, Cap. 5.5: 8-10, 12, 19, 22, 23, Cap. 5.6: 1, 2, Cap. 5 (riepilogo) 3, 7, 8, 10, 11, 14-16, 19. Esercizi consigliati: Cap. 6 (riepilogo) 3-9, 15. 1.3 Parte III. Statistiche campionarie ed inferenza Statistiche campionarie Il modello standard del campionamento statistico. Dati campionari come determinazioni di una n-upla di v. a. indipendenti e identicamente distribuite come la popolazione campionata. Distribuzione di probabilità, valore atteso e deviazione standard delle somme e delle medie campionarie. Teorema centrale di convergenza: distribuzione asintoticamente normale delle somme e delle medie campionarie. Legge dei grandi numeri per la media campionaria (cenno). Distribuzione di probabilità, valore atteso e deviazione standard delle frequenze assolute e relative campionarie. Frequenza assoluta e relativa campionaria come somma e media, rispettivamente, di variabili con determinazioni zero o uno. Distribuzione asintoticamente normale delle frequenze assolute e relative campionarie. Legge dei grandi numeri per la frequenza relativa campionaria (teorema di Bernoulli, cenno). Campionamento da una popolazione normalmente distribuita. Distribuzioni chiquadrato e t di Student. Confronto t di Student, normale standard. Distribuzioni di probabilità della media e della varianza campionaria con dati normalmente distribuiti. (Ross, Cap. 7, 8; per la legge dei grandi numeri e il teorema di Bernoulli, Zibaldone, 1.2.) Esercizi consigliati: Cap. 7 (riepilogo): 1-6, 9, 11, 12. Stima Nozione di stimatore. Proprietà e misure di qualità degli stimatori (cenno). Stima puntuale della media µ della popolazione e del suo errore standard. Intervallo di confidenza asintotico e per piccolo campione di µ. Stima puntuale della frequenza relativa pA di un evento A della popolazione e del suo errore standard. Intervallo di 2 BIBLIOGRAFIA 4 confidenza asintotico di pA . Numerosità campionaria necessaria per raggiungere un prefissato requisito di accuratezza. (Ross, Cap. 8; per le proprietà degli stimatori, Zibaldone, 1.3.) Esercizi consigliati: Cap. 8 (riepilogo): 3-9, 12-15. Prova di ipotesi statistiche Il quadro concettuale: ipotesi di nullità, ipotesi alternativa, statistica test. Approccio decisionale: errori di primo e secondo tipo, livello di significatività, regione di rifiuto dell’ipotesi di nullità. Test sulla media µ della popolazione. Test sulla frequenza relativa pA di un evento A della popolazione. Approccio basato sul livello di significatività osservato (p-value). (Ross, Cap. 9.) Esercizi consigliati: Cap. 9.4: 1-4, 6, 12, Cap. 9.5: 1-3, 5, 8, 9, 12, 14, Cap. 9 (riepilogo): 2, 5, 6, 14. 2 Bibliografia Il testo di riferimento è Ross, Sheldon M., Introductory Statistics, 2nd edition, Elsevier Academic Press, 2005. Traduzione italiana di M. Gasparini: Introduzione alla Statistica, Apogeo, 2008. Piccole integrazioni del testo, errata-corrige, e altro materiale in Zibaldone, http://venus.unive.it/romanaz.