Campionamento e Statistica Descrittiva Statistica Matematica Cecilia Vernia Statistica Descrittiva Statistica, perché ? • Incertezza nella ripetizione delle misurazioni (dipendenza da fattori casuali) • Trarre conclusioni dai dati • Costruire esperimenti validi e tracciare conclusioni affidabili Statistica Matematica Cecilia Vernia Statistica Descrittiva Idea di base Fare inferenze su una popolazione studiando un campione estratto da essa. Statistica Matematica Cecilia Vernia Statistica Descrittiva Esempio • Un macchinario produce rondelle d’acciaio per dispositivi di memoria ottica. • Specifica per il diametro delle rondelle è 0.45 0.02 cm • 1000 rondelle prodotte…..quante rispettano la specifica? • Su 50 rondelle 46 (=92%) hanno il diametro nella specifica. • La proporzione, nella popolazione, di rondelle col diametro giusto è probabile che differisca dal 92% (proporzione campionaria). Statistica Matematica Cecilia Vernia Statistica Descrittiva Domande • Quanto può essere grande la differenza tra la proporzione delle rondelle buone nel campione e nella popolazione? Deviazione Standard • Come calcolare x tale che la vera percentuale di rondelle accettabili nella popolazione si trovi, con ragionevole fiducia nell’intervallo 92%x%? Intervallo di confidenza • Come essere sicuri che almeno il 90% delle 1000 rondelle sia accettabile? Test d’ipotesi Statistica Matematica Cecilia Vernia Statistica Descrittiva Statistica inferenziale Metodi per poter trarre conclusioni dai dati Statistica descrittiva Metodi per raccogliere dati e produrre informazioni da essi Statistica Matematica Cecilia Vernia Statistica Descrittiva Indagine Statistica • Rilevazione dei dati • Organizzazione dei dati • Presentazione dei dati organizzati • Interpretazione dei dati e conclusioni Statistica Matematica Cecilia Vernia Statistica Descrittiva Campionamento Definizioni: Una popolazione è l’intera collezione di oggetti o eventi sui quali si ricerca l’informazione. Un campione è un sottoinsieme della popolazione. Esso contiene gli oggetti o gli eventi che sono osservati realmente. Un campione casuale semplice (ccs) di ampiezza n è un campione casuale scelto in modo che ogni elemento degli n abbia la stessa probabilità di essere incluso nel campione. Estrazione casuale degli elementi che costituiscono il campione. Statistica Matematica Cecilia Vernia Statistica Descrittiva Campione Casuale Semplice • Un CCS non rispecchia perfettamente la propria popolazione. • CCS differiscono dalla popolazione per diversi motivi, a volte anche in maniera sostanziale. • Due differenti campioni da una stessa popolazione sono diversi l’uno dall’altro. Tale fenomeno è noto come variabilità di campionamento. Statistica Matematica Cecilia Vernia Statistica Descrittiva Indipendenza • Gli elementi in un campione casuale semplice possono essere trattati come indipendenti nella maggior parte dei casi che si incontrano nella pratica. L’eccezione si ha quando la popolazione è finita e l’ampiezza del campione è maggiore o uguale al 5% di quella della popolazione. Statistica Matematica Cecilia Vernia Statistica Descrittiva Indipendenza: esempio Popolazione Campione 1 0 1 0 Statistica Matematica Cecilia Vernia Statistica Descrittiva Indipendenza: esempio Popolazione Campione 1 0 1 0 Estrazione: uguale probabilità di estrarre 0 o 1 Statistica Matematica Cecilia Vernia Statistica Descrittiva Indipendenza: esempio Popolazione Campione 1 0 1 0 Estrazione: uguale probabilità di estrarre 0 o 1 0 1 0 1 Statistica Matematica Cecilia Vernia Statistica Descrittiva Indipendenza: esempio Popolazione Campione 1 0 1 0 Estrazione: uguale probabilità di estrarre 0 o 1 0 1 0 1 Estrazione: maggiore probabilità di estrarre 1 Statistica Matematica Cecilia Vernia Statistica Descrittiva Indipendenza: esempio Popolazione Campione 1 0 1 0 Estrazione: uguale probabilità di estrarre 0 o 1 0 1 0 1 Estrazione: maggiore probabilità di estrarre 1 1 Statistica Matematica Cecilia Vernia 0 0 1 Statistica Descrittiva Indipendenza: esempio Popolazione Campione 1 0 Statistica Matematica Cecilia Vernia Statistica Descrittiva Indipendenza: esempio Popolazione Campione 1 0 Estrazione: uguale probabilità di estrarre 0 o 1 Statistica Matematica Cecilia Vernia Statistica Descrittiva Indipendenza: esempio Popolazione Campione 1 0 Estrazione: uguale probabilità di estrarre 0 o 1 0 1 0 Statistica Matematica Cecilia Vernia Statistica Descrittiva Indipendenza: esempio Popolazione Campione 1 0 Estrazione: uguale probabilità di estrarre 0 o 1 0 1 0 Estrazione: probabilità di estrarre 0 o 1 praticamente uguali Statistica Matematica Cecilia Vernia Statistica Descrittiva Indipendenza: esempio Popolazione Campione 1 0 Estrazione: uguale probabilità di estrarre 0 o 1 0 1 0 Estrazione: probabilità di estrarre 0 o 1 praticamente uguali 1 Statistica Matematica Cecilia Vernia 0 0 ? Statistica Descrittiva Indipendenza: campionamento con reinserimento Popolazione Campione 1 0 1 0 Statistica Matematica Cecilia Vernia Statistica Descrittiva Indipendenza: campionamento con reinserimento Popolazione Campione 1 0 1 0 Estrazione: uguale probabilità di estrarre 0 o 1 Statistica Matematica Cecilia Vernia Statistica Descrittiva Indipendenza: campionamento con reinserimento Popolazione Campione 1 0 1 0 Estrazione: uguale probabilità di estrarre 0 o 1 0 1 0 1 Statistica Matematica Cecilia Vernia Statistica Descrittiva Indipendenza: campionamento con reinserimento Popolazione Campione 1 0 1 0 Estrazione: uguale probabilità di estrarre 0 o 1 1 0 1 0 0 reinserimento Statistica Matematica Cecilia Vernia Statistica Descrittiva Indipendenza: campionamento con reinserimento Popolazione Campione 1 0 1 0 Estrazione: uguale probabilità di estrarre 0 o 1 1 0 1 0 reinserimento Statistica Matematica Cecilia Vernia 0 Estrazione: uguale probabilità di estrarre 0 o 1 Statistica Descrittiva Indipendenza: campionamento con reinserimento Popolazione Campione 1 0 1 0 Estrazione: uguale probabilità di estrarre 0 o 1 1 0 1 0 reinserimento Statistica Matematica Cecilia Vernia 1 0 0 1 0 Estrazione: uguale probabilità di estrarre 0 o 1 0 ? Statistica Descrittiva Ancora Definizioni: Una sintesi numerica calcolata su un campione è detta statistica. Una sintesi numerica calcolata su una popolazione è detta parametro. Le statistiche vengono spesso utilizzate per stimare i parametri. Statistica Matematica Cecilia Vernia Statistica Descrittiva Popolazione Campione Inferenza Parametro Statistica Matematica Cecilia Vernia Statistica Statistica Descrittiva Ancora sui CCS Definizione: Una popolazione concettuale è formata da tutti i valori che potrebbero essere osservati. • Per esempio, un geologo pesa una pietra diverse volte su una bilancia elettronica. Ogni volta la bilancia dà risultati leggermente differenti • La popolazione è concettuale ed è composta da tutte le misurazioni che la bilancia, in teoria, potrebbe produrre. Statistica Matematica Cecilia Vernia Statistica Descrittiva Tipi di dati • Numerico o quantitativo se una quantità numerica è assegnata ad ogni elemento nel campione. • Altezza • Peso • Età • Categorico o qualitativo se gli elementi del campione sono classificati in categorie. • Genere • Colore dei capelli • Sigle di province Statistica Matematica Cecilia Vernia Statistica Descrittiva Organizzazione dei dati yi Indici statistici Statistica Matematica Cecilia Vernia Statistica Descrittiva Organizzazione dei dati yi Indici statistici Statistica Matematica Cecilia Vernia Statistica Descrittiva Organizzazione dei dati yi Indici statistici • Campo di Variazione: minimo intervallo che contiene tutti gli yi ; r max yi min yi min yi Statistica Matematica Cecilia Vernia max yi Statistica Descrittiva Organizzazione dei dati yi Indici statistici • Campo di Variazione: minimo intervallo che contiene tutti gli yi ; r max yi min yi • Classi min yi Statistica Matematica Cecilia Vernia max yi Statistica Descrittiva Organizzazione dei dati yi Indici statistici • Campo di Variazione: minimo intervallo che contiene tutti gli yi ; r max yi min yi • Classi (numero delle classi ed ampiezza) min yi nc 1 1.443 log n Statistica Matematica Cecilia Vernia max yi r nc Statistica Descrittiva Funzioni di frequenza • Funzione di frequenza (x): associa ad ogni classe il numero degli elementi che la compongono; • Funzione di frequenza relativa r(x): rapporto tra il numero degli elementi della classe e il numero totale degli elementi; r x ( x) n • Funzioni di frequenza cumulativa c(x): numero degli elementi della classe e delle classi precedenti; • Funzione di frequenza cumulativa relativa cr(x): cr x c ( x) n Statistica Matematica Cecilia Vernia Statistica Descrittiva Funzione di frequenza n 100 ( x1 ) 3 ( x2 ) 7 ( x3 ) 20 ( x4 ) 45 ( x5 ) 8 ( x6 ) 5 ( x7 ) 12 min yi x1 x 2 x 3 x 4 x 5 x 6 x 7 nc Statistica Matematica Cecilia Vernia i 1 max yi ( xi ) 100 Statistica Descrittiva Funzione di frequenza relativa r ( x) ( x) / n r ( x1 ) 0.03 r ( x2 ) 0.07 r ( x3 ) 0.2 r ( x4 ) 0.45 ( x5 ) 0.08 r ( x6 ) 0.05 r ( x7 ) 0.12 min yi x1 x 2 x 3 x 4 x 5 x 6 x 7 nc max yi r ( xi ) 1 Statistica Matematica Cecilia Vernia i 1 Statistica Descrittiva Funzione di frequenza cumulativa n 100 c ( x1 ) 3 c ( x2 ) 10 c ( x3 ) 30 c ( x4 ) 75 c ( x5 ) 83 c ( x6 ) 88 c ( x7 ) 100 min yi Statistica Matematica Cecilia Vernia x1 x 2 x 3 x 4 x 5 x 6 x 7 max yi Statistica Descrittiva Funzione di frequenza cumulativa relativa cr ( x ) r ( x ) / n cr ( x1 ) 0.03 cr ( x2 ) 0.1 cr ( x3 ) 0.3 cr ( x4 ) 0.75 cr ( x5 ) 0.83 cr ( x6 ) 0.88 cr ( x7 ) 1 min yi Statistica Matematica Cecilia Vernia x1 x 2 x 3 x 4 x 5 x 6 x 7 max yi Statistica Descrittiva Istogramma • Scegliere i punti di confine per gli intervalli di classe. • Calcolare le frequenze e le frequenze relative per ogni classe. • Calcolare la densità per ogni classe secondo la formula Densità = frequenza relativa /ampiezza classe • Disegnare un rettangolo per ogni classe, la cui altezza sia uguale alla densità. Statistica Matematica Cecilia Vernia Statistica Descrittiva Istogramma L’altezza di ogni rettangolo dell’istogramma è la densità: ( xi ) r ( xi ) / i , dove i è la lunghezza della classe i e r (x ) è la frequenza relativa. L’area totale dell’istogramma è nc nc 1n ( xi )i r ( xi ) n ( xi ) 1 i 1 i 1 i 1 dove (x ) è la frequenza, che soddisfa alla condizione: c nc ( xi ) n, i 1 n è l’ampiezza del campione e nc è il numero delle classi. Statistica Matematica Cecilia Vernia Statistica Descrittiva Misure Statistiche di sintesi • Media Campionaria: • Varianza Campionaria: 1 n X Xi n i 1 2 1 n 1 n 2 2 s X X X nX i i n 1 i 1 n 1 i 1 2 • Deviazione Standard Campionaria è la radice quadrata della varianza campionaria. •Se X1, …, Xn è un campione, e Yi = a + b Xi ,con a e b costanti, allora Y a bX . • Se X1, …, Xn è un campione, e Yi = a + b Xi ,con a e b 2 2 2 costanti, allora s y b s x s y | b | sx Statistica Matematica Cecilia Vernia Statistica Descrittiva Misure di Dispersione • Varianza dei dati • Varianza campionaria • La varianza stima la dispersione nella popolazione da cui si estrae il campione (le distanze dalla media campionaria sono più piccole delle distanze dalla media della si divide per (n-1)) popolazione Statistica Matematica Cecilia Vernia Statistica Descrittiva Moda e Mediana Definizione: La moda è il valore più presente nel campione. Se esistono diversi valori con uguale frequenza, ciascuno di essi è una moda. Definizione: La mediana come la media è un’altra misura di tendenza centrale. Per calcolarla si ordinano i valori in ordine crescente: Se n è dispari, la mediana campionaria è il valore nella posizione: n 2 1 . Se n è pari, la mediana campionaria è la media dei due valori che occupano le posizioni: n2 and n2 1. Statistica Matematica Cecilia Vernia Statistica Descrittiva Moda unica Più mode Statistica Matematica Cecilia Vernia Statistica Descrittiva Statistica Matematica Cecilia Vernia Statistica Descrittiva Quartili Definizioni: Il primo quartile è la mediana della metà inferiore dei dati (includere la mediana nella metà inferiore dei dati se n è dispari). Il terzo quartile è la mediana della metà superiore dei dati (includere la mediana nella metà superiore dei dati se n è dispari). Statistica Matematica Cecilia Vernia Statistica Descrittiva Quartili Definizioni: Il primo quartile è la mediana della metà inferiore dei dati (includere la mediana nella metà inferiore dei dati se n è dispari). Il terzo quartile è la mediana della metà superiore dei dati (includere la mediana nella metà superiore dei dati se n è dispari). •Ex n=99 ( xi x1 x25 x26 2 Statistica Matematica Cecilia Vernia ordinati) x50 x74 x75 2 x99 Statistica Descrittiva Percentili Definizione: Il p-esimo percentile z p di un campione, con p numero tra 0 e 100, divide il campione in modo tale che almeno il p% dei valori campionari siano più piccoli di z p . Per calcolarlo: Ordinare i valori del campione in ordine crescente. Calcolare la quantità (p/100)(n+1), dove n è l’ampiezza del campione. Se questa quantità è un intero, allora il valore del campione che occupa questa posizione è il p-esimo percentile. Altrimenti, è la media dei due valori tra cui si trova (p/100)(n+1). Osserva: il primo quartile è il 25mo percentile, la mediana è il 50mo percentile, e il terzo quartile è il 75mo percentile. Statistica Matematica Cecilia Vernia Statistica Descrittiva Rappresentazioni Grafiche • • • • Grafico a punti Istogramma Boxplot Scatterplot (o grafico a dispersione) Statistica Matematica Cecilia Vernia Statistica Descrittiva Grafico a punti • Un dotplot è un grafico che può essere usato per dare una prima (approssimativa) idea della forma del campione. • È utile quando l’ampiezza del campione è non troppo grande e quando il campione contiene alcuni valori ripetuti. • Generalmente non usato nelle presentazioni formali. Dotplot for HiAltitude 2 12 22 HiAltitude Statistica Matematica Cecilia Vernia Statistica Descrittiva Istogramma • Scegliere i punti di confine per gli intervalli di classe. • Calcolare le frequenze e le frequenze relative per ogni r ( xi ) classe. • Calcolare la densità per ogni classe secondo la formula Densità = frequenza relativa /ampiezza classe • Disegnare un rettangolo per ogni classe, la cui altezza sia uguale alla densità. Statistica Matematica Cecilia Vernia Statistica Descrittiva Simmetria e Asimmetria • Un istogramma è perfettamente simmetrico se la sua metà di destra è esattamente l’immagine speculare della sua metà di sinistra. – Altezze di persone scelte a caso • Gli istogrammi che non sono simmetrici sono detti asimmetrici. • Un istogramma con la coda a destra più lunga si dice asimmetrico a destra, o con asimmetria positiva. – L’istogramma del reddito è asimmetrico a destra. • Un istogramma con la coda a sinistra più lunga si dice asimmetrico a sinistra, o con asimmetria negativa. – Votazioni riportate in un test facile: asimmetrico a sinistra. Statistica Matematica Cecilia Vernia Statistica Descrittiva Boxplot • Un boxplot è un grafico che riporta la mediana, il primo e il terzo quartile e gli outliers presenti nel campione. • La differenza interquartile (IQR) è la differenza tra il terzo e il primo quartile. Questa è la distanza che copre la metà centrale dei dati. • Passi nella costruzione di un Boxplot Calcolare la mediana, il primo e il terzo quartile del campione. Indicare questi valori con linee orizzontali. Disegnare linee verticali per completare la scatola. Trovare il più grande valore del campione che non superi per più di 1.5 IQR il terzo quartile e il più piccolo valore del campione che non sia inferiore per più di 1.5 IQR del valore del primo quartile. Collegare le linee dei quartili con delle linee verticali (baffi) a questi punti. I Punti più grandi di 1.5 IQR volte il terzo quartile o più piccoli di 1.5 IQR volte il primo quartile sono definiti outliers e riportati singolarmente attraverso delle croci. Statistica Matematica Cecilia Vernia Statistica Descrittiva Boxplot max{ xi | xi t 1.5} outlier X terzo quartile t mediana p primo quartile min{ xi | xi p 1.5} Statistica Matematica Cecilia Vernia X outlier Statistica Descrittiva Esempio: dati del Geyser: Non ci sono outliers in questo campione. Osservando le quattro parti del boxplot, si può dire che I valori del campione sono più addensati tra la mediana ed il terzo quartile. Il baffo che si trova in basso è un po’ più lungo di quello che si trova in alto, il che indica che i dati hanno una coda leggermente più lunga sulla parte inferiore che su quella superiore. La distanza tra il primo quartile e la mediana è più grande di quella tra la mediana e il terzo quartile. 90 80 duration 70 60 50 40 Questo boxplot suggerisce che i dati sono asimmetrici a sinistra. Statistica Matematica Cecilia Vernia Statistica Descrittiva Scatterplot • I dati le cui unità possiedono una coppia di valori sono detti bivariati ( xi , yi ) • La rappresentazione grafica per i dati bivariati è lo scatterplot (o grafico a dispersione). • Esempio di scatterplot: 2 y 1 0 -1 0 1 2 3 4 5 6 7 8 x Statistica Matematica Cecilia Vernia Statistica Descrittiva Esempio:Pesi di 50 persone 53 55 56 57 57 58 58 59 59 60 60 60 61 61 61 61 62 62 62 62 63 63 63 63 63 64 64 64 64 64 64 65 65 65 65 65 66 66 66 66 67 67 67 68 68 69 70 71 71 73 Campo di variazione [53,73] Statistica Matematica Cecilia Vernia Statistica Descrittiva Suddivisione in classi • Numero di classi: 7 ([1+1.443 lg 50]=7); 20 2.86 ) • Ampiezza delle classi: 3 ( 7 Statistica Matematica Cecilia Vernia Statistica Descrittiva Istogramma •Media: 1 50 1 x xi 73 71 51 63.22 50 i 1 50 •Mediana: xmed x25 x26 63 64 63.5 2 2 •Moda x mod 64 Statistica Matematica Cecilia Vernia Statistica Descrittiva Funzioni di frequenza •Varianza 2 1 n 1 50 2 i 1 xi x i 1 xi 63.22 17.13 n 50 2 •Deviazione Standard 17.13 4.14 Statistica Matematica Cecilia Vernia Statistica Descrittiva