Statistica ● Modulo del corso di matematica: perché studiare matematica a biotec? ● docente: dott. Roberto Chignola, Ricercatore Area 06 (Medicina), SSD Patologia generale: cos'è? perché? ● riferimenti web: [email protected]; http://profs.sci.univr.it/~chignola/ ● dove sono: c/o Dip. di Biotecnologie, palazzo CV1, stanza 2.05 ● quando ricevo: praticamente sempre, o in studio o in lab. (porta accanto) ● tel.: 045 802 7953 Statistica Testo di riferimento: Analisi statistica dei dati biologici Michael C. Whitlock, Dolph Schulter ed. ital. a cura di Giorgio Bertorelle Zanichelli costo: € 50.50 è tanto? e le “slides” del docente? Perché il docente è un biologo? Gli autori del vostro libro: Michael Whitlock è professore di Zoologia presso la University of British Columbia. Dolph Schluter è professore di Zoologia e Canada Research Chair presso lo Zoology Department e il Biodiversity Research Center della University of British Columbia. Perché il docente è un biologo? fonte Wikipedia, voce “valore atteso”: Perché il docente è un biologo? fonte Wikipedia, link a “spazio di misura”: Perché il docente è un biologo? ...e infine, fonte Wikipedia, link a “sigma-algebra”: Perché il docente è un biologo? Risposta: non lo so ma è meglio per voi! ● Corso essenzialmente pratico ● Esempi reali e tratti anche dal mio lavoro di laboratorio ● Matematica ridotta ma NON assente Natura e Matematica [Lotario Sarsi] forse stima che la filosofia sia un libro e una fantasia d’un uomo, come l’Iliade e l’Orlando Furioso, libri ne’ quali la meno importante cosa è che quello che vi è scritto sia vero. Signor Sarsi, la cosa non istà così. La filosofia è scritta in questo grandissimo libro che continuamente ci sta aperto innanzi a gli occhi (io dico l'universo), ma non si può intendere se prima non s'impara a intender la lingua, e conoscer i caratteri, ne' quali è scritto. Egli è scritto in lingua matematica, e i caratteri son triangoli, cerchi, ed altre figure geometriche, senza i quali mezi è impossibile a intenderne umanamente parola; senza questi è un aggirarsi vanamente per un oscuro laberinto. Lotario Sarsi è in realtà Orazio Grassi, gesuita, con cui Galileo ebbe una disputa sull'origine delle comete (tre comete apparvero nel 1618) 1564-1642 Statistica Metodo scientifico: metodo ipotetico-deduttivo Karl R. Popper (1902-1994) da: S. McKillup, Statistics explained, Cambridge University Press, 2005 Metodo scientifico Da dove arrivano le ipotesi? ● ● ● osservazioni in “campo” o in “lab” su campioni misure dirette misure indirette Come si saggiano (“testano”) le predizioni? ● ● ulteriori osservazioni su nuovi campioni esperimenti opportunamente pianificati Statistica Metodo scientifico Come si prende la decisione su un'ipotesi? il risultato di un saggio può dare due esiti: 1. i risultati sono consistenti con l'ipotesi iniziale 2. i risultati sono inconsistenti con l'ipotesi che pertanto PUÒ essere rifiutata Se poi l'ipotesi è accettata, resiste ad ulteriori verifiche e assume carattere di generalità allora può diventare una teoria. Nulla vieta che la teoria possa essere rifiutata in futuro. Statistica e teoria delle probabilità Metodo scientifico Ipotesi nulla: H0 la molecola NON è efficace verifica Ipotesi sulla base dei miei studi formulo l'ipotesi: la molecola che ho isolato e studiato potrebbe essere efficace nella cura dei tumori Ipotesi alternativa: H1 la molecola è efficace Statistica Cosa fanno allora la statistica e la teoria delle probabilità? ● permettono di pianificare correttamente gli esperimenti di verifica ● permettono di descrivere e misurare diversi aspetti della natura basandosi su campioni (statistica descrittiva) ● permettono di stimare una grandezza incognita di una popolazione partendo dalle misure effettuate su campioni (inferenza statistica) ● forniscono un criterio oggettivo per accettare (e non rifiutare) l'ipotesi nulla oppure l'ipotesi alternativa Implicazioni La verifica delle ipotesi ha una natura probabilistica! ● nessuna ipotesi o teoria può essere dimostrata ● in scienza non esiste alcuna verità assoluta metodo scientifico: parentesi ...secondo Popper il metodo scientifico procede secondo una sequenza costituita da formulazione e falsificazione delle ipotesi. Dunque le ipotesi (e le teorie) sono sempre a rischio di essere falsificate. Ma le cose vanno davvero così? Thomas Khun (1922-1996) pensa che le cose non stiano esattamente così. Le ipotesi che resistono ad una prima fase di verifica assumono subito una certa connotazione di generalità e vengono quindi accettate come “paradigmi”. I paradigmi si consolidano e tendono a resistere maggiormente ai tentativi di falsificazione futuri. Eventualmente i paradigmi vengono aggiustati per comprendere possibili osservazioni contrarie. È solo quando le evidenze negative diventano così tante da non poter essere trascurate che il paradigma crolla. Al crollo del paradigma si ha una rivoluzione scientifica. Anche Imre Lakatos (1922-1974) critica Popper e pensa che quelle che siamo soliti considerare 'teorie' sono in realtà gruppi di teorie leggermente differenti tra loro, le quali condividono alcuni principi, definibili 'nucleo'. Lakatos definisce 'programmi di ricerca' tali gruppi. Gli scienziati coinvolti nel programma difendono il nucleo teoretico dai tentativi di falsificazione cingendolo di una serie di ipotesi ausiliarie. Mentre Popper generalmente screditava simili misure dichiarandole 'ad hoc', Lakatos intendeva mostrare che lo sviluppo e la messa a punto di ipotesi protettive non è necessariamente un male, per un programma di ricerca. Invece che tra teorie vere e false, Lakatos preferisce distinguere tra programmi di ricerca progressivi e degenerativi. I programmi di ricerca progressivi crescono e sono caratterizzati dalla scoperta di nuovi fatti. I programmi degenerativi sono caratterizzati dalla mancanza di crescita o dal moltiplicarsi di ipotesi protettive che non conducono a fatti nuovi. metodo scientifico: esempio metodo scientifico: esempio osservazioni ipotesi falsificazione nuova ipotesi test metodo scientifico: esempio Nuova ipotesi sotto forma di modello matematico metodo scientifico: esempio test di falsificazione di due “sotto-ipotesi” metodo scientifico: esempio Test di falsificazione della nuova ipotesi. Uso di metodi Bayesiani per falsificare l'ipotesi nulla Variabili e dati Dunque, la falsificazione delle ipotesi richiede delle “osservazioni” condotte sul sistema che stiamo studiando. Variabile = qualsiasi caratteristica, attributo o misura relativa al “sistema” che stiamo osservando (es. individuo, cellula, organismo, molecola....) Dato = risultato grezzo delle misurazioni (o semplicemente “misura”) esempi di variabili: ● ● ● ● ● ● ● temperatura del corpo umano pressione sanguigna numero di mitocondri nelle cellule di un particolare tipo quantità di ATP prodotta da un certo tipo cellulare geni espressi da una cellula specie di batteri che colonizzano un dato ambiente ..... Data una certa unità sperimentale (cellula, individuo, organismo,...) posso misurare una variabile, due variabili, più variabili e ottenere un insieme di osservazioni Univariato, Bivariato, Multivariato per il sistema Variabili e dati es. una variabile: raggio cellulare (µm), campione di cellule umane di carcinoma mammario dati = {11.414, 8.317, 6.981, 10.073, 7.75, 8.754, 7.004, 8.126, 7.652, 7.863, 8.728, 8., 7.946, 8.457, 7.207, 11.385, 7.558, 7.139, 6.805,8.085, 8.281, 8.089, 9.365, 7.95, 7.257, 8.285, 8.892, 8.806, 7.466, 7.817, 8.114, 8.065, 9.146, 9.149, 7.042, 7.678, 8.847, 7.863, 9.224, 9.005, 7.631, 7.143, 7.725, 7.293, 8.709, 7.855, 8.943, 9.995...} n. di cellule misurate = 410 Variabili e dati es. due variabili: raggio di sferoidi tumorali (µm) e concentrazione di ATP degli stessi sferoidi (µM) dati = {{353.09, 3.08}, {363.28, 4.11}, {326.85, 3.13}, {350.28, 4.28}, {356.34, 3.03}, {347.13, 3.42}, {356.56, 3.9}, {343.35, 3.58}, {341.55, 3.32}, {349.68, 3.48}, {355.12, 2.94}, {350.43, 3.67}, {351.7, 3.76}, {325.35, 4.14}, {338.05, 3.21}, {344.04, 3.19}, {339.48, 0.48}, {346.83, 3.6}, {362.75, 3.83}, {342.61, 3.07}, {354.11, 3.41}, {346.93, 4.19}, {352.5, 2.08}, {360.38, 3.25}, {334.95, 2.85}, {354.71, 3.39}, {346.69, 2.4}, {338.34, 4.24}, {344.92, 3.45}, {355.8, 3.63}, {357.83, 4.17}, {366.85, 3.41}, {348.48, 0.47}, {352.84, 3.67}, {348.03, 3.71}, {359.44, 3.45},...} n. sferoidi = 120 Variabili e dati es. molte variabili: attivazione di 5 proteine (Syk, NFkB, Erk, p38, JNK) a seguito di 3 diversi stimoli (basale, H2O2, IgM) in cellule di leucemia cronica prelevate da pazienti (misure in unità di fluorescenza) dati: pazienti (tot. 27) .... Variabili e dati nominali (se non c'è un ordine intrinseco) es. gruppo sanguigno A, B, 0, AB es. sintomo Qualitative o categoriche ordinali (se i valori possono essere ordinati) es. gravità dei sintomi in base ad una scala arbitraria Variabili A valori continui es. raggio cellulare, temperatura corporea... Quantitative A valori discreti es. numero di mitocondri in cellule Variabili quantitative continue Il dato numerico viene ottenuto mediante una misurazione e dunque utilizzando uno strumento. Tra due misure ci possono essere infinite altre misure. Es.: misuro la concentrazione di ATP in uno sferoide tumorale e ottengo il valore di 3.08 µM. Un altro sferoide può restituire il valore 3.078 µM, un altro 3.079 µM, un altro ancora 3.0795 µM.... Un problema generale è: ma quante cifre dopo la virgola devo considerare (e soprattutto mostrare)? Ha senso riportare un valore come 3.079562133...µM o si può arrotondare? Se sì come e perché? Commento: questo è un aspetto NON ovvio né banale... Strumenti di misura Caratteristiche ● Sensibilità = limite inferiore del campo di misura dello strumento ● Portata (o fondo scala) = limite superiore del campo di misura ● Risoluzione = minima variazione apprezzabile della grandezza in esame attraverso tutto il campo di misura ● Ripetibilità (affidabilità) = capacità dello strumento di fornire misure uguali della stessa grandezza entro la sua risoluzione ● Prontezza = tempo necessario affinché lo strumento risponda ad una variazione della grandezza in esame ● Precisione = errore relativo di misura e dovuto alla incertezza inevitabilmente associata alla misura stessa (questo è un concetto statistico!) Strumenti di misura Strumenti di misura Errore! Strumenti di misura Dunque il termometro ha un campo di misura che va da 0 ºC a 42ºC e ha una RISOLUZIONE di 0.1 ºC Pertanto lo strumento rileva le differenze di temperatura ad es. tra 37.1 e 37.2 ma NON tra 37.1 e 37.15 Dunque NON ha senso considerare per questa misura più di una cifra decimale! Strumenti di misura Precisione e accuratezza Dati di una variabile (discreta) Es. misuro il numero di mitocondri in un campione di 50 cellule e ottengo la sequenza*: dati = {44, 47, 53, 44, 49, 52, 43, 45, 58, 52, 48, 55, 49, 50, 47, 57, 47, 52, 50, 49, 55, 50, 52, 55, 46, 56, 44, 49, 45, 52, 50, 43, 48, 50, 57, 53, 54, 57, 56, 42, 49, 46, 51, 55, 49, 47, 48, 47, 57, 51} dunque la prima cellula ha 44 mitocondri, la seconda 47, la terza 53, la quarta ancora 44, e così via fino alla cinquantesima. Cosa posso dire di questi dati? O meglio: che cosa i dati mi stanno raccontando? questo grafico non è molto utile a scoprire un possibile pattern nei dati *questo è un esperimento di fantasia e NON condotto in lab con cellule Dati di una variabile (discreta) indice (i) N. mitocondri Frequenza 1 42 1 dati = {44, 47, 53, 44, 49, 52, 43, 45, 58, 52, 48, 55, 49, 50, 47, 57, 47, 52, 50, 49, 55, 50, 52, 55, 46, 56, 44, 49, 45, 52, 50, 43, 48, 50, 57, 53, 54, 57, 56, 42, 49, 46, 51, 55, 49, 47, 48, 47, 57, 51} 2 43 2 3 44 3 4 45 2 1) ordino i dati, ad es. dal valore più piccolo a quello più grande (NB i dati sono ordinabili): 5 46 2 6 47 5 7 48 3 datiOrd = {42, 43, 43, 44, 44, 44, 45, 45, 46, 46, 47, 47, 47, 47, 47, 48, 48, 48, 49, 49, 49, 49, 49, 49, 50, 50, 50, 50, 50, 51, 51, 52, 52, 52, 52, 52, 53, 53, 54, 55, 55, 55, 55, 56, 56, 57, 57, 57, 57, 58} 8 49 6 9 50 5 10 51 2 11 52 5 12 53 2 13 54 1 14 55 4 15 56 2 16 57 4 17 58 1 2) conto quante occorrenze ci sono per ogni valore. Dati di una variabile (discreta) indice (i) N. mitocondri Frequenza 1 42 1 2 43 2 3 44 3 4 45 2 5 46 2 6 47 5 7 48 3 8 49 6 9 50 5 10 51 2 11 52 5 12 53 2 13 54 1 14 55 4 15 56 2 16 57 4 17 58 1 Totale 2505 50 distribuzione di frequenza (assoluta) Dati di una variabile (discreta) indice (i) N. mitocondri Frequenza (n) f 1 42 1 0.02 2 43 2 0.04 3 44 3 0.06 4 45 2 0.04 5 46 2 0.04 6 47 5 0.1 7 48 3 0.06 8 49 6 0.12 9 50 5 0.1 10 51 2 0.04 11 52 5 0.1 12 53 2 0.04 13 54 1 0.02 14 55 4 0.08 15 56 2 0.04 16 57 4 0.08 17 58 1 0.02 Totale 2505 50 1 N = numero totale di cellule del campione n = frequenza assoluta di cellule contenenti mitocondri di una data numerosità si noti che: f = frequenza relativa e si noti che: Dati di una variabile (discreta) indice (i) N. mitocondri Frequenza (n) f 1 42 1 0.02 2 43 2 0.04 3 44 3 0.06 4 45 2 0.04 5 46 2 0.04 6 47 5 0.1 7 48 3 0.06 8 49 6 0.12 9 50 5 0.1 10 51 2 0.04 11 52 5 0.1 12 53 2 0.04 13 54 1 0.02 14 55 4 0.08 15 56 2 0.04 16 57 4 0.08 17 58 1 0.02 Totale 2505 50 1 Dati di una variabile (discreta) N. mitocondri Frequenza (n) f 42 1 0.02 43 2 0.04 44 3 0.06 45 2 0.04 46 2 0.04 47 5 0.1 Questi intervalli si chiamano bin e nulla vieta di considerare bin di diversa grandezza. 48 3 0.06 49 6 0.12 50 5 0.1 51 2 0.04 Ad es: conto quante cellule hanno un numero di mitocondri m compreso tra [42,44[ o, in simboli: 52 5 0.1 53 2 0.04 54 1 0.02 55 4 0.08 56 2 0.04 57 4 0.08 58 1 0.02 Totale 50 1 si noti che abbiamo considerato intervalli di 1 mitocondrio. Ad es.: e dunque bin = 2 46-45=1 Dati di una variabile (discreta) N. mitocondri Frequenza (n) f N. mitocondri Frequenza (n) f 42 1 0.02 [42,44[ 3 0.06 43 2 0.04 [44,46[ 5 0.1 44 3 0.06 [46,48[ 7 0.14 45 2 0.04 [48,50[ 9 0.18 46 2 0.04 [50,52[ 7 0.14 47 5 0.1 [52,54[ 7 0.14 48 3 0.06 [54,56[ 5 0.1 49 6 0.12 [56,58[ 6 0.12 50 5 0.1 [58,60[ 1 0.02 51 2 0.04 Totale 50 1 52 5 0.1 53 2 0.04 54 1 0.02 55 4 0.08 56 2 0.04 57 4 0.08 58 1 0.02 Totale 50 1 bin=1 bin=2 Dati di una variabile (discreta) bin=1 bin=2 bin=4 Dati di una variabile (continua) es. una variabile: raggio cellulare (µm), campione di cellule umane di carcinoma mammario (NB dati di lab) dati = {11.414, 8.317, 6.981, 10.073, 7.75, 8.754, 7.004, 8.126, 7.652, 7.863, 8.728, 8., 7.946, 8.457, 7.207, 11.385, 7.558, 7.139, 6.805,8.085, 8.281, 8.089, 9.365, 7.95, 7.257, 8.285, 8.892, 8.806, 7.466, 7.817, 8.114, 8.065, 9.146, 9.149, 7.042, 7.678, 8.847, 7.863, 9.224, 9.005, 7.631, 7.143, 7.725, 7.293, 8.709, 7.855, 8.943, 9.995...} n. di cellule misurate = 410 Dati di una variabile (continua) bin = 0.01 µm bin = 0.1 µm effetto del binning bin = 0.5 µm Dati di una variabile (continua) esiste dunque un criterio oggettivo per stabilire la grandezza del bin? NO, ma esiste una formula empirica per stabilire - in prima approssimazione - in quanti bins suddividere i dati: dove N è la numerosità del campione. Es. N = 410 cellule e possibile bimodalità ha un significato biologico? 1 10 possibile outlier Dati di una variabile indice (i) N. mitocondri Frequenza (n) f F 1 42 1 0.02 0.02 2 43 2 0.04 0.06 3 44 3 0.06 0.12 4 45 2 0.04 0.16 5 46 2 0.04 0.2 6 47 5 0.1 0.3 7 48 3 0.06 0.36 8 49 6 0.12 0.48 9 50 5 0.1 0.58 10 51 2 0.04 0.62 11 52 5 0.1 0.72 12 53 2 0.04 0.76 13 54 1 0.02 0.78 14 55 4 0.08 0.86 15 56 2 0.04 0.9 16 57 4 0.08 0.98 17 58 1 0.02 1 Totale 2505 50 1 ... F = frequenza relativa cumulativa Dati di una variabile: indici di posizione NB se e solo se i dati sono ordinabili Percentile = valore al di sotto dei quali è situato l'X% dei dati es. 50-esimo percentile = valore al di sotto (e al di sopra) del quale sta il 50% dei dati Quantile di ordine α = valore nell'intervallo [0,1] che divide i dati in due parti proporzionali a α e (1-α) es. 0.5-quantile = i dati vengono divisi in due parti pari a 0.5 e (1-0.5)=0.5. Dunque metà dei dati sta da una parte e metà dall'altra. Pertanto 0.5-quantile = 50-esimo percentile Particolari quantili: quartili = quantili di ordine 1/4, 2/4, 3/4 centili = quantili di ordine 1/100, 2/100, ..., 99/100 = percentili cioè: prendo i dati e li divido in 4 (quartili) o 100 (centili) parti uguali Dati di una variabile: indici di posizione es. dati ordinati e relativi al numero di mitocondri per cellula datiOrd = {42, 43, 43, 44, 44, 44, 45, 45, 46, 46, 47, 47, 47, 47, 47, 48, 48, 48, 49, 49, 49, 49, 49, 49, 50, 50, 50, 50, 50, 51, 51, 52, 52, 52, 52, 52, 53, 53, 54, 55, 55, 55, 55, 56, 56, 57, 57, 57, 57, 58} 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 42 43 43 44 44 44 45 45 46 46 47 47 47 47 47 48 48 48 49 49 49 49 49 49 50 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 50 50 50 50 51 51 52 52 52 52 52 53 53 54 55 55 55 55 56 56 57 57 57 57 58 50-esimo percentile (o 0.5-quantile) = 50 mitocondri primo quartile (o quantile di ordine 1/4) = 47 mitocondri terzo quartile (o quantile di ordine 3/4) = 53 mitocondri NB diversi metodi di calcolo (es numero totale di dati dispari o pari). A noi non interessa perché ci pensano i calcolatori! Dati di una variabile: indici di posizione Mediana = 50-esimo percentile (o 0.5-quantile) Dati di una variabile: indici di posizione Moda = valore a cui corrisponde la frequenza più alta distribuzione unimodale distribuzione bimodale Dati di una variabile: indici di posizione Media dati = {44, 47, 53, 44, 49, 52, 43, 45, 58, 52, 48, 55, 49, 50, 47, 57, 47, 52, 50, 49, 55, 50, 52, 55, 46, 56, 44, 49, 45, 52, 50, 43, 48, 50, 57, 53, 54, 57, 56, 42, 49, 46, 51, 55, 49, 47, 48, 47, 57, 51} dati = numero di mitocondri in ogni cellula N = 50 cellule mitocondri per cellula Dati di una variabile: indici di posizione Media ...prendiamo però i dati ordinati datiOrd = {42, 43, 43, 44, 44, 44, 45, 45, 46, 46, 47, 47, 47, 47, 47, 48, 48, 48, 49, 49, 49, 49, 49, 49, 50, 50, 50, 50, 50, 51, 51, 52, 52, 52, 52, 52, 53, 53, 54, 55, 55, 55, 55, 56, 56, 57, 57, 57, 57, 58} frequenze relative classe ci dunque, se c sono le classi “numero di mitocondri” posso scrivere anche: Distribuzioni media=mediana=moda distribuzione simmetrica Distribuzioni media mediana distribuzione assimetrica (skewed) a dx moda distribuzione assimetrica (skewed) a sx Distribuzioni Anno 2015, tutti gli Atenei del nord-Italia. Totale 18848 studenti. Soglia 20 punti. media = 24.16 mediana = 23.1 moda = 17.5 (accidenti!) Box and whisker plot es. dati ordinati e relativi al numero di mitocondri per cellula datiOrd = {42, 43, 43, 44, 44, 44, 45, 45, 46, 46, 47, 47, 47, 47, 47, 48, 48, 48, 49, 49, 49, 49, 49, 49, 50, 50, 50, 50, 50, 51, 51, 52, 52, 52, 52, 52, 53, 53, 54, 55, 55, 55, 55, 56, 56, 57, 57, 57, 57, 58} 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 42 43 43 44 44 44 45 45 46 46 47 47 47 47 47 48 48 48 49 49 49 49 49 49 50 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 50 50 50 50 51 51 52 52 52 52 52 53 53 54 55 55 55 55 56 56 57 57 57 57 58 50-esimo percentile (o 0.5-quantile) = 50 mitocondri mediana primo quartile (o quantile di ordine 1/4) = 47 mitocondri estremo inferiore del Box terzo quartile (o quantile di ordine 3/4) = 53 mitocondri estremo superiore del Box Range interquartile = 53-47 = 6 mitocondri estremi = 6 x 1.5 = 9 mitocondri massima lunghezza dei Whiskers olte il box Box and whisker plot 50-esimo percentile (o 0.5-quantile) = 50 mitocondri mediana primo quartile (o quantile di ordine 1/4) = 47 mitocondri estremo inferiore del Box terzo quartile (o quantile di ordine 3/4) = 53 mitocondri estremo superiore del Box Range interquartile = 53-47 = 6 mitocondri massima lunghezza dei Whiskers oltre il box estremi = 6 x 1.5 = 9 mitocondri 53+9 = 62 ma non ci sono dati pari a 62 mitocondri e dunque il whisker si ferma al dato più alto (58 mitocondri) sup. box mediana inf. box 47-9 = 38 ma non ci sono dati pari a 38 mitocondri e dunque il whisker si ferma al dato più basso (42 mitocondri) Box and whisker plot es.: dati = {1, 3, 4, 6, 7, 9, 10, 12, 25} mediana = 7; primo quartile = 4; terzo quartile = 10, range interquartile = 6 unità il whisker sotto il box arriva fino a = 7-6 = 1 il whisker sopra il box arriva fino a = 10+6 = 16: il dato=12 è compreso ma il dato=25 no dunque il whisker si estende fino a 12, l'ultimo dato compreso possibile outlier Box and whisker plot Box and whisker plot This work is licensed under a Creative Commons AttributionNonCommercial 4.0 International License. see: http://creativecommons.org/licenses/by-nc/4.0/ Roberto Chignola Università di Verona [email protected]