La statistica è difficile ! Ci vuole ‘un esperto’ ! Una p veramente significativa ! Regions Whole Brain Septum Thalamus NARTpl Amygdala N.Ruber 1/s Lycopodium Persicum Stimulation 2/s 3/s 4/s 0.0 ±1 ± ''3 456 3 A51 0.0 67 1&2 +2 3 ??? 4.2 875 41 -4 3.3 Ζ021 0.6 121 SG 55 333 §99 p NS 0.001 ND 0.003 0.03333 0.E003 Perec G. Experimental Demonstration of the Lycopodium organization in the Cantatrix sopranica L. Am. J. Mus. Deficiency, 1999 : 7: 3-6. • Statistical evaluation of the data was made using an iterative tennis-like algorithm (Wimbledon 1974), that is, every time a target was unbiasely centered, an inverse YR/2 correction factor was added to the regression analysis, including the dosage effect (Throw Strenght) as a continuous covariate correction. Lycopodium persicum = Pummarola Stimulation ! Ma che cosa è veramente questa ‘p’ ? • Probabilità della Ipotesi Nulla p di Ho • ove Ho dice che : - casi = controlli - placebo = farmaco - test = non test • opposto di H1 che dice che c’è una differenza • Ma se abbiamo che le probabilità sono • p Ho= 0.5 p H1 = 0.5 • p Ho= 0.3 p H1 = 0.7 • p Ho= 0.2 p H1 = 0.8 • p Ho= 0.1 p H1 = 0.9 • p Ho= 0.07 p H1 = 0.93 • p Ho= 0.05 p H1 = 0.95 PERCHE’ NON MI BASTA LA ‘p’ • Il Disegno di uno studio NON parte da una applicazione formale di statistica, bensì dal Giudizio Clinico. • Si definisce , in primis, un risultato, un punto d'arrivo, un esito (end point) • In secundis si definisce quale e quanta differenza vogliamo essere capaci d'osservare tra i due gruppi d'intervento (Differenza nell'esito tra trattati e controlli), ancora Giudizio Sperimentale o Clinico Infine si chiede allo Statistico di calcolare il numero di casi e di controlli necessari per rispondere ai quesiti di cui sopra Ma quale pppp ci vuole ?? SCIENZA O CARTA STRACCIA ? • Il doppio cieco ‘non è etico’ • Proporre terapie senza un trial controllato • Piccoli numeri • Fare sottogruppi Errore di II tipo • Valutare solo ‘p’ 70 60 50 40 30 20 10 0 0,5 1 1,5 2 migliorato non responder guarito La statistica comincia qui ! NOME___________________________________ Visita del: |_|_|_|_|_____| Sesso M/F Nato di |_|_|_|_|grammi a |_|_| sett. Al seno per |_|_|_| giorni. Svezzato a |_|mesi PESA |_|_|_|_|_| gr. cent |_|_| Alt. |_|_|_|, |_| cm cent |_|_| Peso/Alt. C. |_______| Cranio |_____| c.|_____| In un anno è cresciuto di |____| cm c.|_____| e |______| gr. c.|____| Archie Cochrane : Doctors sit on a mine of data ! http://www.quadernodiepidemiologia.it/epi/campion/dimens.htm Dimensione del Campione Potenza 1-β Significatività α Frequenza nei controlli N > 20/gruppo Sample Size on-line Quattro tipologie di variabili o dati • Variabili continue : da 0 a XXX – Età, altezza, distanza, glicemia, pressione ecc – Variabili categoriche o scalari : 1-2-3-4 + ++ +++ • Livello di istruzione, intensità del dolore, stadio – Variabili Qualitative : 2 9 34 112 • Colore, lavoro, malattia, sintomi, provenienza – Variabili Binomiali : Sesso, Positivo si/no, Vero/Falso 1-2 Variabili Continue : età, altezza, glicemia, ratio, distanza • Controlliamo che la distribuzione sia ‘accettabilmente ‘ Normale’ e via : – Media, Deviazione Standard, Errore Standard della Media – Differenza tra medie – t di Student – Analisi della Varianza – Regressione e Correlazione r di Pearson – Analisi multivariata Variabili qualitative, binomiali, scalari sesso, si/no, dolore, grado di 1-2-3-4, • Differenza tra Percentuali • Chi Quadrato – test esatto di Fisher • Rank Test : test di posizione su scala • (Wilcoxon – Mann-Whitney ) • Scalari : Correlazione di Spearman – Chi Quadrato per il trend Il dato più importante: quello che non c’è !!! • Per avere "dati puliti“ bisogna avere una spiegazione certa sui dati mancanti, (omessi, lasciati in bianco) • La risposta può essere in bianco perché la domanda non è stata fatta, o non si è avuta una risposta o la risposta è negativa (nessuna malattia ad es.) • o per altre ragioni legate (domanda non applicabile al bimbo)…. • Dare un valore ai "casi mancanti". • Potremo assegnare al mancante il valore di 0, perchè il dato è assente, 9 perchè "non si sa" e bianco per "domanda non posta". • Dal momento che i calcolatori non distinguono lo 0 dal bianco, • MAI MAI impiegare 0 e Bianco per i codici dei dati mancanti • (preferire 9,8 99, a seconda della larghezza della casella dati, o -1 ecc.). • Data nascita 99/99/9999 Sesso 9 Altezza 999,9 ecc Strategia pratica in funzione della grandezza del campione : per ‘n’ in ciascun gruppo • < 10 • 10-20 : descrivere ‘con enfasi’ no ‘p’ : test non parametrici rank sum • Chi Quadro, Wilcox, Mann-Whitney, Spearman • > 20 : valutare la ‘normalità’ – Non accettabile : Test Non Parametrici – Accettabile : e… via ! • T-test , ANOVA, Regressione, Correlazione, Multivariata VARIABILI CONTINUE ‘NORMALI’ I dati si disperdono intorno ad un valore centrale, mediano, più frequente (moda), media matematica Il grafico delle frequenze cumulative permette una facile visione dei percentili ! Gli Scarti : Non tutti i piedi sono uguali ! Gli scarti : tanti positivi, tanti negativi : la somma = 0 Basta elevare I valori al quadrato e la somma stimerà gli scarti Dagli scarti dalla media: una facile derivazione • DEVIANZA = Σ (m-x)2 • Somma dei quadrati degli scarti dalla media • • VARIANZA= Σ(m-x)2 n-l • Somma dei quadrati degli scarti rispetto ai gradi di libertà • Deviazione Standard = √ Σ (m-x)2 • n-l • La stessa somma dei quadrati degli scarti sotto radice quadrata per riportarci alla unità di misura iniziale Ma è molto importante controllare la distribuzione ! Deviazione Standard suoi effetti s= 2 s =3 s =4 21 Francesco Ronzon Lecco, 15 dic 2005 Media=Moda=Mediana ! Percentili ‘facili’ Percentili 3 5 25 50 75 90 95 ERRORE STANDARD DELLA MEDIA • Più valori medi, di una stessa popolazione, si distribuiscono intorno ad un valore medio assoluto (e ignoto) con una distribuzione di tipo normale, è allora possibile avere una stima di quanto tendono a discostarsi dal valore medio assoluto. • • • ERRORE STANDARD DELLA MEDIA = DEVIAZIONE STANDARD / √ n Nella pratica clinica (specie in chimica clinica) è spesso usato il coefficiente di variazione, che esprime il rapporto percentuale tra DS e media: • • • • • COEFFICIENTE DI VARIAZIONE = (Deviazione Standard/media) x 100 Una delle caratteristiche fondamentali della distribuzione normale è che il 95% di tutta la popolazione è inclusa in un intervallo ottenuto sommando al valore medio 1.96 volte le DS e sottraendo al valore medio 1.96 volte la DS (circa 2 volte), cioè il 95% dei valori ricade tra x± 1.96 DS. L'intera popolazione può dunque essere descritta mediante la media e l'intervallo che contiene i valori della media meno o più 1.96 volte la DS. I limiti di confidenza della media (quei limiti che comprenderanno il 95% dei possibili valori medi di quella popolazione) saranno ottenuti dal valore medio più o meno 1.96 volte l'ESM. • • • LIMITI DI CONFIDENZA (al 95%)= m ± 1,96 ESM Ma è molto importante controllare la distribuzione ! Errore Standard della Media DS= VARIABILITA TRA INDIVIDUI ESM= PRECISIONE DELLA MEDIA DI UN CAMPIONE Z-Score = m-x DS Altezza 124cm , media per l’età e sesso = 132cm, DS 4,5 Z-Alt = (132-124)/4,5 = - 1,77 La formulazione delle ipotesi • La statistica non dice che “la popolazione A è certamente diversa da B" bensì "quanto è improbabile" che la popolazione A sia identica a quella B. • Si tratta di rifiutare l'ipotesi nulla (detta anche Hypotesis Zero: H0) che sostiene che "non vi è alcuna differenza tra le due popolazioni": • IPOTESI NULLA H0: A=B • se l'ipotesi nulla ha meno del 5% di probabilità di essere vera, possiamo rifiutarla. L'abbiamo rifiutata con una probabilità (il famoso "p") inferiore al 5% (= 0.05). • L'errore alfa o errore di primo tipo è l'area dei possibili risultati che ci inducono a respingere l'ipotesi nulla, anche quando essa possa essere vera • L'errore beta o errore di secondo tipo è l'inverso: è l'errore di non respingere l'ipotesi nulla H0 quando infatti essa sia falsa, cioè l'incapacità a documentare la reale differenza che esiste tra A e B per problemi legati al metodo utilizzato La differenza tra due medie: il t di Student Per dati non appaiati, due medie diverse A e B t = (mA-mB) S S= √( Devianza A+Devianza B) nA+nB-2 Per dati Appaiati abbiamo solo la Media delle Differenze ‘d’ t=d ∙ √ DS diff.2 n Vediamo se un polimorfismo del gene c-REL del tipo AA è più frequente nei 20 soggetti /182 che sviluppano una atrofia della mucosa intestinale TABELLA DEI VALORI OSSERVATI Genotipo del gene c-REL * Esito in celiaco CELIACO Totale potenziale Atrofico AA Osservato 91 8 99 % 56 40 AG Osservato 57 10 67 % 35 50 GG Osservato 14 2 16 % 9 10 Totale Osservato % 162 100 20 100 182 100 Moltiplicando i totali di riga per quelli di colonna e dividendo per il gran totale abbiamo le frequenze attese in base al caso Genotipo del gene c-REL * Esito in celiaco CELIACO Total AA AG GG Total Osservato Atteso % Osservato Atteso % Osservato Atteso % Osservato Atteso % potenziale Atrofico 91 8 88 11 56 40 57 10 60 7 35 50 14 2 14 2 9 10 162 20 162 20 100 100 99 99 54 67 67 37 16 16 9 182 182 100 La differenza tra attesoosservato è importante ! La statistica χ2 ( fo fa ) fa 2 2 2 ( Osserv Atteso ) 2 Atteso • Quando i valori osservati sono lontani da quelli attesi il valore di χ2 è elevato • Quando i valori osservati sono vicini a quelli attesi il valore è basso La distribuzione χ2 • La tabella della distribuzione χ2 consente di identificare la zona critica per qualsiasi valore di gradi di libertà e per qualsiasi alfa (p) • (Gdl= n. categorie – 1) gdl 1 2 3 4 5 6 7 8 9 10 Alfa 0,05 3,84 5,99 7,81 9,49 11,07 12,59 14,07 15,51 16,92 18,31 0,01 6,63 9,21 11,34 13,28 15,09 16,81 18,48 20,09 21,67 23,21 Il test più comune ma … • SE avete piccoli numeri e solo 2x2 caselle usate il • Test di Fisher p esatta Se avete più caselle (n x n es. 3 x 5 ) attenti che in nessuna vi sia un numero < 5 Se accade : accorpate caselle vicine Non vi siete ancora annoiati ??? European Laboratory for Food Induced Research Federico II La correlazione: rappresentazione grafica – Ascisse: X – Ordinate: Y • Le osservazioni si rappresentano come punti sul piano cartesiano 0,6 Velocità di reazione • Le due variabili si rappresentano come X eY 0,5 0,4 0,3 0,2 0,1 0 0 10 20 30 40 50 60 Eta (anni) Eta e velocità di reazione La correlazione: caratteristiche /1 1,2 0,6 Velocità di reazione Capacità richiamo 1 0,8 0,6 0,4 0,5 0,4 0,3 0,2 0,1 0,2 0 0 0 0 10 20 30 40 Eta Correlazione Negativa 50 60 10 20 30 40 Eta (anni) Correlazione Positiva 50 60 Forma della relazione – a flessione – logistiche 0 2000 4000 6000 8000 10000 12000 14000 16000 18000 20000 Errore dopo Sonno Durata del sonno 70 60 50 Effetto • Lineare (v. lucido precedente) • Forme non-lineari 0,42 0,415 0,41 0,405 0,4 0,395 0,39 0,385 0,38 0,375 40 30 20 10 0 0 20 40 60 80 100 120 Dose Effetto di un farmaco anti-depressivo Grado di correlazione 1,2 • Le relazioni si distinguono a secondo del grado di correlazione Capacità richiamo 1 0,8 0,6 0,4 0,2 0 0 10 20 30 40 50 60 Eta Elevato grado di correlazione 1 0,9 0,8 0,7 0,6 0,5 0,4 0,3 0,2 0,1 0 0 10 20 30 40 50 60 Basso grado di correlazione – Elevato grado di correlazione (punti vicini alla “linea di regressione”) – Basso grado di correlazione (punti lontani dalla “linea di regressione”) Utilizzo della correlazione • Previsione: previsione del valore di una variabile target in base al valore di una variabile predittore • Validazione: confronto fra i risultati di un test nuovo e i test già noti • Affidabilità: replicabilità degli esperimenti/test • Verifica di previsioni teoriche: verifica di un rapporto previsto fra due variabili La correlazione di Pearson variazioni di Y associate a variazioni di X r variazioni di Y indipenden ti rispetto a variazioni di X covariabilità di X e Y variabilit à di X variabilit à di Y Correlazione e verifica di ipotesi • Obiettivo: determinare se esiste o non esiste una correlazione nella popolazione – H0: non esiste una correlazione fra la variabile X e la variabile Y – H1: esiste una correlazione statisticamente significativa fra la variabile X e la variabile Y – Quanto è ‘intensa ‘ la Correlazione ? Correlazione e verifica di ipotesi /2 • Il valore critico del coefficiente di correlazione per un determinato valore di alfa e un determinato valore di GdL si determina in base ad un’apposita tabella • Se il valore di r è inferiore al valore critico si accetta H0 • Nel caso contrario si accetta H1 Gdl=n-2 alfa=0,05 alfa=0,01 1 2 3 4 5 10 15 20 25 30 0,97 0,95 0,88 0,81 0,75 0,58 0,48 0,42 0,38 0,35 0,9999 0,99 0,96 0,92 0,87 0,71 0,6 0,54 0,49 0,45 La regressione /1 1,2 1 Capacità richiamo • Tecnica per l’individuazione di un’equazione che descrive una relazione lineare fra due variabili • Tale equazione è rappresentabile come retta (linea di regressione) 0,8 0,6 0,4 0,2 0 0 10 20 30 40 Eta Retta di regressione y= a+bx 50 60 La regressione /2 • L’analisi di regressione consente di: Interpolazione 1,2 Capacità richiamo 1 0,8 0,6 0,4 0,2 0 0 10 20 30 40 50 Eta Estrapolazione (pericoloso!!) 60 – Visualizzare (facilitare la comprensione) della relazione fra due variabili – Individuare la tendenza centrale della relazione (così come la media) individua la tendenza centrale per un insieme di osservazioni – Prevedere il valore di Y per un X ignoto (interpolazione/estrapolazione) Le equazioni lineari /1 7 6 Y a bX 5 Y 4 3 2 esempio Y 2 0,5 X 1 0 0 1 2 3 4 5 6 7 X “Inclinazione” della linea di regressione, coefficiente b Intercetta: Valore di Y per X=0 8 9 …permettete ???? Se avete una idea sperimentale :…. Scrivete il lavoro, Con le tabelle in bianco !!! Legge di Cochrane Cin Statistica Cout considerate, con modestia : - il campione necessario - cosa volete misurare - la tipologia di variabili + missing - la precisione delle misure/dati - Il tipo di risultati attesi - i metodi descrittivi - qualche analisi sheet&pencil - Se volete lo statistico interpellatelo PRIMA dell’inizio [email protected]