Metodologia di ricerca Formulating and Writing The Paper – Project gestation/incubation period – Project design – Writing the thesis The Paper Gestation/incubation period - Before you put pen to paper • Discuss the ideas/approach with others. • Answer the following questions: – What issue am I addressing in the proposed project? – Why is the issue important and interesting? – Would the results of the project have significant impact? Developing a Hypothesis • Should increase understanding of normal biologic processes, diseases, or treatment and prevention • Testable by current methods The Paper - Project formulation Do consider the following.. • Is there a clear hypothesis or question? Or is this a “fishing exercise”? Fishing has to be strongly justified. • Projects solely aimed at creating a database not important. The Application - Project formulation Do consider the following.. • Is the project built on preliminary findings, past findings, your own or of others? • Are there other groups doing the same thing? • What is your competitive edge? Common mistakes in project choice • I like this topic. Should be based on significance, not your interest • Although this is not new, I have been doing this for years Innovation is critical • It was not funded last time because the reviewer was biased/ignorant But maybe not? • This issue has not been studied But can it pass the “so what” test? Common Mistakes • Selecting project • Establishing Hypothesis – Scientific flaws • • • • Setting goals (specific aims) Showing preliminary data Developing research plan Choosing methods Common Mistakes in Developing Research Plan • • • • • • Descriptive Too ambitious No hypothesis No anticipated results No alternative plan Scientific flaws Flaws Hypothesis is wrong Planned studies cannot demonstrate the hypothesis Methods are wrong or obsolete Statistic is poor or wrong Project formulation and design • Do not be too ambitious with what you aim to do, i.e. can you achieve everything proposed in the time? Project design • Think of the loopholes, controls required etc. • Think of contingencies to cope with unexpected results or failure. • Are all the necessary expertise, samples, reagents available? – Line up collaborators, co-investigators if possible (how to choose and manage collaborators…it needs a 6 years course) “Too ambitious” • Huge goals – Establish realistic goal(s) • Vague hypothesis – Develop a testable hypothesis • Unfocused aims – Set reasonable specific aims • Too much work planned – More is not necessarily better – Plan feasible experiments No alternative plan If you anticipate to have some difficulties, you need show an alternative plan • Only for critical issues • Clearly explain your alternative studies • Don’t use too much space The Ideal Project • Hypothesis-driven – Asks important questions • Innovative – To study mechanisms • Realistic and focused – Not too controversial • Feasible in the time frame The Ideal Project • You have track record • You have preliminary data • Statistics!!! Case Control Study Start with the outcome- identify a sample with the condition of interest Identify a similar control group Look back to determine exposure Calculate the risk in the cases and controlsodds ratio used Can not use to establish prevalence Cohort Study Start with an identified group Determine exposure in everyone at the same time Follow the group to determine who develops the outcome of interest Can be used to determine prevalence Association measured as relative risk (rate ratios) Randomized Controlled Trial Gold standard for determining associations Identify a group Randomly assign individuals to exposure Only reliable way to control for confounding Research Using Secondary Data Literature review Systematic review Metanalysis Analysis of existing data collected for another purpose Literature Review Gather articles on a topic of interest Summarize the findings Systematic Review Gather articles using a pre-defined search strategy- may include unpublished studies Develop a-priori objective criteria to evaluate the quality of the studies Summarize the quality of the data and the results Metanalysis Do a systematic review Obtain the primary data if possible Summarize the data quantitatively Analysis of Existing Data Use administrative data for research Insurance claims data- Medicare Use regularly collected survey data National Center for Health Statistics performs multiple surveys periodically- NAMCS, NHIS, NMCES, NHANES Use data collected for another study Cells and Expression studies Validity Cost Limitations Animal studies Validity Cost Limitations Imaging studies Validity Cost Limitations Writing your thesis Sequence • • • • • The syndrome of the blank screen Figures, tracings, tables Methods and Results Discussion and Introduction Abstract and Title Farsi venire le idee Osservare Non sottovalutare ciò che colpisce Dare un significato alle osservazioni: inferenze e principi inferenziali La soggettività va valorizzata ed educata: prospettiva disciplinare e orientamento metodologico Title • Max information in least words • The title is an invitation to read the paper • Use catchy titles • State results Writing your thesis Abstract • Short, simple explanation of what the project is about. Understandable by nonspecialist • Simple and concise. Clear statement of the hypothesis, objectives and importance of the project Abstract • Is your visiting card • In most cases the only part that is read • State clearly your thesis • Some numbers, but not in excess • Determines if thesis will be read • Avoid acronyms The context • Need stretch of several hours • Avoid distractions: phone, e-mail • Ideas come while writing Parole chiave Devono comparire in titolo ed abstract Suggerire la 'traccia' del lavoro Trasmettere l'originalità del lavoro Agire sul significato intaccando il meno possibile la forma Introduction • Keep it focused • 1. Why the study is interesting (broad) • 2. Why did we do it? (specific) • 3. Hypothesis Writing your thesis Objectives & Significance • Summarise – the objective(s) of the project. – approaches to achieve main objective(s) – These should be clear, logically formulated. • State if: – the project is addressed at clinical or environmental problems of particular local relevance, – the project may lead to downstream application. La forza dell'argomentazione Dipende dalla visione del mondo di chi ascolta e si fonda su: 1.Dati di fatto 2.Valori 3.Principi inferenziali 4.Metodo Writing your thesis Background: • Are you up to date with the literature? • The background should lead clearly to the question(s) to be asked. • State question(s) you wish to ask or hypothesis you wish to test Writing your thesis Background: • Connect concepts • Avoid ‘lateral’ concepts – The difficulty of a ‘straigth’ line • Hyerarchical ‘top down’ flow of concepts – Not too broad – Not too narrow Writing your thesis Background: • Interest the reader! – – – – – – Put questions Suspense Internal connection with discussion Avoid details Open issues Clinical needs Common Mistakes • Presentation: – Poorly organized – Language errors – Show muddled thinking Common Mistakes in Objectives, Background and Significance • Purpose – To demonstrate the significance of the project – To articulate critical issues to be addressed – Provide the rationale for your hypothesis. • Problems: – Not focused, too long • only review the related materials – Too many references • cite only critical papers – Ignored the critical or new reports • Cite recent important references relevant to the hypothesis Methods • Draft can be made while doing the study • Enough information for an experienced investigator to repeat your work • Avoid tiresome detail • Tables preferred to long list of numbers or statistics Methods • Refer to data (Fig. X, Table Y) • Do not repeat numbers in Tables • Include ethics information (with Ethics Committee approval and i.c.) • Include complete statistics section Writing the thesis Research plan and methodology • Have a clear plan of action, logical sequence of experiments to achieve aim. • Avoid ambiguity • For some projects e.g. in Molecular Biology, Clinical studies, some diagram attached may be helpful for the reader to understand vector/experimental design if these are not straightforward. Writing your thesis Research plan and methodology • Sample description is critical! – Number of subjects – Assessments (validated instruments, in line with literature etc.) – Reliability (have you performed interrater reliability?) – Power estimation (Cohen, J. (1988). Statistical power analysis for the behavioral sciences. Hillsdale, New Jersey, Lawrence Erlbaum Associates) Writing the thesis Research plan and methodology • Not usually necessary to describe methods in detail, unless they are very new approaches. – Clear explanation of rationale of approach is usually sufficient. • Are all controls included? If human samples are involved, have these been collected or will be available? Major findings • Text and or table/graph • One slide for each • Message should be unambiguous Tables and Figures • Do before writing • Exceed 1 sheet: redraw • If small: move data to text • Should be able to stand alone Discussion • First paragraph - State major findings • Last paragraph - “In summary…” (2-3 sentences) - “In conclusion…” (biggest message, return to Intro, avoid speculation, avoid “need more work” Discussion • Middle paragraphs - Base each on a major result • Always focus on your results • Explain what is new without exaggerating • Never discuss prior work without reference to your work (but do not forget appropriate identification of prior research) Discussion • Refer Tables and Figures • Do not repeat results • Include limitations section References • Cite high IF Journals • Use editing programs • Relevant and recent Common Mistakes in Objectives, Background and Significance • References: – Adequate to the concept • • • • Review or books for well known aspects Papers for details or similar studies to your one Always choose high IF among similar A non cited reviewer usually gets angry! Write the thesis in two weeks? Never do it! • Plan your writing as early as possible • Have it read by a peer • Leave enough time for modification Formal aspects • Avoid ambiguity • Concise: Least words, short words, one word vs many • Strengthen transition between sentences Formal aspects • Check narrative flow: tell a story that the reader wants to read from start to end • Writing improves in proportion to deletion of unnecessary words • After the second draft send ms to your collegues • After the suggestions have been incorporated leave it for some time a re-read Formal aspects • If you do not have time to check the spelling you may have not had time to check the quality of your experiments...... • Adherence to the formal style is crucial • Check references • Check and double check your work First draft • • • • • Write as quickly as possible As if thinking out loud Get everything down Ignore spelling, grammar, style Correct and rewrite only when the whole text is on paper • Do not split the manuscript Summary • Works should be focused, addressing important questions. • Avoid convoluted arguments/justifications of approach. Do not try to address too many questions. Writing your thesis Presentation • Don’t strain the reader’s eyes! Font size, at least 11.5 preferably 12pt • Use sub-headings • Margins. Avoid cramming everything in by shrinking the margins. “Scientists are rated by what they finish, not by what they attempt” The real project 1. Scientific and/or technological excellence (relevant to the topics addressed by the call) Soundness of concept, and quality of objectives Progress beyond the state-of-the-art Quality and effectiveness of the S/T methodology and associated work plan The real project 2. Quality and efficiency of the implementation and the management Appropriateness of the management structure and procedures Quality and relevant experience of the individual participants Quality of the consortium as a whole (including complementarity, balance) Appropriateness of the allocation and justification of the resources to be committed (budget, staff, equipment) The real project 3. Potential impact through the development, dissemination and use of project results Contribution, at the European and/or international level, to the expected impacts listed in the work programme under relevant topic/activity Appropriateness of measures for the dissemination and/or exploitation of project results, and management of intellectual property. OUTPUT Impact Factor H Index Dissemination Dissemination is a key point Not only papers but congress abstracts, general press, websites, open access It is better one high IF paper or many low? Is writing a book important? Send or revise the paper? Are reviewers persecuting me? I want to become a reviewer too! Dissemination How to make a good presentation? A fluent presentation: The rule of 5 Conveying a message: The rule of 5 How to prepare a scientific presentation Before you start • What does the audience already know about your topic? • What are their interests? • Why are you giving presentation? Before you start • What is your desired outcome? • How much time do you have? • What are key points? Common Causes of Ineffective Presentations • Failure to prepare the talk • Confusing structure/not giving take home messages • Gaps in logic • Poorly designed slides • Poor delivery Organizing a Presentation i. ii. iii. iv. v. Outline Problem and background Design and methods Major findings Conclusion and recommendations Time Yourself Outline 1 Problem/Background 2 5 Design/Methods 2 min Impact Major findings Conclusion and Recommendations 3-5 Impact 1-2 Making slides • • • • Main points only One idea per slide Short words, few words (5 per line) Strong statements: active voice The start • • Let audience know what they are going to hear Let them know how the presentation will be organized Start broad, get specific, and end broad The middle is your original contribution Start with the biggest questions and get progressively more specific Focus now on conclusions Introduction • • • Context Study question Relevant knowledge on issue Major findings • Text and or table/graph • One slide for each • Message should be unambiguous Audience attention curve Conclusion and Recommendations • Key points • Implications • One slide for each message Formal aspects • AVOID USING ALL CAPITAL LETTERS BECAUSE IT’S REALLY HARD TO READ! • Dark letters against a light background (or the opposite) work • Avoid some colour combinations (redgreen) Formal aspects • Choose style that supports the tone • Apply the same style to each slide • Don’t Say It, Show It Be consistent! Formal aspects • Every slide should have a heading. • Lists should contain no more than 3-4 items • Limit text blocks to no more than two lines each. • Be careful with the pointer! Formal aspects Type size should be 20 points or larger: 18 point 20 point 24 point 28 point 36 point * References can be in 14 point font Comunità oratore-auditorio Creare legami sociali ed l'auditorio Creare una comunità di eguali emotivi con And do not forget to……. Relax Listen to what you are saying Pace and time yourself And do not forget to……. Face the audience Never underestimate your audience! With time you will enjoy….. CONTENT Co n veys n ew in form a tio n Po ses a n in terestin g q u estio n Co n veys how people in o ther fields thin k Describes im porta n t idea s No vel disco very STYLE AND DELIVER Y Keeps m e a w a ke Va ries vo ice Co n veys en thu sia sm Doesn’ t sta y in o n e p la ce CLAR ITY AND OR G ANIZATION Un dersta n da ble Avo ids ja rgon Uses clea r a n d sim ple v isu a l a ids Well orga n ized En a bles m e to ca tch u p if I spa ce o u Doesn’ t ru n o ver tim e EXP ER TISE Credible In spires tru st a n d co n fiden ce An sw ers q u estio n s clea rly How to prepare a scientific presentation • “Tell me and I will forget, show me and I will remember, involve and I will understand” Statistica • T-test, Chi2, ANOVA • Scelta del test • Limitazioni metodologiche Obiettivi di questa parte del corso • Imparare come specifiche domande possano ottenere risposte attraverso differenti tecniche statistiche • Imparare a valutare in maniera critica uno studio dalla letteratura, distinguendo tra studi validi e non • Imparare a riconoscere gli ‘abusi’ della statistica A cosa serve la Statistica? Blablabla media, #§, la variabile$, bla con la percentuale % della distribuzione del blabla… ma le statistiche dicono che blablabla… Tipico Statistico imbonitore “There are lies, damned lies and statistics” M.Twain "If you torture statistics enough they will confess to anything” Anonymous Statistica “E’ la scienza che implica l’estrazione di informazioni da dati numerici ottenuti durante un esperimento su un campione.” Implica: 1. Il disegno dell’esperimento o del campionamento 2. La raccolta e analisi dei dati 3. Il trarre inferenze sulla popolazione basate sulle informazioni ottenute dal campione. Pessime abitudini… • La maggior parte dei lettori delle riviste scientifiche dà per scontato che quando un articolo compare su una rivista sia stato valutato sotto ogni aspetto, compreso l’utilizzo dei metodi statistici Cominciamo quindi dalla Statistica nelle pubblicazioni • Da uno studio sul British Journal of Psychiatry del 95 (ma anche in molti altri) il tasso di errori statistici (in senso lato) nelle pubblicazioni sullo stesso BRJPSY varia dal 31 al 90%, in genere intorno al 50%!!! (“The use of Statistics in the British Journal of Psychiatry”-McGuigan S.M. Br J Psy (1995),167,683-688) Abusi in Statistica Le Statistiche possono mentire in molti modi… • Non appropriati i metodi di raccolta dati • CAMPIONI INADEGUATI (es auto-selezionati, non casuali) • CAMPIONI PICCOLI (conclusioni basate su campioni troppo piccoli) • Manipolazioni di analisi e grafiche (grafici e percentuali distorte) Distribuzione Normale • La maggior parte delle variabili biologiche e dei processi casuali si distribuisce secondo una curva a campana o “Gaussiana” (Gauss C.F. 1777-1855). • La Distribuzione Normale viene poi “standardizzata” (cioè trasformata) le aree vengono così espresse in termini di “deviata standardizzata” • Distribuzione Standard Normale è quella distribuzione normale che ha media =0 e varianza =1. Distribuzione Normale di Probabilità Probabilità = 0.50 Probabilità = 0.50 Probabilità = 0.025 Probabilità = 0.025 X Distribuzione Standard Normale • E’ una distribuzione di probabilità utilizzata per dati continui; la somma dell’area sotto la curva rappresenta il 100% di probabilità • Ha la forma di una campana, simmetrica attorno alla media, con valori da - a + • La formula è quella di una variabile Z distribuita casualmente con N (, 2) : X− μ Z= σ x = qualsiasi punto sull’asse delle ascisse = Deviazione Standard della distribuzione normale = media della popolazione z = equivalente al valore della probabilità (numero di deviazioni standard tra il punto x e la media) C’è un numero infinito di Distribuzioni Normali! Ciascuna ha una propria media e deviazione standard Ogni distribuzione richiederebbe una propria tabella di conversione per il calcolo delle probabilità... Poco pratico X Come standardizzare la Distribuzione Normale Distribuzione Normale Distribuzione Normale Standardizzata z = 1 X Z = 0 Z Distribuzione Standard Normale 1.96s 95% x Il 95% delle osservazioni (o degli individui) si trova entro circa 2 deviazioni standard dalla media Distribuzione Standard Normale DS 68% x Il 68% delle osservazioni (o degli individui) si trova entro 1 deviazione standard dalla media Esempio: il QI ha una distribuzione normale con media 100 e DS di 16; qual’è il range di “normalità”? Working With the General Normal EXAMPLE: IQ Scores IQ Scores have a normal distribution with a mean of 100 and a standard deviation of 16. What is the 99% percentile of IQ Scores? s.d. = 16 | 100 Se ho un QI di 130, sono significativamente superiore alla media? Statistica Descrittiva e Statistica Inferenziale • Media, Varianza, Deviazione Standard ed Errore Standard sono statistiche descrittive. • La Statistica Inferenziale non può mai dire se qualcosa è vero (oppure no) • Fornisce un bilancio di probabilità a riguardo: la probabilità che l’ipotesi sia vera (oppure no). EH??? Statistiche descrittivedescrizione del campione Statistica Descrittiva • E’ difficile visualizzare in un grafico tutte le informazioni significative. • E’ possibile raggruppare le informazioni • Per farlo sono necessarie 1) una misura di localizzazione 2) una misura di variabilità o dispersione Misure di localizzazione e di dispersione MEDIA VARIANZA Misure di localizzazione n x • MEDIA x= i =1 n i = (X1+X2+X3+…Xn) -----------------------n o misura di tendenza centrale somma delle osservazioni, divisa per il loro numero • Mediana se si dispongono le osservazioni in ordine crescente o decrescente è l’osservazione centrale • Moda l’osservazione più frequente Non è sufficiente una misura che indichi dove si situano in media gli individui. E’ necessaria una statistica che indichi quanto differiscono tra loro, la dispersione intorno alla media. E’ la varianza. Misure di dispersione • Range (intervallo di variabilità), Quartili • VARIANZA è la sommatoria delle differenze tra le singole osservazioni e la media. o somma dei quadrati degli scarti dalla media (unità di misura x2 ) n ∑ ( xi− ̄x ) σ = 2 i= 1 n • DEVIAZIONE STANDARD è la radice quadrata della varianza misura la variabilità nei dati (stessa unità di misura di x !!) n (x x) i s= i=1 n 2 2 3 distribuzioni – stessa media, differenti varianze Ospedale di montagna: una piccola popolazione (N = 5) N= 5 reparti; Numero di pazienti per reparto: 1 2 2 3 5 1+ 2 + 2 + 3 + 5 μ= = 2.6 5 Media di pazienti per reparto ( 1 2.6 ) + 2 ( 2 2.6 ) + ( 3 2.6 ) + ( 5 2.6 ) σ= = 1.36 5 2 2 2 2 Nota che il denominatore per il calcolo della Deviazione Standard è N = 5 ATTENZIONE!!! Il problema maggiore è che Vogliamo informazioni riguardo: Abbiamo a disposizione: Selezione Random Popolazione Campione Inferenza Parametro (Media della Popolazione) х Statistica (Media del Campione) Se estraiamo a caso un campione di n =2 reparti estratto dalla “popolazione” di N =5 2+5 x= = 3.5 2 ( 2 3.5 )2 + ( 5 3.5 )2 s= = 2.12 2 1 Attenzione: La Media del “campione” non è uguale a quella della “popolazione” (era 2.6). La Deviazione Standard del “campione” non è uguale a quella della “popolazione” (era 1.36). Statistica applicata al Campione • In realtà la formula della Deviazione Standard e della Varianza del campione hanno una formula differente rispetto a quella della popolazione • Anche i simboli sono diversi! • Infatti sono “stime” dei valori della popolazione, perché il valore reale è sconosciuto n ∑ ( xi − x̄ ) 2 s2= i= 1 n− 1 Gradi di libertà n (x x) i DS = i=1 n 1 2 Effetto della dimensione del Campione f X Più Numeroso (rif: Teorema centrale del limite) Meno numeroso X La media del campione più numeroso si avvicina alla media vera Dato il campione cosa possiamo dire della popolazione? • Si suppone sempre che il campione sia sempre casualmente estratto dalla popolazione • Si conosce la dimensione del campione n, la sua media x e la sua deviazione standard s • (NOTA La “popolazione” in Statistica non è un’entità reale ma l’idea di un’ipotetica popolazione generata da un numero indefinitamente grande di osservazioni) Stima di (media della popolazione) • Dalla media campionaria come si stima la media VERA? – Esempio: Da un campione di 50 studenti, come si può calcolare il peso medio della popolazione degli studenti italiani? – Dall’effetto del farmaco A su un campione di pazienti cosa possiamo dire dell’effetto che avrà sulla popolazione? • La stima che facciamo di a partire dalla media campionaria x è valida? • Sappiamo che probabilmente x sarà vicina a , poco probabile che sia esattamente uguale • QUINDI? Come si stimano i Parametri della Popolazione? (INFERENZA) Parametro Sconosciuto Campione Media x Deviazione Standard S σ n √ S √n Errore Standard Un nuovo parametro: cos’è l’Errore Standard? Torniamo all’ospedale di montagna (campione di n = 3 reparti) Campione 1,2,2 1,2,3 1,2,5 1,2,3 1,2,5 1,3,5 2,2,3 2,2,5 2,3,5 2,3,5 Media 1.67 2.0 2.67 2.0 2.67 3.0 2.33 3.0 3.33 3.33 μ x = 2.6 = media vera S 1.36 ES = = = 0.79 n 3 = errore standard del campione ERRORE STANDARD Dall’errore standard derivo l’INTERVALLO DI μ = x CONFIDENZA 2.6 = media vera S 1.36 ES = = = 0.79 n 3 = errore standard del campione Su cosa si basa tutta la Statistica? Si basa sul concetto di p, cioè sulla PROBABILITA’ • Utilizziamo la Statistica per discriminare se le differenze tra campioni o trattamenti sono “reali” oppure “dovute al caso” • La p è la probabilità di ottenere quel risultato (o più estremo) se l’ipotesi nulla è vera. IPOTESI NULLA e IPOTESI ALTERNATIVA • Assunzione che non vi è nulla di “provato”, e che tutto si verifica per caso, seguendo le leggi della probabilità. Questa è chiamata IPOTESI NULLA(H0) • L’IPOTESI ALTERNATIVA è che qualcosa di improbabile, o “significativo” si sia verificato (HI) (che capita di rado) • Se il nostro test ci dice che abbiamo osservato un evento abbastanza improbabile allora possiamo RIFIUTARE l’ipotesi nulla e ACCETTARE l’ipotesi alternativa Inferenza • Se l’IPOTESI NULLA è respinta si può concludere che: – c’è una differenza tra i due trattamenti – la differenza osservata non è dovuta al caso – la differenza NON è detto che sia di rilevanza clinica Molto probabile che sia diverso Probabile che sia molto diverso!!! In giurisprudenza è “innocente fino a prova contraria”. D’accordo, la “p” è la via finale comune, ma come ci si arriva? • Siete sicuri di sapere che tipo di test si deve usare, che conoscete le procedure del ‘ricercatore’? Allora rispondete alle seguenti domande.. Esempio 1 • Volete studiare l’efficacia nel rallentare la frequenza cardiaca del farmaco XY • Che test usate? T-test • Se la variabile indipendente è categoriale o binaria e la variabile dipendente è continua • Possiamo anche misurare il parametro di interesse confrontando nello stesso campione i soggetti prima e dopo il trattamento utilizzando il “T test per gruppi appaiati” • Oppure confrontare un solo gruppo con la media della popolazione “T test per gruppi NON appaiati” 30 T-test 20 Accept H0 Frequenza • Se la media attesa (o della popolazione o del primo campione) e la media osservata (o del secondo campione) distano tra loro più di 1.96*DS allora possiamo respingere l’ipotesi nulla. e 0 30 e o o 20 Reject H0 10 0 Expected Observed 20 30 40 50 Parametro 60 T-test Ricorda che… • Il T-test può essere utilizzato solo se la distribuzione dei dati è Normale • In caso contrario, è possibile utilizzare altri test, come il test di Mann-Whitney o il Test di Wilcoxon Esercizio 1 Esempio 2 • Volete confrontare l’effetto di 4 diversi tipi di trattamento sulla glicemia in pazienti con NIDDM (per esempio dieta, esercizio fisico, antidiabetico orale, fitoterapia). • Voi pensate che vi sia un effetto straordinario della fitoterapia.. • Che fate? Regressione Multipla • Serve per valutare l’effetto di più variabili sulla variabile dipendente • Fornisce l’effetto di ognuna di esse indipendentemente dalle altre • Attenzione: correlazioni tra le variabili indipendenti causano errori! ANOVA • Con questo test l’ipotesi nulla è che tutti i campioni siano simili in quanto tratti dalla stessa popolazione; H0= non differenze • Se ogni campione è indipendente e… • Ogni campione è estratto casualmente e… • La popolazione è distribuita normalmente e… • Le varianze sono uguali (anche se le medie sono differenti) • ALLORA LA SI PUO’ USARE!!! ANOVA Altrimenti? ANOVA di Kruskal-Wallis Esempio 3 • Sostenete fermamente che vi sia un’associazione tra il fumare e l’allergia ai crostacei • Cosa fate? Chi-quadrato (2) • Si usa se le variabili sono delle frequenze (o proporzioni) • Confronta la differenza tra le frequenze osservate e quelle attese per caso. • E=Expected (valore atteso) vs. O=Observed • Significatività statistica ( = 0.05) 2 = (df) (O – E )2 E Tabella di contingenza (o 2x2) Supponi di voler mettere a confronto l'efficacia di un nuovo antibiotico (nome di fantasia: xmicina) con un antibiotico già in uso (streptomicina) nella terapia di una malattia del cane (la leptospirosi). A questo scopo, intraprendi un test clinico su un campione di animali costituito dai cani affetti da leptospirosi che vengono presentati in alcuni ambulatori ed ospedali veterinari in un determinato periodo di tempo. Durante la sperimentazione, ogni cane viene assegnato a caso al gruppo dei trattati con il nuovo antibiotico oppure a quello dei trattati con la streptomicina. Tabella 1 I dati grezzi indicano che la xmicina è più efficace della streptomicina. Però la superiorità della xmicina potrebbe essere dovuta al caso... Dati attesi I dati della precedente tabella dimostrano che indipendentemente dal tipo di antibiotico il trattamento è risultato efficace nel 74.8% dei casi. Infatti sono guariti, sempre complessivamente ed indipendentemente dall'antibiotico utilizzato, 52+40=92 animali (a+c) su 123 trattati. Applicando questa percentuale di successo (74.8%) a ciascuno dei due gruppi in esame, si ricavano i dati della sottostante tabella , che illustra la situazione ci si aspetterebbe se i due antibiotici avessero la stessa efficacia. Tabella 2 Quindi… Ricorda che… • Il test del Chi-quadrato è utilizzabile quando il valore di ogni cella è > 5 ed il numero totale di osservazioni è > 30 • In caso contrario, è possibile utilizzare altri test, come il test esatto di Fisher, oppure utilizzare la correzione di Yates Esercizio 2 Esempio 4 • Volete studiare le recidive di gastrite dopo trattamento eradicante per Helycobacter, confrontando due diversi schemi di trattamento antibiotico. • Che fate? Analisi di sopravvivenza • Con un punto di partenza ben definito (ingresso nello studio) e di arrivo (recidiva), differenti tempi di osservazione si calcolano le curve di sopravvivenza (Test log-rank) Cumulative Proportion Surviving (Kaplan-Meier) Relapse 1,0 No relapse Analisi di sopravvivenza 0,9 0,8 • 0,7 Con un punto di partenza ben definito (ingresso nello studio) e di arrivo (recidiva), 0,6 0,5 differenti tempi di osservazione si calcolano 0,4 le curve di sopravvivenza (Test log-rank) 0,3 Cumulative Proportion Surviving 0,2 0,1 0,0 0 2 4 6 8 10 12 14 Time Ghean Wicoxon test=3.0 p=0.0027 16 18 20 22 Treated Untreated Riassumendo… • TEST PARAMETRICI (Media, Varianza, ANOVA) se la variabile dipendente è misurata con una scala intervallare • Si effettuano assunzioni parametriche circa le caratteristiche delle popolazioni sottostanti (da cui sono estratti i campioni) • SI POSSONO USARE SOLO SE le popolazioni sono normalmente distribuite • i campioni derivano da distribuzioni con varianze uguali Riassumendo… • TEST NON PARAMETRICI (Fisher exact test, Spearman, Mann-Whitney) non necessitano di assunzioni circa le distribuzioni • SI POSSONO USARE con popolazioni distribuite in maniera NON NORMALE, dati ordinali o con piccoli campioni L’ Influenza dei Mass-Media Spesso le pubblicazioni scientifiche sono caratterizzate da •Ingiustificabile grado di certezza •Promessa di benefici immediati •Dettaglio tecnico e gergo scarsamente comprensibili •Esagerazione dei possibili rischi per scopi ‘di notizia’ •“Notizie sponsorizzate” Ma a voi cosa rimane per esempio se leggete la tabella di un articolo come questo? (Am J Psy …) “Do Urbanicity and Familial Liability Coparticipate in Causing Psychosis?” Jim van Os et al. Am J Psychiatry 160:477-482, 2003 Lista di “caveat” • Tutti vi hanno sempre spiegato cosa fare • Noi oggi vogliamo spiegarvi cosa NON fare – Errori riguardanti il campione • Casi, controlli, numero,drop-out – Errori riguardanti la presentazione dei dati • Grafici, forme di scrittura dei risultati – Errori riguardanti l’analisi • Media, DS, SEM, scelta del test, missing data, drop out … Gli errori più comuni: sul campione Io faccio così. E allora? • Come avete reclutato il vostro campione di pazienti? • E’ rappresentativo della popolazione generale di pazienti? (Per età, gravità, trattamento, frequenze alleliche…) • E’ casualmente estratto dalla popolazione? (auto-selezionato, più grave..) BIAS DI SELEZIONE DEL CAMPIONE Gli errori più comuni: sul campione II • Come avete reclutato il vostro campione di controllo? • In alcuni studi (i peggiori) i controlli non sono descritti per nulla... fine del problema • In altri i controlli sono STORICI (?) • oppure sono studenti, membri dello staff… BIAS DI SELEZIONE DEI CONTROLLI Gli errori più comuni: sul campione III • Avete fatto il calcolo del power prima di cominciare lo studio? • Potreste ritrovarvi con una dimensione del campione inadeguata a individuare differenze clinicamente rilevanti BIAS DI NUMEROSITA’ Gli errori più comuni: il campione IV • Cosa ne avete fatto dei drop-out? • Buttati? Dove? • L’analisi va fatta “intent- to- treat” e il come e il perché quei soggetti sono droppati va descritto con il maggiore dettaglio possibile • BIAS SUI DROP-OUT Gli errori più comuni: la descrizione grafica Rules for any graph: 2: A title Sono banalità ma spesso omesse... 3: Explanations of symbols 1: Clearly labelled axes, units where appropriate The distribution of pH values in ponds on Wimbledon Common 7 Shows maxima and minima pH 6 1 2 3 4 5 6 Pond # Gli errori più comuni: la descrizione grafica II Grafico senza senso Scatterplots, contd Beware the false axis! Why is this graph meaningless? Weight of leaf 1 5 10 Bag number Gli errori più comuni: la descrizione grafica III Un punto importante è come si presentano i risultati: Devono essere SEMPRE esplicitati: 1. Il tipo di test usato 2. Il risultato del test 3. I gradi di libertà 4. La p Per es: F (2, 173) = 37.39, p = .0001 Test gradi di libertà Gli errori più comuni: l’analisi • In alcuni lavori non sono descritte… problema risolto. • Avete sempre fornito al lettore una descrizione “statistica” del campione? • La Media e la Deviazione Standard consentono di capire DOVE si situa il campione per una certa variabile • NON si usa l’Errore Standard della Media!!! (misura della precisione con cui si stima la media della popolazione) Gli errori più comuni: l’analisi II • Far bene l’analisi fa bene all’analisi (statistica…) • Conoscete bene la tecnica che state applicando? Che limiti ha? A cosa si applica e a cosa NON si applica? • Per es forse non tutti sanno che – il T test è sensibile ai dati con distribuzione non simmetrica – il Chi quadrato non va usato se le osservazioni non sono indipendenti – l’ANOVA se la distribuzione non è normale.. Gli errori più comuni: l’analisi III • Cosa vuole dire quella p??? • La p deve essere indicata con esattezza, non soltanto se è “significativa” • Se p < 0.05, allora respingiamo l’ipotesi nulla • Ma ricordate sempre che p < 0.05 è interamente arbitrario! E in discussione deve essere molto chiaro: non differenza significativa non differenza Gli errori più comuni: l’analisi IV • Cos’è l’Intervallo di Confidenza? A cosa serve? • IC: questo sconosciuto • Quanti di voi l’hanno mai incluso nei loro articoli? Gli errori più comuni: gli outliers • Sono quelle osservazioni che “chiaramente” si situano al di fuori del range del dataset. • Controllarle sempre; in genere derivano da errori di battitura… • E’ corretto escluderli dalle analisi successive, ma questo deve sempre essere specificato nella sezione metodi. • Attenzione, potrebbero essere le osservazioni più interessanti!!” Gli errori più comuni: gli outliers II • Le tecniche di analisi multivariata (MANOVA) sono molto (troppo) sensibili agli outliers.. Multivariate techniques.. Are especially sensitive to outliers: watch as one data point has its decimal place entered one place out: P C A o r d in a t io n o fs o m e r a t h e r S a m e d a t a s e t ,a f t e r1 d a t a p o in th a s d p p a t t e r n le s s d a t a s h if t e d b y 1 p la c e 2 . 0 N o t e t h e 1 s ta x i s i s n o w a b o u tt h i s 1 o u t l i e r 1 . 5 2 . 0 1 . 0 1 . 5 . 5 axis2 . 5 1 . 0 1 . 5 2 . 0 1 . 5 1 . 0 a x is 1 . 5 0 . 0 . 5 1 . 0 2ndprincipalaxis 1 . 0 0 . 0 1 . 5 . 5 0 . 0 d a t a p o in t s . 5 W a t c h t h isd a t a p o in t b o d yo ft h e d a t a 2 . 0 D a t a p o in t s 1 . 0 m o d if ie d b y1 d p 1 . 5 u n c h a n g e d 2 . 0 1 . 0 . 5 0 . 0 . 5 1 s tp r in c ip a la x is 1 . 0 1 . 5 2 . 0 2 . 5 3 . 0 Gli errori più comuni: Missing data • Tristissimi... Il soggetto è perso.. (cambia medico, si riempie di pomfi e droppa, vi cade la provetta…) • Non è zero!! I missing vanno inclusi nei conti (-1, 999, etc) • Controllare di ogni tecnica come vengono considerati. In alcune analisi provocano difficoltà quasi “insormontabili”e devono essere esclusi. Gli errori più comuni: i test multipli Perché non si devono fare (come qualsiasi altro test) se non si hanno gli occhi ben aperti!! cilindro cilindro 1 2 3 Prendi dei soggetti da una popolazione e forma due gruppi; quindi testa H0: nessuna differenza Usando p = 0.05 sappiamo che respingeremo H0 una volta su 20 per caso, anche se non sono diversi. Questo è il significato di p = 0.05. Adesso estrai 3 gruppi e applica H0: non differenza per ciascuna coppia 1-2, 1-3, 2-3 Gli errori più comuni: i test multipli II •Sempre p=.05 per p1-p2, .05 per p2-p3... •Per ciascuna coppia la probabilità di accettare H0 è 0.95 (pr che i campioni non siano diversi), quindi la probabilità di accettarle tutte e tre è 0.95*0.95*0.95 = 0.857 •Ne deriva che la probabilità di respingere H0 è (1-0.86) = 0.14 •In altre parole ci “sbaglieremo”una volta su 7, non più una volta su 20!!! Gli errori più comuni: i test multipli III Fa alterare moltissimo i referi.. •Questo è il motivo per cui NON si può usare una significatività dello 0.05 se effettuiamo test multipli •Bisogna sempre specificare quanti e quali test stiamo effettuando e applicare un criterio più ristretto Gli errori più comuni: i test multipli IV •Se effettuiamo N differenti test sullo stesso set di dati il livello di significatività deve essere corretto; si può usare la formula p=1-(1-0.05)1/N Es: 3 test, p corretta = 1-0.95(1/3) = 0.017. E fare un Bonferroni? Ancora 3 argomenti abbastanza scomodi… •“Positivamente negativo” o “Negativamente negativo”? •Post-hoc analysis •Data dredging Tips (Ricercatore ignaro di questi argomenti) Keep the noise levels down! Bias, confounding, and extraneous variables all increase the noise in a study. “Positivamente negativo” • Il processo di sviluppo di un nuovo trattamento passa attraverso: – descrizione di risultati promettenti – diffusione in centri di eccellenza – informazione diffusa attraverso i mass-media con i pz stessi che richiedono di essere trattati con la nuova terapia. • In queste prime fasi vengono pubblicate solo le ricerche con risultati positivi “Positivamente negativo” • Quando il trattamento viene adottato dalla comunità scientifica qualcuno si accorge che non sempre i risultati corrispondono a quelli attesi e propone di sottoporre il nuovo trattamento ad una ricerca rigorosa, randomizzata e controllata (RCT) • Molti si oppongono al confronto verso placebo, ritenendolo non etico. • La storia recente ha dimostrato che, se i risultati sono positivi il trattamento viene consacrato nelle linee guida, se negativi cade rapidamente nel discredito “Positivamente negativo” • “POSITIVE RESULT BIAS” è quel fenomeno per cui l’informazione viene distorta a favore dei risultati positivi, mentre quelli negativi sono più difficilmente pubblicati, o lo sono su riviste minori. • Esempio: nel 1995 venne interrotta una ricerca multicentrica internazionale sull’efficacia di un vasodilatatore nei pz con scompenso cardiaco, a causa di un eccesso di mortalità; all’inizio 2005 i risultati non erano ancora stati pubblicati. E negativamente negativo? • Ma quanto è “negativa” una sperimentazione clinica negativa? • In una elevata percentuale di casi il campione è troppo piccolo per avere una potenza (Power!) sufficiente • Spesso ci troviamo ad “avere fiducia” in risultati negativi in maniera irragionevole tanto quanto l’abbiamo per risultati positivi! Post-hoc analysis • Sono tutte quelle analisi statistiche non contemplate nel protocollo di ricerca che vengono effettuate dopo la conclusione della raccolta dei dati. • In genere sono presenti nel 50-75% degli articoli! • Possono essere ottenuti per caso e in genere sono poco affidabili o del tutto inaccettabili Post-hoc analysis • Esempio: Alla conclusione di un famoso studio multicentrico di confronto atenololo vs placebo in pazienti con Infarto Miocardico Acuto era stato valutato l’effetto del farmaco in sottogruppi di pazienti divisi per segno zodiacale. • Venne osservato che l’atenololo era significativamente più efficace nei nati sotto il segno dello scorpione… • Questo vuol dire che lo dobbiamo prescrivere solo a questi ultimi? • E agli altri cosa diamo? Dragare i dati (data dredging) • Uno dei maggiori pericoli di un trial clinico è che il gran numero di dati disponibili generi informazioni false • Se i ricercatori hanno a disposizione un gran numero di parametri (due o più trattamenti, multipli end-point, misurazioni ripetute di molti parametri), le combinazioni sono pressoché infinite e i ricercatori sono tentati di svolgere molteplici confronti con l’unico scopo di trovare risultati statisticamente significativi. Dragare i dati (data dredging) • E’ del tutto legittimo svolgere ulteriori analisi sui dati disponibili per indagare l’eventuale presenza di rapporti statistici tra due o più variabili, purché i risultati non vengano utilizzati per confermare ma solo per generare ipotesi. • In genere questi risultati su sottogruppi sono smentiti da ricerche successive svolte proprio con lo scopo di verificare quel risultato Dragare i dati (data dredging) • Il lettore deve accertarsi che nel protocollo di ricerca siano state descritte ed elencate le ipotesi che gli autori si erano proposti di verificare e quali relazioni sarebbero state analizzate. • Qualunque analisi derivante da ipotesi formulate a posteriori deve essere considerata con una certa cautela.