Dispense di statistica per la ricerca – Corso di laurea in Logopedia Concetti introduttivi ................................................................................ 2 Karl Popper e la logica della scoperta scientifica .................................................... 2 Thomas Kuhn e i paradigmi delle scienze .................................................................... 3 Verso un nuovo paradigma nelle scienze della vita e della salute ................. 4 1. Il processo di misurazione .................................................................. 15 1.1 La ricerca scientifica dell’approccio quantitativo ........................................ 15 1.2 Definizione e classificazione delle variabili ..................................................... 18 1.3 I livelli di scala ............................................................................................................... 21 1.4 La tecnica delle scale. Cenni. ................................................................................. 23 1.5 L’organizzazione dei dati ........................................................................................ 23 1.6 La statistica descrittiva univariata .................................................................... 25 1.6.1 Distribuzioni di frequenza ........................................................................................... 26 1.6.2 Indici di posizione: quantili, moda e mediana .................................................... 28 1.6.3 Indici di variabilità e mutabilità ................................................................................ 35 1.7 Statistica descrittiva bivariata ............................................................................. 39 1.7.1 Tabelle di contingenza .................................................................................................. 39 1.7.2 Indipendenza e connessione ...................................................................................... 41 1.7.3 Associazione ...................................................................................................................... 43 1.7.4 Cograduazione .................................................................................................................. 45 1.7.5 Correlazione ...................................................................................................................... 49 1.7.6 La retta di regressione .................................................................................................. 52 Bibliografia ............................................................................................ 55 2 Introduzione Concetti introduttivi Karl Popper e la logica della scoperta scientifica La maggior parte di noi conosce Karl Raimund Popper come filosofo della politica. Per lo più, infatti, abbiamo letto o abbiamo sentito parlare di quello che è considerato il più rilevante dei suoi lavori di filosofia politica: La società aperta e i suoi nemici, edito a Londra nel 1945 e comparso in Italia solo nel 1973. Ma Karl Popper è stato soprattutto un filosofo della scienza, un epistemologo. Il termine «epistemologia» deriva dalle parole greche episteme (scienza) e logos (discorso). Indica, pertanto, quella parte della teoria della conoscenza, della gnoseologia, che si occupa dei fondamenti e dei limiti, in una parola, della validità del sapere scientifico. Per molti autorevoli pensatori, come per esempio Richard Rorty, l’epistemologia sarebbe il programma prevalente nella filosofia occidentale da Cartesio in poi. Né potrebbe essere diversamente. La peculiarità che contraddistingue la nostra civiltà è, infatti, la scienza: il sapere in grado di «dominare un massimo di avvenimenti, di processi naturali, ossia di pronosticarli nel modo più esatto possibile» (Popper 1997; p. 189). E la scienza «esige che a ogni conoscenza, anche a quelle scoperte per via intuitiva, sia data una giustificazione oggettiva: e una giustificazione oggettiva è una giustificazione metodologica che può essere sottoposta a controlli intersoggettivi» (Popper 1997; p. 119). Pertanto, non è sbagliato dire che la «logica della scoperta scientifica» assume, per noi, quel ruolo di «filosofia prima» che fino alle soglie della Modernità o in altre civiltà è ricoperto dalla metafisica1. Karl Popper ha saputo dare un contributo originale e un impulso decisivo a questa disciplina. Con ciò, ha anche tenuto alta la tradizione del pensiero razionalista che è fondamento di tutte le nostre migliori conquiste. Colosso del pensiero novecentesco, Karl Raimund Popper occupa una posizione assolutamente cruciale all'interno della filosofia della scienza del secolo scorso, avendo operato una vera e propria linea di demarcazione nel dibattito epistemologico; tanto che si può tranquillamente affermare, e lo si riscontra facilmente anche sui manuali, come nella filosofia esista un prima di Popper e un dopo Popper. Il suo cosiddetto razionalismo critico infatti lo ha condotto a elaborare modelli applicabili non solo alla ricerca scientifica ma anche alla dimensione teorica nel suo insieme. Il «razionalismo critico» di Karl Popper si inserisce nel clima culturale segnato dal declino, conseguente alle scoperte della fisica (per esempio la teoria della relatività) del positivismo ottocentesco. Benché non ne avesse mai fatto parte, Popper si formò a stretto contatto con il Circolo di Vienna, il movimento culturale nato per iniziativa di Moritz Schlick, che, nel 1922, era succeduto a Ernst Mach nella cattedra viennese di filosofia delle scienze. Il Circolo, che riunì, a partire dal 1923, pensatori come Ludwig Wittgenstein, Rudolf Carnap, Otto Neurath e Hans Hahn, ha avuto il merito di far nascere la filosofia della scienza come disciplina distinta dalla tradizionale gnoseologia, oltre che di apportare grandi contributi alla filosofia analitica di stampo anglosassone. Nel 1934, Karl Popper pubblicò Logica della scoperta scientifica con la quale prese le distanze dal Circolo di Vienna, partendo dalla critica del procedimento induttivo: la pretesa di formulare leggi generali partendo da un numero finito di casi particolari. Nel merito, Karl Popper riprende l’allegoria dei corvi neri resa celebre da David Hume: «Per 1 Il termine (dal greco metà tà physiká, dopo le cose della natura) ha un'origine puramente accidentale perché indicava, nell'edizione delle opere di Aristotele, gli scritti che venivano dopo i libri della Fisica e nei quali si trattava della «filosofia prima», dell’«ente in quanto ente», cioè dei principi immutabili ed eterni. Introduzione quanto numerosi siano i casi di cigni bianchi che possiamo avere osservato, ciò non giustifica la conclusione che tutti i cigni sono bianchi» (Popper, 1998, pp. 5-6) Ciò vuol dire che una teoria non può mai essere «verificata», cioè fatta vera (verum facere), dall’osservazione o dall’esperimento. L'induzione non è infatti un processo che possa essere giustificato razionalmente, anzi, essa è per Popper addirittura impossibile: teorie universali non sono mai deducibili da asserzioni singolari, da descrizioni di fatti osservabili (Popper, 1998). Questo significa che, per quanto grande sia il numero delle osservazioni empiriche che noi possiamo effettuare nel tentativo di verificare una teoria, non riusciremo mai a giungere a una sua verifica definitiva, in quanto, essendo costituita da un'asserzione di portata universale, il suo significato trascende sempre il numero finito delle nostre osservazioni empiriche. Delegittimato così il principio di verificazione, Popper propone il principio di falsificazione, il quale afferma che una sola osservazione negativa ci mette in condizione di concludere per la falsità di un'enunciazione. Se l’esperienza contraddice la teoria, quest’ultima risulta falsificata e deve essere abbandonata. Ma il lavoro non è stato inutile. Infatti, dalla sua falsificazione si sono comunque ottenute nuove informazioni. Se, al contrario, esiste accordo tra teoria ed esperimento, allora la teoria viene assunta come vera, ma solo provvisoriamente, perché la falsificazione è sempre in agguato. Per esempio, la fisica di Isaac Newton è stata falsificata dalla «relatività» di Albert Einstein. E, proprio in questi anni, alcuni scienziati stanno lavorando all’ipotesi che la velocità della luce non sia una costante. Ciò «falsificherebbe», a sua volta, la teoria di Albert Einstein. Quindi, gli esperimenti non sono tentativi di verifica, bensì di confutazione. Se, dunque, non possiamo mai sapere, in modo conclusivo, se una teoria è vera, possiamo invece sapere, con una certa sicurezza, se la nostra teoria è falsa, qualora si verifichi nell'esperienza anche un solo fatto in contraddizione con quanto sostenuto da tale teoria. La scienza empirica procede per congetture e confutazioni, secondo un iter schematizzabile in problemi - teorie - critiche: • si inizia sempre da problemi, che sono il frutto delle nostre aspettative deluse rispetto a una precedente teoria (che costituisce la nostra conoscenza di sfondo); • si formula una nuova congettura o teoria soddisfacente rispetto ai problemi stessi; • si cercano, attraverso osservazioni ed esperimenti, elementi atti alla sua confutazione e falsificazione per sostituirla al più presto con un'altra teoria provvisoriamente più adatta a spiegare la realtà. Karl Popper definì il suo metodo come «ipotetico-deduttivo»: il punto di vista secondo cui un’ipotesi può essere soltanto controllata empiricamente e soltanto dopo che è stata proposta. La ricerca procede, pertanto, per tentativi ed errori: congetture e confutazioni. (Popper, 1998) Questo modo di pensare permette «di distinguere le proposizioni delle scienze empiriche dalle asserzioni metafisiche» (Popper, 1998). Secondo questo nuovo criterio di «demarcazione», le affermazioni della scienza si distinguerebbero da quelle metafisiche proprio in quanto suscettibili di essere «falsificate». Infatti, le asserzioni della metafisica non sono falsificabili, perché non possono essere sottoposte a esperimento: non possono essere controllate. In conclusione, la controllabilità, ovvero la falsificabilità di una teoria è la condizione della sua scientificità. Thomas Kuhn e i paradigmi delle scienze La parola paradigma è stata utilizzata da Platone (modello) e da Aristotele (esempio). Nelle scienze umane si usa molto, e ha diversi significati (teoria, articolazione interna di una teoria, scuola o pensiero). Nel 1972 Thomas Kuhn scrive l’opera “La struttura della rivoluzioni scientifiche” in cui rifiuta la concezione tradizionale della scienza come accumulazione progressiva di nuove scoperte, affermando invece che in certi momenti (detti rivoluzionari) si interrompe il rapporto di 4 Introduzione continuità con il passato e si inizia un nuovo corso, in modo non completamente razionale: Si tratta di un elemento arbitrario composto di accidentalità storiche e personali sempre presente come elemento costitutivo nelle convinzioni manifestate da una data comunità scientifica in un dato momento (Kuhn, 1972). Il passaggio da una teoria a un’altra è così globale e ha tali conseguenze che Kuhn lo chiama rivoluzione scientifica. C’è un cambiamento dei problemi da proporre all’indagine scientifica e dei criteri con cui si stabilisce cosa si considera come un problema ammissibile, cambia anche la struttura concettuale attraverso cui gli scienziati guardano il mondo (paradigma). Il paradigma è una prospettiva teorica che è condivisa e riconosciuta dagli scienziati, è fondata su acquisizioni precedenti e indirizza la ricerca riguardo alla scelta dei fatti rilevanti da studiare, alla formulazione delle ipotesi e ai metodi e tecniche di ricerca necessari. Senza un paradigma una scienza non ha orientamenti né criteri di scelta, perché tutti i criteri, i problemi e le tecniche diventano ugualmente rilevanti. Il paradigma è una guida e fornisce agli scienziati un modello e le indicazioni per costruirlo. Con il paradigma lo scienziato acquisisce contemporaneamente teorie, metodi e criteri. Il paradigma è qualcosa di più ampio di una teoria, è una visione del mondo, una finestra mentale, una griglia di lettura che precede l’elaborazione teorica. La scienza normale corrisponde a quei periodi in cui esiste all’interno di una disciplina un paradigma condiviso dagli scienziati. Verso un nuovo paradigma nelle scienze della vita e della salute Nella storia della medicina e delle scienze sanitarie si può osservare il succedersi di paradigmi molto diversi tra loro. Innanzitutto si nota come nell'antichità (e ancor oggi tra i popoli primitivi), mancando conoscenze certe sulla natura dei processi patologici, la medicina viene prevalentemente esercitata in stretta relazione alla mitologia, alla magia o alla religione: le malattie sono viste come castighi mandati dagli dei, i medici sono anche guaritori, stregoni o sciamani. Anche nella medicina cinese e nelle altre medicine orientali, il paradigma dominante è extra-scientifico, è costituito di una serie di "regole" interpretative basate sulla filosofia (ad. es. il "Tao") e derivate, per analogia, dalla osservazione del cosmo: si applicano al vivente concetti quali caldo/freddo, sole/luna, terra/acqua, ecc... A sostenere lo sforzo terapeutico è più la coscienza della necessità di trovare una "armonia" con i ritmi del cosmo che un'analisi razionale delle componenti in gioco. Fino alla fine del medioevo, la pratica della medicina non si discosta molto da tali vedute. Anche se si devono registrare alcuni notevoli tentativi di fondare la medicina sull’osservazione dei fenomeni naturali, sul ragionamento, sull'esperimento (basti pensare a personaggi come Ippocrate, Celso, Galeno, Paracelso), la medicina per molti secoli resta ancorata a una serie di precetti empirici, soggetti alle più strane applicazioni e modifiche, e fruisce di un armamentario terapeutico basato sull'uso indiscriminato di rimedi quali purghe, salassi, oppio e alcoolici. L’impostazione razionalistica della medicina come scienza ha le sue origini al tempo della cosiddetta “rivoluzione scientifica” nel XVII secolo, con la nascita della scienza moderna riconducibile a Copernico, Galileo, Cartesio e Newton. Da quel momento, la matematica diviene strumento di conoscenza (mathesis) applicabile anche alla medicina. I fondatori della scienza moderna avevano un programma ben preciso che consisteva nel «distruggere un mondo e rimpiazzarlo con un altro» (Koiré, 1953), fare cioè tabula rasa dell’esistente e ricominciare da capo, a partire dall’interrogazione dell’esperienza, rinunciando alla tradizione. È il programma d’intenti che segna l’inizio della Modernità, intesa come impalcatura che ha impregnato la filosofia, la cultura e la scienza nei quattro secoli successivi, fino ai nostri giorni. Il filosofo inglese Stephen Toulmin osserva: Nel 1650 la tolleranza umanista per l’incertezza, l’ambiguità e la diversità cedettero il posto all’intolleranza puritana, all’insistenza razionalista sulla teoria esatta e universale, all’enfasi sulla certezza a riguardo di tutto (Toulmin, 1990). I concetti di scienza e verità, ancorati al pensiero logico e matematico, diventano indissolubili Introduzione nel percorso della Modernità, sullo sfondo di una concezione riduzionistica dell’universo e della vita che pretende di spiegare tutti i fenomeni della natura con le semplici leggi della meccanica (Abbagnano, 1998). E con il passare del tempo, anche i biologi e i medici finiscono per adottare ingranaggi simili a orologi come modelli per descrivere i processi della vita (Damasio, 1995). Dopo la nascita della scienza occidentale (1600) si assiste, quindi, al tentativo di impostare l'attività medica sulla base di sistemi organicamente coerenti con teorie fisiche, chimiche o biologiche. Da questo momento la pratica della medicina si collega con le conoscenze scientifiche e con gli sviluppi tecnologici: i paradigmi cambiano in conseguenza di ciò. Dovendo necessariamente semplificare e schematizzare questi mutamenti culturali e metodologici, si può constatare come all'inizio è la meccanica a prevalere, e di conseguenza il paradigma dominante in medicina è la descrizione anatomica della "macchina-uomo", le descrizioni e le classificazioni delle forme delle ossa, dei muscoli e apparati tendinei, sulla circolazione del sangue, ecc... Gli anatomici, al tavolo autoptico, scoprono le modificazioni patologiche visibili della malattia che viene con esse identificata. La nozione di uomo-macchina e lo "scisma" cartesiano (anima/corpo) si consolidano e divengono il paradigma dominante. A tal proposito, può essere interessante riflettere sull’ordine “gerarchico” esistente tra le diverse discipline mediche, e in particolare tra clinica e anatomia patologica, nel percorso per giungere alla verità diagnostica (Giannetta e Federspil, 2008). Per lungo tempo, e fino a pochi decenni orsono, la valutazione dell’anatomopatologo era ritenuta conclusiva: una sorta di giudizio finale e inappellabile sull’accuratezza della diagnosi clinica e del conseguente comportamento terapeutico. La credenza della maggiore prossimità dell’anatomia patologica alla verità clinica può essere ricondotta alla visione meccanicistica del corpo umano, come parte di un universo scritto in lingua matematica e assimilabile al funzionamento di una macchina. Non a caso, i medici di scuola galileiana applicano alla medicina la iatromeccanica e la iatrofisica; William Harvey, sviluppando le teorie di Cartesio, studia «il moto del cuore e del sangue»; e Giorgio Baglivi, nella seconda metà del 1600, parla di «economia fisica dell’uomo», asserendo che il cuore è una molla, lo stomaco una storta, le mascelle tenaglie, le vene e le arterie tubi idraulici, i visceri filtri e setacci, i polmoni mantici (Cosmacini, 2008). Se, dunque, l’uomo è una macchina, solo l’anatomopatologo che ha accesso alle intime alterazioni morfologiche può rintracciare il malfunzionamento delle sue parti con ben maggiore precisione del clinico, che invece svolge un lavoro induttivo o abduttivo, interpretando i dati disponibili all’esterno. Il paradigma meccanicistico rimane prevalente nella teoria e nella pratica della medicina occidentale fino ai giorni nostri anche se viene riadattato, con le opportune varianti, passando dal livello macroscopico-anatomico a quello microscopico, fino ad arrivare al livello molecolare. Con lo sviluppo della chimica, la cellula viene analizzata nelle sue componenti molecolari e chimiche. Nasce la bio-chimica e quindi la farmacologia, che studia gli effetti di sostanze chimiche definite sul sistema vivente. Si scoprono gli antibiotici, gli ormoni, i metodi di antisepsi (che consentono enormi avanzamenti nella chirurgia), gli analgesici, gli antiinfiammatori, i vasodilatatori, ecc... Siamo nella prima parte del nostro secolo. Qualcosa, però, ancora sfugge alla comprensione del modo di funzionamento dei sistemi biologici, è come se si conoscessero molti "effetti", senza conoscerne a fondo i meccanismi. Un altro grande salto concettuale viene fatto quindi con l'avvento della biologia molecolare. Il paradigma molecolare si impone a partire dagli anni sessanta, perché la scoperta della struttura del DNA rappresenta la possibilità di de-codificare il nucleo fondamentale dell'informazione biologica. Non si è più di fronte solo alla possibilità di conoscere i costituenti della materia vivente (chimica e biochimica), ma si è imparato il linguaggio con cui è scritto il "programma" degli esseri viventi, programma di cui esiste duplice copia in ogni singola cellula somatica. Se di una casa si conoscono i materiali, non si è ancora in grado di ricostruirla e, spesso, neppure di ripararla adeguatamente, ma se si conoscono sia i materiali che il progetto, si dispone di ogni 6 Introduzione elemento per fare, rifare, modificare la casa stessa. L'analogia con l'ingegneria è talmente calzante che si inizia a parlare proprio di "ingegneria genetica" e di "biotecnologia" (spesso anche con esagerazioni e inesattezze quando si identifica la biotecnologia con l'ingegneria genetica, perché la biotecnologia in realtà è sempre esistita in campo agricolo e alimentare). Lo straordinario aumento di possibilità di analisi che si è avuto a seguito dell'introduzione delle tecniche di biologia molecolare, soprattutto nello studio delle proteine e degli acidi nucleici, ha consentito un enorme ampliamento delle conoscenze sulle alterazioni molecolari che caratterizzano moltissime malattie, sia ereditarie che acquisite. Le conoscenze sulle basi molecolari di molte malattie vengono oggi ad avere un impatto sempre crescente sulla medicina anche per le loro ricadute diagnostiche (vedi, ad esempio, la diagnosi prenatale basata sui polimorfismi, o la reazione a catena della polimerasi, PCR, applicata in campi che vanno dall'AIDS alle leucemie) e terapeutiche (vedi trapianto di geni in malattie della serie emopoietica, prospettive di terapia genica nella fibrosi cistica). L'approccio molecolare ha avuto, e avrà ancora per molti anni, il compito di descrivere in modo più preciso possibile le basi di una grande varietà di situazioni patologiche possibili (in teoria, per ciascuno delle migliaia di geni finora identificati, sono possibili miglioaia di diverse mutazioni patologiche). Si tratta di fare, in altri termini, la "anatomia patologica" delle molecole, un compito vari ordini di grandezza più vasto di quello già svolto dall'anatomia patologica a livello di organi o cellule. L'aumento delle conoscenze in senso estensivo introdotto dall'approccio molecolare ha fatto crescere ulteriormente anche la consapevolezza della estrema complessità dei sistemi viventi. Anche il DNA, ritenuto inizialmente l'ultimo approdo della ricerca in biologia (il "deposito" dell'informazione, la "molecola della vita"), si è mostrato molto più complesso e mutevole del previsto. A ciò si aggiunga l'accresciuta consapevolezza dell'esistenza di numerose differenze biologiche tra gli individui della stessa specie, che rendono difficile, a volte impossibile, stabilire i valori di normalità e prevedere l'esito di interventi regolatori esterni. In altre parole, con l'aumentare delle conoscenze sulle sub-componenti del sistema vivente, aumenta la difficoltà di descrivere il comportamento unitario del sistema stesso. La parola "complessità" compare sempre più frequentemente nei lavori scientifici e nei libri di testo. I medici, così come i professionisti dell’assistenza e della riabilitazione, sempre di più si rendono conto che le nozioni di biologia molecolare, di biochimica, di fisiopatologia, studiate a fondo nei primi anni del corso di studi, sono difficilmente applicabili al letto del paziente. La ragione fondamentale di ciò sta nel fatto che il medico si trova sempre ad applicare le nozioni biologiche generali a un caso particolare: L'elemento veramente caratteristico, che fa della Clinica una scienza tutta speciale, è costituito dal fatto che essa, in primis, deve accertare in quale situazione biologica si trovi quel fenomeno unico, irripetibile sulla scena del mondo, che è il singolo malato (Federspil e Scandellari, 1991). Anche da un punto di vista epidemiologico, si può facilmente constatare che, dopo i grandi progressi che hanno inciso drasticamente sullo stato di salute dell'uomo e sulla durata della vita media (vaccinazioni, antisepsi, antibiotici, terapie sostitutive, chirurgia, ecc...), la medicina si trova di fronte sfide molto più complesse. Come già riconosceva Alexis Carrel, Nobel per la Medicina nel 1912, uno dei primi scienziati che avvertì acutamente questi problemi: è giocoforza ammettere che i progressi della medicina sono ben lungi dall'aver soppresso la malattia. Anziché morir rapidamente di infezione, moriamo più lentamente, più dolorosamente, di malattie degenerative: affezioni cardiache, cancri, diabete, lesioni del rene, del cervello, di qualsiasi organo. La medicina non ha ridotto la sofferenza umana tanto largamente quanto noi lo crediamo. La sofferenza nasce non solo dai batteri e dai virus, ma anche da agenti più sottili (Carrel, 1945). Tutto ciò avviene nonostante le spese per il sistema sanitario nei paesi occidentali siano notoriamente enormi e in continua ascesa. Nella seconda metà del Novecento, la Modernità entra in crisi sotto la spinta delle nuove teorie scientifiche che, nel rimpiazzare l’impalcatura del modello newtoniano, mettono in luce il carattere di irrimediabile provvisorietà e incompiutezza dell’impresa scientifica; e soprattutto sotto il peso di una sfiducia che investe la scienza e i suoi metodi rispetto alla possibilità di Introduzione offrire una prospettiva di senso e di giustificazione ai fatti tragici della storia (Husserl, 2002). Cominciano ad affiorare tendenze epistemologiche destinate a cambiare profondamente i rapporti tra scienza e verità; anzi, è il concetto stesso di verità che inizia a diventare scomodo (Bowler e Moris, 2005). Bruno Latour, dopo aver studiato la pratica della ricerca scientifica al Salk Institute con un approccio di tipo antropologico, afferma che «l’attività scientifica non è fondata sulla natura, ma è una dura lotta per costruire la realtà» (Latour e Woolgar, 1979). Le filosofie postmoderne accreditano una diversa idea di verità, come sistema di credenze socialmente determinato e dal carattere inevitabilmente relativo; e si rivolgono alla scienza non più come a un idolo, ma come a un «genere letterario, un genere che deve trovare il suo posto con la letteratura, la critica, la politica e la storia nella conversazione del genere umano» (Rorty, 1999). Nel suo lavoro, comparso l’8 aprile del 1977 su Science, Engel analizza i pilastri del paradigma biomedico dominante: riduzione di fenomeni complessi a determinanti semplici (riduzionismo), separazione dei fenomeni biologici da quelli psico-sociali (dualismo mente corpo), interpretazione dei fenomeni vitali in termini fisico-chimici (fisicalismo). George Engel, propone il modello biopsicosociale che fornisce una matrice (blueprint) per la ricerca, uno schema (framework) per l’insegnamento, un orientamento (design) per l’azione nel mondo reale dell’assistenza sanitaria (Engel, 1977, p. 135). Con la perdita di tenuta del modello meccanicistico tramonta anche la superiorità indiscussa dell’anatomia patologica: il patologo può andare incontro a errori, necessita di integrare gli aspetti morfologici con le informazioni cliniche, e la sua conclusione diagnostica può divergere da quella formulata dal clinico, soprattutto nei casi di particolare complessità. La verità rimanda piuttosto ad approcci multidisciplinari e si orienta verso l’integrazione della pluralità dei diversi angoli visuali. E anche il concetto di malattia – come anche quelli di causa e di prognosi – si emancipa da una definizione semplice e non equivoca che rimanda a un insieme di elementi totalmente omogenei rispetto alle proprietà costituenti. Le humanities suggeriscono come la medicina dovrebbe essere più attenta a riflettere non solo sulla verità scientifica, ma anche sulla verità delle emozioni e dei sentimenti, così importanti nel rapporto medico-paziente. Questo tema conduce verso l’orizzonte pre-moderno dei classici dell’antichità. Fino a riflettere sulla parresia, espressione con la quale gli epicurei e gli stoici intendevano l’etica della parola, il parlar franco, il dovere e la libertà di dire, cui Michel Foucault dedica alcune lezioni al corso tenuto al Collège de France nel 1981-82 su “la cura del sé”. A un tempo qualità morale e tecnica, la parresia fa riferimento a qualcuno che parla, che parla all’altro, solo che gli parla in modo tale che [….] questi potrà dar vita a un rapporto con se stesso che sarà un rapporto autonomo, indipendente, completo e soddisfacente (Foucault, 2003). Qui Foucault allude ai “discorsi veri”, a quell’equipaggiamento morale che ciascuno di noi dovrebbe raccogliere per sviluppare il proprio sé, fortificarlo, convertirsi a sé, per poterne disporre nei momenti difficili di sofferenza e di malattia. Foucault spiega che, secondo il filosofo romano Filodemo, la parresia fa pensare in tutto e per tutto all’arte o alla pratica del medico: essa rappresenta una forma di soccorso, di terapia, che consente di curare nel modo dovuto. L'opinione pubblica e gli stessi "addetti ai lavori" si interrogano sempre più frequentemente sul senso e la liceità della utilizzazione di tecnologie avanzate in momenti molto delicati quali la generazione e la morte. La questione del "fine", cioè la questione del nesso tra l'azione particolare e le sue ultime conseguenze sull'individuo e sulla specie, si pone prepotentemente allorché ci si rende conto delle potenzialità, insite nelle moderne tecnologie, di andare a modificare la "natura essenziale" dell'essere umano. E' per questo che si sta prendendo coscienza dei rischi insiti nel portare alle estreme conseguenze l'applicazione del metodo scientifico cartesiano in medicina, cioè di escludere totalmente le questioni etiche dalla medicina scientifica. 8 Introduzione Il problema, a questo proposito, riguarda le modalità e gli strumenti per attuare tale collegamento tra il livello scientifico e il livello dei giudizi di valore. E' necessario un lavoro di ricostruzione dei "nessi" tra le conoscenze scientifiche, che si occupano dei particolari biologici, strutturali e funzionali dell'organismo, e le acquisizioni filosofiche, ottenute mediante la riflessione sulla natura dell'uomo e sui suoi valori peculiari. A nostro giudizio, la scienza potrebbe contribuire a tale sviluppo con le proprie specifiche metodologie, basate sul metodo sperimentale, approfondendo la conoscenza delle leggi della vita, delle caratteristiche proprie dell'essere umano considerato nella sua complessità, unitarietà e individualità e nei suoi rapporti con l'ambiente in cui vive e che continuamente modifica. E' interessante, a questo proposito, la definizione di uomo data da Carrel: Un tutto indivisibile, che si manifesta con delle attività fisico-chimiche, fisiologiche e psicologiche" (Carrel, 1935). Si tratta, come si vede, di un concetto operativo, elaborato da uno scienziato che, forse per primo nell'era moderna, si è posto l'obiettivo di una sintesi tra scienze umane e scienze biomediche. Sempre Carrel scriveva: L'avvenire della medicina è subordinato al concetto di uomo. La sua grandezza dipende dalla ricchezza di questo concetto. Anziché limitare l'uomo a certi suoi aspetti, deve abbracciarlo tutto quanto, cogliendo il corpo e lo spirito nell'unità della loro realtà. Supererà le astrazioni che l'anatomia, la fisiologia, la pedagogia, la sociologia considerano rispettivamente come equivalenti all'individuo. In effetti, l'uomo è solo quello che l'osservazione ci rivela di lui. Ci appare come un corpo composto di tessuti, di organi e di umori. Questo corpo manifesta certe attività che noi distinguiamo arbitrariamente in fisiologiche e mentali. (...) L'uomo è al tempo stesso complessità e semplicità, unità e molteplicità. Ogni individuo è una storia diversa da tutte le altre. E' un aspetto unico nell'universo. Benché non interamente incluso nel continuum fisico e tale da sfuggire, grazie al proprio spirito, fuori dallo spazio e dal tempo, è inseparabile dall'ambiente fisico e chimico e psicologico. E, in ultima analisi, dalle istituzioni economiche e sociali. (...) Fin qui, ci siamo studiati solo di procurarci concetti frammentari. La nostra analisi ha cominciato prima di tutto con lo spezzare la continuità dell'uomo e dell'ambiente cosmico e sociale. Poi ha separato l'anima dal corpo. Il corpo è stato diviso in organi, cellule e liquidi. E in questo processo di dissezione, lo spirito è svanito. Così sono molte le scienze che hanno ognuna per tema un aspetto isolato dell'uomo. Noi le chiamiamo sociologia, storia, pedagogia, fisiologia, ecc. Ma l'uomo è molto di più che la somma di questi dati analitici. Conviene quindi considerarlo nelle sue parti e nel suo insieme, in quanto nell'ambiente cosmico economico e psicologico reagisce come unità, e non come molteplicità (Carrel, 1945). La medicina può documentare che "l'uomo è molto più che la somma dei dati analitici", aprendosi allo studio della complessità. Si tratta di un'esigenza sempre più avvertita da parte degli "addetti ai lavori", coscienti della necessità di far rifluire le grandi potenzialità insite nei moderni mezzi tecnologici di indagine e di terapia in una sintesi che sia a misura del singolo paziente. Cresce la consapevolezza dell'importanza della globalità, dell'individualità, dei fenomeni di interrelazione sistemica, dell'ecologia. Non esiste una definizione univoca di complessità, anche se, nella vita quotidiana, si usa spesso questo termine: problema complesso, figura complessa, meccanismo complesso, ecc... Esistono definizioni diverse a seconda del contesto (Arecchi e Arecchi, 1990). Una cosa però è certa, che il termine "complessità" è utile per descrivere e capire i sistemi altamente organizzati (Cramer, 1993). Da un punto di vista puramente matematico, la complessità viene definita come il logaritmo del numero dei possibili stati di un sistema. Secondo la teoria dell'informazione, la complessità viene definita come la dimensione del programma di calcolo (misurata in bits) necessario per descrivere una "struttura", come ad esempio una sequenza di numeri o di lettere (Arecchi e Arecchi, 1990, Cramer, 1993). Naturalmente, queste definizioni di complessità dipendono da quali si considerano i possibili stati utili per il calcolo: la complessità di una proteina potrebbe essere calcolata sulla base delle combinazioni possibili degli aminoacidi che la compongono, arrivando quindi a un enorme numero di possibili combinazioni. D'altra parte, si potrebbe considerare la complessità di una Introduzione proteina solo in base alla presenza di aminoacidi idrofilici o idrofobici (operazione utile per vedere la possibile integrazione nelle membrane fosfolipidiche), e questo semplificherebbe il calcolo, riducendo la complessità della proteina e le differenze tra diverse proteine. Si potrebbe poi riferirsi solo ai suoi possibili cambiamenti conformazionali, che di solito sono limitati a uno o pochi, in quanto la proteina tende sempre a disporsi nella forma in cui l'energia libera è minore. Ad esempio, un enzima che può assumere due forme, attivo e non attivo (on/off) a seconda che leghi o no una molecola di AMP ciclico, può essere considerato, da questo punto di vista, meno complesso dell'emoglobina, che ha quattro forme, a seconda del numero di molecole di ossigeno che lega. Nel passaggio dai modelli chimico-fisici a quelli biologici, si assiste a un enorme aumento di complessità, perché i sistemi viventi sono composti di moltissime parti diverse tra loro in relazione. Da questo punto di vista, si tratta di un aumento quantitativo di complessità. E' stato sostenuto che la complessità degli esseri viventi è tale che il programma necessario per descriverli è di una dimensione simile al sistema stesso. Si parla, in questo caso, di "complessità fondamentale", perché essa non può essere in alcun modo semplificata. Quanto più un sistema è complesso, tanto più ha reso complessa la gestione delle informazioni, che può essere effettuata da molti elementi disposti in sequenze e in reti. Tali reti (networks) connettono diversi elementi e gestiscono l'informazione com meccanismi di amplificazione o di feed-back multipli e incrociati. Esempi di tali reti sono quelle neurali, quelle del sistema immunitario, quelle delle citochine, ecc... L'informazione, nelle reti biologiche, è solitamente "ridondante", cioè lo stesso segnale può agire su molteplici bersagli ed essere prodotto da molteplici elementi del sistema. Tra l'altro, bisogna notare che l'informazione contenuta in un individuo umano è miliardi di volte superiore a quella contenuta nel DNA. Il cervello umano rappresenta l'oggetto di massima complessità conosciuto in tutto l'universo. La morfologia del cervello rivela che i neuroni del cervello (10 miliardi) sono connessi da un milione di miliardi di connessioni sinaptiche. Tale numero è enormemente più grande di qualsiasi possibile informazione genetica, indicando che la struttura del cervello non è ultimamente determinata geneticamente, ma piuttosto dall'interazione tra le potenzialità genetiche e le sollecitazioni ambientali. Le ramificazioni dendritiche che collegano vari neuroni si sovrappongono notevolmente (fino anche al 70%), così che non è possibile disegnare dei circuiti unici e precisamente definiti. Esaminando la formazione del cervello, si vede che un preciso modo di connessione tra un neurone e l'altro, pre-specificato dall'inizio, è da escludersi. I neuroni, quando emettono i prolungamenti assonici non sanno dove inviarli, con quale altro neurone connettersi. In ogni individuo, persino in gemelli identici, i neuroni si ramificano in diversi modi. Non è pensabile che le connessioni siano specificate unicamente a livello molecolare (molecole di adesione), perché non esistono marcatori di membrana così specifici da dirigere una architettura così complessa (notare che ciò è sostenuto dal Nobel G. M. Edelman, scopritore delle molecole di adesione neurali e fondatore della topobiologia (Edelman, 1993). Studiando il funzionamento di neuroni di aree cerebrali deputate a specifiche funzioni, si osserva che ogni individuo ha mappe diverse e che anche nello stesso individuo le mappe variano a seconda dell'esperienza, allargandosi, restringendosi e anche spostandosi lateralmente. Nella stessa area, molti neuroni rimangono silenti anche quando la funzione è attiva, ed è impossibile predire quali neuroni saranno silenti e quali scaricheranno applicando un determinato stimolo. Le cellule della corteccia cerebrale sono organizzate in gruppi funzionalmente accoppiati: quando arriva uno stimolo alla corteccia, ad esempio uno stimolo luminoso proveniente dalla retina, molti neuroni sono attivati e scaricano impulsi, ma non in modo casuale, bensì in modo coordinato, con oscillazioni alla frequenza di circa 40 Hz. D'altra parte, la regolarità non è una costante: l'elettroencefalogramma rivela che nelle oscillazioni cerebrali è presente, come componente normale, una notevole caoticità (Freeman, 1991). In sintesi, nel cervello sono rappresentate in modo emblematico tutte le caratteristiche della 10 Introduzione complessità: enorme quantità di informazioni, reti, comportamenti collettivi, fondamentale importanza della forma, plasticità evolutiva, caos. Alcuni studiosi si sono spinti ad affermare che la coesistenza di ordine e caos nel cervello è proprio ciò che garantisce la possibilità di generare nuove idee e, persino, la possibilità del libero arbitrio in un mondo retto da leggi deterministiche (Crutchfield et al., 1991). Oggi quindi assistiamo da una parte allo sviluppo progressivo, che ancora non mostra segni di "saturazione", della biologia molecolare, dall'altra all'aumento di coloro che si collocano in un nuovo paradigma, che fa riferimento alla scienza della complessità. In estrema sintesi, si potrebbe parlare di un passaggio da un paradigma basato sul riduzionismo meccanicisticomolecolare a un paradigma basato sulla complessità e sulla bioetica (intesa in senso molto ampio). Il paradigma riduzionista dominante ha raggiunto il suo acme nell’ultimo decennio del Novecento con il Progetto Genoma, nella coerente illusione di trovare nei geni i determinanti semplici e ultimi della varietà delle patologie umane. Come sappiamo, la promessa non è stata mantenuta. Sebbene i segni dell'emergere dei nuovi approcci concettuali e sperimentali, nel campo della biologia, della medicina dell’infermieristica e di altre scienze sanitarie e sociosanitarie, sono ancora piuttosto sporadici nella pratica professionale rispetto al paradigma dominante, i tempi per una inversione di tendenza sembrano maturi. Multidisciplinarietà, integrazione, contesto: da qualche anno questi termini sono divenuti di uso corrente anche nell’ambito delle discipline biomediche e in particolare in sanità pubblica. Il riferimento comune che spiega questo cambiamento lessicale può essere rintracciato nel concetto di complessità che sembra riassumere in sé la portata dei cambiamenti in corso nella cultura e nella società: lo spirito del tempo che esprime l’irriducibilità della realtà al determinismo e al riduzionismo dell’approccio scientifico tradizionale. A tal punto che l’espressione ‘complessità’ è divenuta un modo di dire assai diffuso sia nel linguaggio comune che nel gergo tecnico delle diverse discipline. In letteratura biomedica sono apparse all’inizio di questo secolo numerose pubblicazioni che trattano di complessità nell’assistenza sanitaria (Plsek e Greenhalgh , 2001; Sweeney e Griffiths, 2002), in medicina clinica (Wilson e Holt 2001), e in sanità pubblica e epidemiologia (Materia e Baglio, 2005). Spesso il termine complessità viene definito in antitesi al concetto di semplicità, confondendo così il concetto di complessità con quello di complicazione. E' interessante, per comprendere la differenza di significato tra il termine complesso e il termine complicato, risalire all'aspetto etimologico delle parole: mentre complicato deriva dal latino cum plicum, che significa “con pieghe”, complesso deriva dal latino cum plexum, che significa “con nodi”, intrecciato. L'etimologia latina plicum richiama la piega del foglio, che deve essere "spiegato" per poter essere letto e compreso, mentre il plexum è il nodo, l'intreccio, come quello di un tessuto o di un tappeto, che non si può sbrogliare senza perdere la sua stessa natura, la visione d’insieme che esso consente. L'approccio "complicato" è di tipo analitico: il fenomeno-problema si suddivide in parti, che vengono studiate, analizzate e ricomposte. L'approccio "complesso", invece, è di tipo relazionale, integrato ed emergenziale con lo scopo di fornire una visione del fenomenoproblema nella sua unitarietà e La complessità è anche un movimento epistemologico, di cui il sociologo Edgar Morin è principale esponente: Il pensiero complesso è consapevole in partenza dell’impossibilità della conoscenza completa: uno degli assiomi della complessità è l’impossibilità, anche teorica, dell’onniscienza. Riconoscimento di un principio di incompletezza e di incertezza. Il pensiero complesso è animato da una tensione permanente tra l’aspirazione a un sapere non parcellizzato, non settoriale, non riduttivo, e il riconoscimento dell’incompiutezza e della incompletezza di ogni conoscenza. Questa tensione ha animato tutta la mia vita…Per tutta la vita…ho sempre aspirato ad un pensiero multidimensionale. (…) Ho sempre sentito che alcune verità profonde, antagoniste tra loro, erano per me complementari, senza smettere di essere antagoniste (Morin, 1993, p. 3). interezza. Introduzione La scienza della complessità pone una condizione iniziale: l’interrelazione dinamica tra l'osservatore e l'osservato. Il substrato di cui si alimenta la scienza della complessità è quello della vita, ed è proprio dalla scienze della vita che la complessità è nata e si è evoluta come scienza unitaria. Poiché queste scienze poggiano le loro fondamenta sui presupposti della vita stessa, la scienza della complessità si alimenta dei principi che determinano la dinamica della vita. La vita è, infatti, dinamica, è generata dalle interrelazioni, è soggetta alle contingenze dei mutamenti ed è dipendente dalle trasformazioni e dall’imprevedibilità degli eventi. La scienza della complessità è una “scienza delle scienze” in cui confluiscono, integrandosi, i presupposti e le proprietà che caratterizzano in modo ricorrente ciascuna di esse; coniuga le scienze naturali con le scienze umane, lo scientifico con l'umanistico, l'osservatore con l'osservato, scardinando in tal modo tutti i presupposti posti alla base dell'edificio meccanicista. È altresì la scienza transdisciplinare dedita allo studio dei sistemi adattativi complessi e dei cosiddetti “fenomeni collettivi emergenti” che si creano per auto organizzazione dai margini del caos: frontiera della ricerca anche per i fisici, alle prese con il comportamento delle particelle elementari. La scienza della complessità consente di comprendere come funziona l’insieme, svolgendo un'analisi sia del tutto che delle relazioni tra le parti che compongono il tutto, in un sistema dinamico di relazioni. Complexus significa ciò che è tessuto insieme; in effetti, si ha complessità quando sono inseparabili i differenti elementi che costituiscono un tutto e quando vi è tessuto interdipendente, interattivo e inter-retroattivo tra l’oggetto di conoscenza e il suo contesto, le parti e il tutto, il tutto e le parti, le parti tra di loro. La complessità è, perciò, il legame tra l’unità e la molteplicità. Si comprende immediatamente la grande differenza che caratterizza il paradigma della complessità rispetto al paradigma della riduzione. Questo non vuol dire che i due paradigmi siano in antitesi l’uno all’altro, come uno sguardo superficiale potrebbe far ritenere. Si può invece affermare che l’uno integra l’altro consentendo di allargare il campo di osservazione dalle singole parti, tra loro separate, alle relazioni che le interconnettono, fino all’analisi degli effetti che tali relazioni determinano sull’intero sistema. Le dimensioni della complessità – molteplicità, integrazione, contesto, incertezza – si accreditano come coordinate di valore e di senso all’interno delle quali si va strutturando la condizione postmoderna di cui interpretano i costrutti positivi. Di fronte a quella che Feyerabend (1999) definiva l’”abbondanza” del reale, la sua molteplicità, variabilità e imprevedibilità, sembra oggi prevalere una tendenza all’eclettismo metodologico, alla pluralità dei punti di vista e alla tolleranza per l’incertezza. Questa trasformazione coincide con quello che gli storici delle idee e gli epistemologi indicano come un cambio di paradigma della conoscenza: la fine della modernità. La modernità ha rappresentato l’impalcatura che ha sostenuto la filosofia della scienza e impregnato la cultura per più di tre secoli, da Cartesio, Newton e Kant fino ai nostri giorni. Il primato della scienza e del pensiero logico-matematico, la ricerca di un metodo assoluto e maiuscolare in grado di separare in modo definitivo il sapere scientifico dalle altre forme di pseudo-conoscenza, ne hanno rappresentato le caratteristiche distintive. Nell’era moderna, l’uomo e la sua ragione sono il centro del mondo. L’emblema della modernità e del potere della scienza di asservire la natura alle sue leggi assolute è il pendolo di Foucault che si può oggi ammirare al Museo delle Arti e dei Mestieri di Parigi: il punto fermo dell’universo, il luogo di osservazione assoluto ricercato dall’uomo moderno. Come scrive Prigogine (1979): Ogni grande era della scienza ha avuto un modello della natura. Per la scienza classica fu l’orologio; per la scienza del diciannovesimo secolo…fu un meccanismo in via di esaurimento. Che simbolo potrebbe andare bene per noi? Forse l’immagine che usava Platone: la natura come un’opera d’arte. Nell’epoca della complessità, in assenza di un principio cardinale dominante o di un paradigma al quale rifarsi, non rimane che rivolgersi al gioco, al dialogo, alla riflessione critica. In breve all’ironia e all’autoironia che si propongono come l’unico possibile atteggiamento intellettuale e conoscitivo. 12 Introduzione I concetti di complessità, integrazione, contesto e incertezza appaiono alla radice di molti cambiamenti che sono in corso nel settore sanitario (Materia e Baglio, 2008). La contrapposizione tra le strategie di politica sanitaria dell’Organizzazione Mondiale della Sanità (OMS) e della Banca Mondiale che si sono contese la leadership nell’arena della sanità internazionale può essere interpretata come uno scontro tra diverse visioni epistemologiche e non solo politico. Di recente l’OMS ha riproposto l’approccio della Primary Health Care per lo sviluppo sanitario, concepito negli anni ’70 con la Conferenza di Alma-Ata sul coinvolgimento delle comunità, l’equità, l’intersettorialità e l’utilizzo di tecnologie appropriate, principi che rimandano alla complessità epistemologica e sociale (Walt, 2004). Nel management sanitario, una visione complessa si esplicita, ad esempio, nell’organizzazione dipartimentale dei servizi sanitari, nelle nuove concezioni associative della medicina di base (UTAP – Unità Territoriali di Assistenza Primaria), negli approcci integrati dei servizi ambulatoriali (day service o pacchetti ambulatoriali complessi), che valorizzano l’integrazione, la multidisciplinarietà e la continuità delle cure. Se la molteplicità si esprime nell’approccio transdisciplinare e multiprofessionale dei processi di cura, nei nuovi modelli organizzativi delle cure primarie, nella valutazione multidimensionale dei pazienti fragili, nell’eclettismo metodologico che si fa strada tra le discipline biomediche, l’integrazione rimanda alla ricomposizione della multidisciplinarietà nell’assistenza e nella ricerca, all’organizzazione degli ospedali per livelli di complessità assistenziale, e alle reti assistenziali, strutture naturali ubique della complessità (Parisi, 2007), basate sulla cooperazione tra nodi fiduciari. Il contesto emerge come dimensione irrinunciabile per comprendere i fenomeni in campo sanitario, dalla ricerca alla clinica, senza perdere di vista le radici sociali della salute e delle malattie. Infine, l’incertezza richiama una cultura del dubbio inteso come controllo permanente delle proprie asserzioni, e come richiamo alla finitezza umana. L’«etica dell’incertezza» (Baglio e Materia, 2006) sollecita la composizione del bilancio tra beneficî e rischi di un intervento sanitario e il coinvolgimento del paziente nelle decisioni cliniche che lo riguardano nel tentativo di riequilibrare l’asimmetria informativa tipica del rapporto medico-paziente. La complessità, ridando valore ai fenomeni collettivi, ai fattori sociali e al contesto, è inoltre attrezzata per recuperare le dimensioni dell’etica e dell’equità, connaturate alla pratica della medicina, eppure oggi minate dalla logica mercantile e del profitto che ha pervaso anche il settore sanitario. Anche nella ricerca sanitaria si possono rintracciare i cambiamenti in atto. In epidemiologia si torna a rivalutare il contesto e il ruolo dei fattori socioeconomici. Dallo studio decontestualizzato delle associazioni tra fattori di rischio individuali ed esiti di salute, l’attenzione si rivolge sempre più verso le dinamiche sociali e i fattori di popolazione. Torna a essere attuale la lezione di Rose (2001) che sottolineava l’importanza dell’approccio di popolazione sia sul versante della comprensione dei nessi causali che della prevenzione. L’importante contributo di Rose è stato di recente ripubblicato sull’International Journal of Epidemiology. In questa stessa prospettiva va interpretata la rivalutazione degli studi ecologici, screditati in passato dal rischio della ‘fallacia ecologica’, l’errore che si produce nel trasferire a livello individuale i risultati di uno studio di popolazione. Si ricorre ai metodi di analisi multilivello che permettono di modellizzare contemporaneamente sia le variabili individuali che quelle aggregate a livello di popolazione. Anche la rinnovata attenzione dei metodi bayesiani in statistica biomedica è riconducibile al cambiamento epistemologico. La logica bayesiana fa riferimento all’incertezza della valutazione, al ruolo del contesto e alla conoscenza di sfondo (probabilità a priori) nella costruzione delle probabilità finali di un’ipotesi. Si propone dunque di superare l’approccio frequentista alla teoria della probabilità giudicato troppo semplicistico (Healy, 2000). Si ricorre sempre più di frequente a un maggiore eclettismo metodologico nella ricerca in sanità Introduzione pubblica e nella valutazione delle tecnologie sanitarie (Health Technology Assessment), per superare il settorialismo degli approcci e restituire una rappresentazione della realtà meno astratta e semplificata. L’esempio più importante è rappresentato dal crescente utilizzo anche in ambito sanitario dei metodi e delle tecniche qualitative – approccio biografico, etnografico, focus groups, tecnica di Delphi, interviste semistrutturate o in profondità – mutuati dalle scienze sociali, e alla loro integrazione con le tecniche quantitative epidemiologiche. Nella clinica, infine, sempre più pressante diviene il richiamo a recuperare la dimensione umana nel rapporto professionista-paziente, piuttosto che ricorrere ad astratti algoritmi informatici di formalizzazione del ragionamento clinico. In questa prospettiva le medical humanities esprimono il tentativo di riposizionare la pratica clinica al servizio delle persone nell’ambito delle scienze umane. L’eclettismo degli approcci si traduce nel ricorso vieppiù crescente alle medicine alternative, nell’ambito della ricerca accademica e soprattutto nella pratica clinica da parte dei pazienti, dei medici, degli infermieri, terapisti della riabilitazione e della stessa industria farmaceutica. Il movimento evidence based (EBM – evidence based medicine, EBN - evidence based nursing, EBP - evidence based practice, EBH – evidence based health), sviluppatosi per porre freno alle pratiche inefficaci attraverso la ricerca di evidenze scientifiche definitive, di prove di efficacia e di regole e comportamenti universalmente validi, affonda le sue radici nella modernità. Un bilancio critico dell’esperienza dell’EB nell’ultimo decennio è attualmente in corso, innescato dalle riflessioni dei filosofi della medicina e dei professionisti alle prese sul campo con i problemi del mondo reale. Gli elementi più significativi di questa revisione sono riassumibili nei punti seguenti: • La valutazione della qualità delle prove di efficacia si sta spostando, con i nuovi sistemi di grading delle evidenze e delle raccomandazioni (GRADE Working Group, 2004), dagli aspetti esclusivamente legati al disegno e alla validità interna dello studio, alla coerenza dei risultati (consistency) e alla loro trasferibilità nel contesto di interesse (directeness). • Una crescente attenzione viene riservata agli RCT ‘pragmatici’, orientati a valutare l’efficacia nella pratica piuttosto che quella teorica, e ai cluster RCT, che tengono conto dei fattori di popolazione degli interventi sanitari (Glasziou et al., 2004). • Gli studi osservazionali entrano a far parte delle revisioni sistematiche Cochrane a partire dalla constatazione che gli RCT non rappresentano più il gold standard per tutti i tipi di quesiti clinici e che la scelta del disegno di studio più idoneo dipende dallo specifico obiettivo della ricerca della letteratura (Campbell et al., 2004). • Le linee guida per la pratica clinica sono sempre più orientate verso l’operatività, gli aspetti clinico organizzativi, la traduzione locale in percorsi clinici integrati e la promozione dell’appropriatezza degli interventi sanitari. Nella formazione ci si ispira esplicitamente al pragmatismo di John Dewey proponendo l’apprendimento basato sull’esperienza e sulla capacità di risolvere i problemi pratici, all’apprendimento collaborativo e alla costruzione attiva da parte del soggetto della conoscenza di matrice costruttivista. In breve, i fenomeni collettivi emergenti sono oggi all’attenzione di molti campi del sapere: dal comportamento collettivo delle particelle subatomiche, al volo degli storni fino agli effetti del capitale sociale sulla salute. La consapevolezza che le proprietà dei sistemi complessi non sono riducibili a quelle dei loro costituenti implica la necessità di considerare la dimensione collettiva, sociale e del contesto come imprescindibile, tanto nella ricerca quanto nella pratica della sanità pubblica. Questa prospettiva epistemologica richiede che l’equità venga riconosciuta come principio guida del sistema sanitario e che l’attenzione alle fasce deboli e marginali della popolazione diventi una priorità operativa. Alla ricerca viene richiesto un sapere pertinente cui è più facile giungere attraverso l’eclettismo metodologico, la tolleranza per i diversi punti di vista, la multidisciplinarietà, che permettono 14 Introduzione una più completa comprensione dei fenomeni orientata alla soluzione di problemi pratici. Viene rilanciata l’etica dell’incertezza incentrata sul valore del dubbio, inteso come controllo permanente delle proprie asserzioni e, soprattutto, come luogo esistenziale di incontro e di convivenza delle diversità. A questo punto sorge, però, spontaneo il quesito se sia possibile un’integrazione di tutti questi aspetti, nei loro vari livelli che vanno dal molecolare al mentale, in un quadro generale teorico e, ciò che più conta, nella pratica clinica. La risposta a tale quesito è certamente negativa se si intende con il termine "integrazione" una teoria onnicomprensiva, una teoria esatta e completa dell'essere vivente, dell'uomo, della malattia. I processi biologici raggiungono un tale alto grado di complessità che non è possibile descriverli in modo completo, preciso e predicibile. La teoria della complessità e del caos deve ancora trovare la sua espressione pratica nel metodo con cui si applicano la medicina e le altre scienze sanitarie. E' possibile però, già da subito, un’integrazione dei vari aspetti qui considerati, se non altro come un "cambiamento di mentalità" di chi opera in campo biomedico e assistenziale: riconoscere l'esistenza dei diversi livelli in cui si può descrivere l'essere umano e l'esistenza delle interrelazioni di tali livelli. In altri termini è proprio dalla consapevolezza della complessità che può prendere le mosse un realistico tentativo di integrazione. Scrive Carrel: L'uomo, in quanto è al tempo stesso molteplice e semplice, richiede uno studio analitico e sintetico, il quale a sua volta deve avvalersi di parecchi metodi convergenti (Carrel, 1945). Introdurre il concetto di complessità e di caos nella biologia, nella medicina e nella sanità in generale significa introdurre, in un certo senso, un nuovo modo di pensare, di tipo non-lineare e sistemico, basato sull'integrazione di più approcci allo stesso sistema-oggetto. Il paradigma della complessità, paradossalmente, implica la eliminazione dei paradigmi dalla pratica della scienza e della medicina e noi dobbiamo rifiutare i sistemi filosofici e scientifici come spezzeremmo le catene di una schiavitù intellettuale. E in quanto disciplina scientifica, la medicina è indipendente da ogni dottrina. Non c'è nessuna giustificazione che essa sia piuttosto vitalista che meccanicista, materialista che spiritualista (Carrel, 1945). Diventa necessario fare un uso costruttivista delle teorie ed essere costruttivisti non significa essere relativisti. Significa essere consapevoli delle operazioni attraverso cui noi strutturiamo la realtà. Significa ammettere che il processo di pratica clinica (medica, infermieristica o di riabilitazione) non è solo un processo di science making (produzione di scienza) o di decision making (assunzione di decisioni) ma è sempre anche un processo di sense making, cioè una dinamica relazionale nella quale la cultura, i pregiudizi, i vissuti di tutti i protagonisti caricano ogni cosa di significati e di valori tutti da interpretare. Ciò non significa, come scriveva Foucault (1967), cancellare le disposizioni fondamentali del sapere e con queste l’uomo stesso «come sull’orlo del mare un volto di sabbia» ma di accettare una prospettiva della conoscenza più inclusiva e pluralista e di raccogliere la sfida per ricomporre i saperi su una nuova base transdisciplinare consapevoli che In una società libera il risultato dipenderà da coloro che hanno il coraggio di provare nuove strade e dalla saggezza di fornire loro il necessario supporto. (Engel, 1977) 15 Il processo di misurazione 1. Il processo di misurazione Dov’è la sapienza che abbiamo smarrita nella conoscenza? Dov’è la conoscenza che abbiamo smarrita nell’informazione? T.S. Eliot Dov’è l’informazione che abbiamo smarrita nei dati? M.U. Porat 1.1 La ricerca scientifica dell’approccio quantitativo La ricerca scientifica è un processo creativo di scoperta che si sviluppa secondo un itinerario prefissato e secondo procedure prestabilite che si sono consolidate all’interno della comunità scientifica. Questo significa che esiste un atto della scoperta che sfugge alle analisi logiche ma allo stesso tempo la ricerca empirica deve essere pubblica, controllabile e ripetibile per poter essere definita scientifica. Ciò implica: • Il controllo (pubblicità e ripetibilità): i concetti e i procedimenti adoperati devono essere standardizzati e i risultati corroborati anche da altri. «La scienza è pubblica e non privata … I concetti e i procedimenti adoperati anche dal più intuitivo dei sociologi, devono essere standardizzati, e i risultati delle loro intuizioni debbono poter essere verificati anche da altri» (Merton 1968, trad. it. 1994, p. 119) «Pubblicità, Controllabilità, Ripetibilità l’unica possibile oggettività della conoscenza sociologica» [Statera 1984, p. 250] • La cumulatività: la scienza è accumulazione sistematica di conoscenza. «Se ho visto più lontano è perché stavo sulle spalle di Giganti» [Isaac Newton] La ricerca empirica dell’approccio quantitativo per poter essere definita scientifica deve soddisfare cinque requisiti (metodo scientifico): • Ripetibilità • Controllabilità • Pubblicizzazione delle procedure di ricerca • Ispezionabilità della base empirica • Impiego della statistica Esiste un percorso “tipico” della ricerca quantitativa che parte dalla teoria, attraversa le fasi si raccolta e analisi dei dati e ritorna alla teoria. Più precisamente, si possono individuare cinque fasi e cinque processi che le legano. La prima fase è quella della teoria, la seconda quella delle ipotesi, legate tra di loro attraverso il processo della deduzione. La teoria è generale mentre l’ipotesi ne rappresenta un’articolazione specifica. La terza fase è quella della raccolta dei dati, a cui si arriva attraverso il processo di operativizzazione, cioè la trasformazione delle ipotesi in affermazioni empiricamente osservabili. L’operativizzazione porta alla definizione del disegno della ricerca, cioè di un piano di lavoro che stabilisce le varie fasi dell’osservazione empirica. La quarta fase è quella dell’analisi dei dati, preceduta dall’organizzazione dei dati rilevati. Di solito questa fase nella ricerca quantitativa consiste nella creazione di una matrice di dati. La quinta fase è quella della rappresentazione dei risultati, a cui si arriva tramite un processo di interpretazione delle analisi statistiche condotte nella fase precedente. Infine il ricercatore ritorna alla teoria iniziale tramite un processo di induzione, che confronta i risultati ottenuti con la teoria precedente. 16 Il processo di misurazione La teoria può essere definita come Insieme di proposizioni organicamente connesse che, si pongono ad un elevato livello di astrazione e generalizzazione rispetto alla realtà empirica, le quali sono derivate da regolarità empiriche e dalle quali possono essere derivate delle previsioni empiriche (Corbetta, 2003, 18). Una teoria deve essere organizzata in ipotesi specifiche. L’ipotesi implica una relazione tra due o più concetti, si colloca a un livello inferiore di astrazione e generalità rispetto alla teoria, e ne permette una traduzione in termini empiricamente controllabili. La teoria trascende da specifiche espressioni empiriche sia dal punto di vista concettuale (astrazione) sia da quello del campo di applicazione (generalizzazioni empiriche). La teoria nasce ed è confermata/falsificata nella constatazione di ricorrenze nella realtà osservata, ciò consente di inferire accadimenti in altri e differenti contesti. È importante la differenza tra generalizzazioni empiriche e teorie: le generalizzazioni empiriche sono proposizioni isolate che riassumono uniformità relazionali osservate tra due o più variabili, la teoria nasce quando queste proposizioni sono raccolte e ricondotte a un sistema concettuale che si colloca ad un livello superiore di astrazione (ad esempio, permette di avanzare ipotesi in campi diversi e remoti da quelli originari). In sintesi: • La teoria è un insieme di proposizioni (relazionali causali/assiomi) connesse tra loro non in modo gerarchico. • La proposizione è astratta e generale, essa è il risultato di osservazioni empiriche e consente di effettuare generalizzazioni. • Una teoria nasce quando si osservano più generalizzazioni empiriche (scoperta). • Una teoria è valida solo se è controllabile empiricamente ovvero se è trasformabile in ipotesi attraverso l’uso dei concetti (rilevati dalla teoria) • Una teoria scientifica è una rete fluttuante costituita da vari nodi, corrispondenti ai termini teorici (concetti). La rete è fluttuante, sollevata dal terreno dei fatti (empiria) ma è saldamente e sempre collegata ad esso attraverso fili (asserti) ovvero le regole di corrispondenza tra i termini teorici e i termini osservativi che però esplicitano solo in modo parziale il significato dei primi e attraverso uncini (controllo empirico). La validità di una teoria dipende, quindi, dalla sua traduzione in ipotesi empiricamente controllabili, perché se una teoria è troppo vaga per dar luogo a ipotesi, non può essere controllata nella realtà. Il criterio della controllabilità empirica o falsificabilità è il criterio stesso della scientificità. Per spiegare un fenomeno (controllo empirico), la proposizione teorica (teoria) deve essere articolata in ipotesi specifiche per controllarne la sua validità. Talvolta la pratica delle ricerca si sviluppa con ordini diversi rispetto a quello canonico: è possibile che le ipotesi vengano sviluppate dopo aver raccolto i dati, e con questi confrontati a posteriori. Oppure si ricorre alla teoria dopo aver analizzato i dati, per spiegare un fatto anomalo o un risultato inaspettato. Infine, una nuova teoria può essere scoperta nel corso della fase empirica. Talora la rilevazione viene prima della delle ipotesi per ragioni di forza maggiore, nel caso dell’analisi secondaria, quando cioè si applica una seconda analisi a dati raccolti da altri ricercatori in tempi precedenti. L’ipotesi è una proposizione che implica una interconnessione fra due o più concetti (un nesso causale) legati tra di loro attraverso il processo della deduzione. L’ipotesi si colloca su un livello inferiore di astrazione e di generalità rispetto alla teoria e permette una traduzione della teoria in termini empiricamente controllabili, in altre parole, la teoria è generale mentre l’ipotesi ne rappresenta un’articolazione specifica. Essa è un’affermazione provvisoria, ancora da provare che deriva dalla teoria e che attende il controllo empirico per poter essere confermata. Rispetto alla teoria, l’ipotesi è: • Meno astratta (più concreta) • Meno generale (più specifica) Il processo di misurazione 17 • Più provvisoria (ipoteticità): deriva dalla teoria ma necessità di corroborazione. L’ipotesi deve essere sottoposta a controllo empirico mediante la raccolta e l’analisi dei dati al fine di stabilire la relazione esistente (o non esistente) tra due fenomeni Il controllo empirico è l’adozione rigorosa del metodo e l’uso attento delle tecniche che corrobora le risposte. Nel suo significato più ampio, il termine concetto si riferisce al contenuto semantico (significato) dei segni linguistici e delle immagini mentali. Proprio per questa sua generalità, il concetto può includere ogni specie di segno o di procedura semantica, astratto, concreto, universale, individuale, ecc. Essendo l’ipotesi una interconnessione tra concetti, emerge il fatto che i concetti sono i “mattoni della teoria”, e attraverso la loro operativizzazione si realizza la traduzione empirica di una teoria. Il concetto è il legame tra la teoria e il mondo empirico osservabile. I concetti possono riferirsi ad astrazioni impossibili da verificare empiricamente (potere, felicità, ecc), oppure a entità concrete (oggetti, persone, ecc). Ma se i concetti formano una teoria, come si può verificarla empiricamente? Bisogna operativizzarli ovverosia passare dai concetti astratti alla loro applicazione come proprietà degli specifici oggetti studiati (chiamati unità di analisi). Una proprietà misurabile di una unità di analisi si chiama variabile. Per esempio, il peso è un concetto, ma il peso di un oggetto è la sua proprietà. Il peso dell’oggetto misurato in chilogrammi con la bilancia è una variabile. Oppure, il livello culturale è un concetto astratto, ma se applicato a un individuo diventa una proprietà, e se è misurabile attraverso la rilevazione del suo titolo di studio è una variabile. La terza fase consiste nella raccolta dei dati (informazioni) attraverso l’utilizzo di specifiche tecniche di raccolta. A tale fase si arriva con il processo di operativizzazione ovvero con la trasformazione delle ipotesi in affermazioni empiricamente osservabili. L’operativizzazione porta alla definizione del disegno della ricerca, cioè di un piano di lavoro che stabilisce le varie fasi dell’osservazione empirica. La raccolta dei dati è preceduta dalla predisposizione degli strumenti e sperimentazione sul campo (pre-test), dall’individuazione delle fonti e dal campionamento. L’analisi dei dati richiede l’organizzazione dei dati rilevati (codifica e la registrazione dei dati) per essere analizzati. L’organizzazione dei dati quantitativi consiste nel trasferire le informazioni in una matrice rettangolare di numeri, la matrice dei dati, detta anche matrice casi per variabili. La matrice ottenuta è il punto di partenza per l’analisi dei dati, cioè delle elaborazioni statistiche condotte. L’ultima fase è la presentazione dei risultati, a cui si arriva tramite un processo di interpretazione delle analisi statistiche condotte nella fase precedente; il ricercatore ritorna alla teoria iniziale tramite un processo di induzione, che confronta i risultati ottenuti con la teoria di partenza per arrivare a una sua conferma o riformulazione. La presentazione dei risultati prevede la generalizzazione limitata a tempo e spazio. La valutazione può avvenire ex ante (relazione tra variabili) o ex post (valutazione dei cambiamenti). In conclusione, la validità di una teoria dipende dalla sua traduzione in ipotesi empiricamente controllabili; l’ipotesi, a sua volta, è una proposizione che implica una interconnessione fra due o più concetti (un nesso causale) legati tra di loro attraverso il processo della deduzione. Per questo motivo, una volta identificata l’ipotesi è necessario procedere a una riduzione della complessità della realtà, definendo, innanzitutto, i concetti che costituiscono l’ipotesi specificandone le proprietà e gli oggetti ai quali tali proprietà afferiscono. Ciò consente di identificare gli “strumenti” empirici utili alla raccolta (casi e variabili) e all’elaborazione dei dati (matrice dati). 18 Il processo di misurazione 1.2 Definizione e classificazione delle variabili La statistica, nella sua veste di scienza descrittiva, utilizza le informazioni derivanti da un’indagine compiuta su una popolazione di soggetti per darne una rappresentazione globale, il più possibile esaustiva e, allo stesso tempo, parsimoniosa. A questo scopo, la statistica si avvale delle informazioni derivanti da certi caratteri (o variabili statistiche) che si manifestano sui soggetti di interesse. Per una migliore comprensione degli strumenti statistici che verranno presentati successivamente, si considerino le seguenti definizioni: ü Unità statistica: è il soggetto elementare dell’indagine statistica per la sua appartenenza a una popolazione di interesse (ad esempio, in un’indagine sul gradimento di un servizio, la popolazione obiettivo sarà costituita da tutti gli utenti e ognuno di essi rappresenterà un’unità statistica). L’unità di analisi rappresenta l’oggetto al quale afferiscono, nella ricerca empirica, le proprietà studiate. Esse devono essere determinate con precisione nel momento in cui si vuole sottoporre a controllo empirico una teoria mediante una specifica ricerca di tipo quantitativo, in quanto sono un elemento importante del disegno della ricerca (il programma di lavoro empirico). Le unità di analisi possono essere concretamente rappresentate dall’individuo (la più comune), dall’aggregato di individui (di solito basate sulla territorialità), dal gruppo-organizzazione-istituzione (quando l’unità di rilevamento è rappresentata dal collettivo stesso), dagli eventi sociali (quando gli eventi stessi sono le unità di analisi) e dalle rappresentazioni simboliche – prodotto culturale (quanto l’unità di analisi consiste da messaggi di comunicazione). L’unità di analisi è singolare e astratta, mentre chiamiamo casi gli esemplari specifici di quella data unità di analisi che vengono studiati, sui quali si rilevano i dati. Essi sono gli oggetti specifici della ricerca empirica. ü Variabile: una variabile è un concetto operativizzato, o meglio la proprietà operativizzata di un oggetto, in quanto il concetto, per poter essere operativizzato, ha dovuto essere applicato a un oggetto diventandone proprietà. Un concetto può essere operativizzato in modi diversi. Le variabili possono variare tra diverse modalità; il caso limite è quello in cui risulta invariante nello specifico sottoinsieme degli oggetti studiati, nel qual caso prende il nome di costante. Le variabili possono variare nel tempo, su uno stesso caso (studio longitudinale o diacronico) oppure fra i casi, nello stesso tempo (studio trasversale o sincronico). Le variabili possono esser classificate secondo la loro manipolabilità, la posizione nella relazione causa/effetto, l’osservabilità, il carattere individuale o collettivo e il trattamento dei loro valori. § La prima distinzione è quella tra variabili manipolabili e non manipolabili. Le variabili manipolabili sono quelle che possono essere modificate dal ricercatore, viceversa quelle non manipolabili non possono essere controllate. La maggior parte delle variabili sociali non sono manipolabili, anche se esistono dei casi in cui il ricercatore può controllarle. § La seconda distinzione è quella tra variabili dipendenti e variabili indipendenti. In una relazione asimmetrica tra due variabili, quando cioè una variabile influenza un’altra, la variabile indipendente è ciò che influenza (la causa), mentre la variabile dipendente è ciò che è influenzato (l’effetto). Nel caso in cui le variabili indipendenti siano più di una abbiamo una relazione multivariata. § La terza distinzione è quella tra variabili latenti e variabili osservate. La distinzione si basa sulla osservabilità, ossia sulla possibilità di rilevazione empirica. Le prime sono variabili non direttamente osservabili in quanto rappresentano concetti molto generali o complessi, mentre le seconde sono facilmente rilevabili. In ogni caso, entrambe possono essere operativizzate, per cui anche nel caso delle variabili latenti c’è una sostanziale differenza con i concetti. Il processo di misurazione § 19 L’ultima distinzione è quella tra variabili individuali e variabili collettive. Le variabili individuali sono specifiche di ogni individuo, mentre quelle collettive sono proprie di un gruppo sociale. Le variabili collettive si suddividono a loro volta in variabili aggregate, dove la proprietà del collettivo deriva dalle proprietà dei singoli componenti del gruppo, e variabili globali, quando le caratteristiche esclusive del gruppo non derivano da proprietà dei membri che lo compongono. Le variabili sono assolutamente fondamentali nella ricerca empirica, anche se a ogni definizione operativa è lasciata all’arbitrio del ricercatore, che deve solo esplicitare e giustificare le sue scelte. Per questo una definizione operativa non è mai perfettamente adeguata ed esiste sempre uno scarto tra variabile e concetto. Un altro pericolo che porta l’operativizzazione è quello della reificazione, cioè di identificare la definizione operativa di un concetto (necessariamente arbitraria e impoverita) con il concetto stesso. Tuttavia, con tutti i suoi limiti, la definizione operativa è necessaria per fondare scientificamente e oggettivamente la ricerca scientifica. La definizione operativa rende infatti la variabile osservabile e/o misurabile. ü Un’altra classificazione molto importante è quella tra che riguarda le operazioni logico-matematiche che possono essere effettuate sulle variabili. A questo proposito abbiamo variabili nominali, ordinali e cardinali. § Variabile statistica qualitativa: “titolo di studio”, “nazionalità”, “colore dei capelli”, “giudizio attribuito a un certo servizio”, sono esempi di variabili qualitative le cui modalità sono rappresentate da sostantivi o aggettivi (ad esempio, “scuola dell’obbligo, diploma, laurea di primo livello” potrebbero essere le modalità della prima variabile, “efficiente, soddisfacente, ottimo” dell’ultima). Una variabile qualitativa è detta nominale quando la proprietà da registrare assume stati discreti non ordinabili (per esempio, le modalità “castano, biondo” per la variabile “colore dei capelli” o 0,A,B,AB per la variabile gruppo sanguigno), cioè finiti e delimitati che non hanno alcun ordine o gerarchia tra di essi. Gli stati di una proprietà così descritta si chiamano categorie, le categorie operativizzate (cioè gli stati della variabile) modalità e i simboli assegnati alle modalità valori. Nel caso in cui ci siano solo due modalità si parla di variabili dicotomiche (ad esempio maschio e femmina per la variabile sesso). § Una variabile qualitativa è detta ordinale, ovvero è possibile ordinare le modalità secondo un ordine crescente o decrescente (per esempio, “insoddisfatto, soddisfatto, molto soddisfatto” per il carattere “grado di soddisfazione di un servizio”). La procedura di operativizzazione che permette di passare dalla proprietà alla variabile è la classificazione. § Le variabili ordinali sono tali quando la proprietà da registrare assume stati discreti ordinabili. In questo caso è possibile stabilire non solo relazioni di eguaglianza e disuguaglianza, ma anche relazioni d’ordine. In questo caso la procedura di operativizzazione è l’ordinamento, che tiene conto dell’ordinabilità degli stati della proprietà (per esempio, “insoddisfatto, soddisfatto, molto soddisfatto” per il carattere “grado di soddisfazione di un servizio”). Quindi l’attribuzione dei valori alle singole modalità dovrà utilizzare un criterio che presevi l’ordine degli stati. Tipicamente si utilizzano i numeri naturali, che comunque non godono delle loro proprietà cardinali (cioè la distanza che corre tra le varie modalità non può essere confrontata con le altre). Le variabili possono essere ordinali perché derivano da proprietà originariamente costituite da stati discreti oppure perché derivano da proprietà continue che sono state registrate su una sequenza ordinale perché non si dispone di una unità di misura. § Variabile statistica quantitativa o cardinale: “età in anni compiuti”, “numero di fratelli”, “peso”, “altezza”, “numero di giorni trascorsi all’estero durante l’anno”, sono esempi di variabili quantitative le cui modalità sono rappresentate da numeri. 20 Il processo di misurazione Le variabili cardinali sono tali perché i numeri che ne identificano le modalità non sono delle semplici etichette, ma hanno un pieno significato numerico (hanno cioè proprietà sia ordinali che cardinali). Tra le modalità delle variabili di questo tipo, oltre a stabilire relazioni di eguaglianza e diversità e d’ordine, si possono effettuare operazioni di somma e sottrazione tra i valori e tutte le altre operazioni statistiche. Si possono ottenere variabili cardinali attraverso due processi: la misurazione (quando la proprietà da misurare è continua e si possiede una unità di misura prestabilita che permetta di confrontare la grandezza da misurare con una grandezza di riferimento) e il conteggio (quando la proprietà da registrare è discreta ed esiste una unità di conto, cioè una unità elementare che è contenuta un certo numero di volte nelle proprietà dell’oggetto). In particolare, la variabile si dice discreta (o è resa discreta) se le modalità numeriche appartengono all’insieme dei numeri naturali (ad esempio, “numero di fratelli” come variabile per sua natura discreta ed espressa con numeri interi del tipo {0, 1, 2, …} oppure “voto ottenuto ad un certo esame” come variabile resa discreta dall’approssimazione ed espressa con modalità appartenenti all’insieme {18, 19, …, 29, 30}), o continua se, invece, le modalità appartengono all’insieme dei numeri reali (si pensi, ad esempio, alla misurazione della variabile “altezza” espressa in metri e effettuata con uno strumento a precisione millimetrica: m.1,789 potrebbe essere una delle infinite manifestazioni della variabile). Per la natura stessa di una variabile statistica continua, in grado di assumere infiniti valori, solitamente si procede alla classificazione delle modalità osservate in classi di valori (ad esempio, tutte le altezze comprese tra m.1,700 e m.1,799 potrebbero confluire nell’intervallo [1,7001,800), ove l’estremo inferiore è compreso nell’intervallo ed è convenzionalmente indicato con una parentesi quadra mentre l’estremo superiore è escluso e convenzionalmente indicato con una parentesi tonda). Nelle scienze sociali molte variabili cardinali derivano operazioni condotte su altre variabili cardinali. § Le variabili quasi-cardinali sono un sottoinsieme delle variabili cardinali. Le proprietà più caratteristiche delle scienze sociali possono essere tutte immaginate come proprietà continue, che però non riescono a passare dalla condizione di proprietà continua a quella di variabile cardinale per la difficoltà di applicare una unità di misura agli atteggiamenti umani. Un tentativo di superare questo limite è dato dalla tecnica delle scale, che cerca di avvicinarsi a misurazioni in senso proprio, cioè a variabili in cui la distanza tra due valori sia nota. Le variabili prodotte da questa tecnica sono dette quasi-cardinali. Nelle scienze sociali esistono concetti che hanno un elevato grado di generalità, e si pongono lontani dall’esperienza. Per poterli definire in modo empiricamente controllabile è necessario darne una definizione operativa (tradurli in termini osservativi) tramite gli indicatori. Gli indicatori sono concetti più semplici, traducibili in termini osservativi, che sono legati ai concetti generali da un rapporto di indicazione, o rappresentanza semantica. Gli indicatori sono quindi dei ancora dei concetti, ma più facilmente operativizzabili. Tuttavia il rapporto tra concetto e indicatore è parziale: da una parte un concetto generale non può essere esaurito da un solo indicatore specifico, dall’altra un indicatore può sovrapporsi solo parzialmente al concetto per il quale è stato scelto, e dipendere per il resto da un altro concetto, anche profondamente diverso. Inoltre la scelta di un indicatore è lasciata unicamente all’arbitrio del ricercatore, il cui unico obbligo è quello di argomentare la sua scelta, non di dimostrarne la correttezza. La rilevazione empirica di un concetto non direttamente osservabile passa attraverso quattro fasi: l’articolazione del concetto in dimensioni (i diversi aspetti e significati del concetto), la scelta degli indicatori, la loro operativizzazione, la formazione degli indici. L’indice è la sintesi globale della pluralità delle variabili che sono state prodotte dai diversi indicatori. Il processo di misurazione 21 1.3 I livelli di scala Misurare significa assegnare dei numeri a oggetti o eventi in modo sistematico. I concetti differiscono abbastanza nettamente per la facilità con cui possono essere misurati. Se la proprietà è concreta e direttamente osservabile, è nota virtualmente a tutti i rispondenti e di solito può essere misurata abbastanza facilmente. Un esempio è il peso, concetto comprensibile e misurato anche nella vita quotidiana. Altri concetti, in particolare gli atteggiamenti, come ad esempio l'autoritarismo, possono essere molto più difficili da misurare, dato che non sono direttamente osservabili. Nel presente lavoro utilizzeremo, per ragioni di completezza espositiva e per dare al lettore una terminologia più ampia possibile i termini corrispondenti ai livelli di misurazione definiti da Ricolfi e Stevens. Stevens ha proposto una classificazione dei livelli di misurazione a quattro livelli di, comunemente chiamati scala nominale, ordinale, ad intervalli e di rapporti. Ricolfi (Cardano, Miceli, 1991, pag. 139) ha proposto un’ulteriore divisione nella scala di rapporti, a seconda che la proprietà sia trasferibile o meno. Nel primo caso si parla di scala di quantità, nel secondo di scala metrica. Il livello di misurazione determina le analisi statistiche applicabili alle variabili, nonché le operazioni ammissibili sulle variabili stesse. È possibile classificare una variabile secondo il suo livello di misurazione rispondendo alle domande del diagramma sotto riportato (Figura 1). Figura 1 -­‐ Elaborazione da Cardano, Miceli, (1991) 22 Il processo di misurazione Ogni livello di misurazione aggiunge un'informazione sua caratteristica a quella dei livelli precedenti. In questo senso le proprietà di misurazione sono cumulative: un livello ha tutte le proprietà dei livelli precedenti più altre sue proprie. Le proprietà dei vari livelli di misurazione sono riassunti di seguito (Figura 2). Scala nominale Scala ordinale Scala di intervalli Scala metrica (Ricolfi) / di rapporti Proprietà Classificazione Ordinamento Distanza Zero non arbitrario Operazioni empiriche di base Determinazio ne uguaglianza /disuguaglianza Determinazione maggiore/ minore Indicatori statistici ammissibili Numero casi Moda Coefficiente di contingenza Mediana Percentili Quartili Moda Mediana Indicatori di tendenza centrale Indicatori di dispersione Determinazio ne dell'uguaglianza/delle differenze Media Scarto tipo Coefficiente di correlazione Media Scala di quantità (Ricolfi) / di rapporti Zero non arbitrario e additività Determinazio ne dell'uguaglianza dei rapporti Determinazion e dell'uguaglianza dei rapporti Coefficiente di variazione Coefficiente di concentrazione Media Indice di Coefficiente di Indice di Leti Scarto tipo squilibrio Sq variazione Figura 2 – Proprietà dei vari livelli di misurazione Qualsiasi operazione di classificazione dà origine a una scala nominale e consiste essenzialmente nell'assegnare dei casi a gruppi o categorie, senza attribuire ad essi alcun genere di informazione quantitativa e nessun criterio di ordine. Fondamentalmente, tutto ciò che viene richiesto a una variabile nominale è che vi siano almeno due categorie (altrimenti non è una variabile), e che le categorie siano distinte, reciprocamente esclusive ed esaustive, ovvero ogni caso deve rientrare in una sola categoria e che ci sia una categoria appropriata per ogni caso che stiamo classificando. Credo religioso, razza e sesso sono esempi di variabili su scala nominale. Il livello di scala ordinale è analoga a quella nominale in quanto consiste di categorie reciprocamente esclusive ed esaustive. Tuttavia, le diverse categorie non stanno tutte su uno stesso piano, ma sono ordinate gerarchicamente a seconda del valore che hanno rispetto alla proprietà considerata (ad esempio la squadra al primo posto nel campionato di calcio e quella al secondo posto), anche se tra le categorie ordinate non ci sono necessariamente distanze uguali (distanze che la scala ordinale non ci consente di valutare). Al livello di scala ordinale possiamo applicare la proprietà dell'ordinamento tra le categorie, ovvero possiamo dire che, rispetto alla caratteristica misurata, una persona che in graduatoria ha una posizione r, ha un valore più elevato rispetto ad una persona in posizione r -1, e che quest'ultima ha un valore più elevato rispetto a una persona in posizione r-2. Inoltre se r > r-1 e r-1 > r-2, se ne deduce che r > r-2 (proprietà transitiva). In questa scala non siamo in grado di quantificare la distanza tra il valore r e il valore r-1, e non siamo in grado di dire se tra r e r-1 da un lato, ed r-1 e r-2 dall'altro vi sia la stessa distanza. Quando siamo in grado di dare questa informazione, siamo in presenza di un livello di misurazione ad intervalli. La scala a intervalli non ha uno zero assoluto e non è possibile dire se un valore sia in relazione di multiplo o di rapporto rispetto ad un altro. Non si può quindi affermare che una persona che ha un valore di ansietà pari a 30, abbia il doppio di ansietà rispetto a chi ha un valore di ansietà pari a 15. 23 Il processo di misurazione Un altro buon esempio di scala ad intervalli sono le scale Celsius e Farenheit per la misurazione della temperatura. Uguali differenze su questa scala rappresentano uguali differenze in temperatura, anche se non si può affermare che una temperatura di 30 gradi sia il doppio di 15 gradi. Nella scala di rapporti lo zero è assoluto (ovvero non arbitrario)e ciò consente la moltiplicazione e la divisione sui diversi valori della variabile. Per riconoscere una scala di rapporti occorre valutare se lo zero costituisce assenza della proprietà in questione. Un esempio è costituito dalla scala Kelvin, dove la temperatura ha una interpretazione diretta in termini del moto delle molecole e il punto 0° K è il punto in cui tale moto cessa del tutto. Le scale di rapporti si dividono in scale metriche, se il fenomeno non è trasferibile (come ad esempio l'altezza) e scale di quantità, se il fenomeno lo è (come ad esempio il denaro). 1.4 La tecnica delle scale. Cenni. L’operativizzazione dei concetti complessi può avvenire anche con la tecnica delle scale (scaling). La tecnica delle scale consiste in un insieme di procedure messe a punto per misurare concetti complessi e non direttamente osservabili. L’unico modo per poterli registrare è quello di usare un insieme coerente ed organico di indicatori, mettendo anche a punto criteri intersoggettivi per controllare l’effettiva sovrapposizione fra indicatori e concetto e la completezza della procedura. Possiamo quindi dire che una scala è un insieme coerente di elementi che sono considerati indicatori di un concetto più generale. La tecnica delle scale è usata soprattutto nella misura degli atteggiamenti, dove l’unità d’analisi è l’individuo, il concetto generale è un atteggiamento (credenze di fondo non rilevabili direttamente) e i concetti specifici sono le opinioni (espressione empiricamente rilevabile di un atteggiamento). Le variabili prodotte dalla tecnica delle scale non possono essere considerate pienamente cardinali, perché scaturiscono da dimensioni sottostanti immaginate come proprietà continue non misurabili, anche se la teoria delle scale tenta di dare una risposta a questo problema. Per questo le variabili della teoria delle scale vengono chiamate quasi-cardinali. 1.5 L’organizzazione dei dati Una volta conclusa l’indagine statistica il ricercatore si trova in possesso di una matrice di dati composta da un numero di righe pari al numero di unità statistiche osservate (d’ora in avanti, indicheremo con il termine n la numerosità della popolazione indagata) e un numero di colonne pari al numero di variabili rilevate, come nella tabella qui di seguito riportata. Variabili rilevate Unità statistiche X Y Z W Voto Altezza Sesso Gradimento 1 2 3 4 … … … n MODALITÀ 24 Il processo di misurazione Nelle celle interne della matrice verranno inserite le modalità con cui ogni singola variabile si è manifestata su ogni unità statistica. Ad esempio, nella cella all’incrocio della prima riga e della prima colonna indicato il voto ottenuto dal primo soggetto (che qui identifica la prima unità statistica), nella cella all’incrocio dell’ennesima riga e della quarta colonna verrà indicato il gradimento espresso dall’ennesimo soggetto, e così via. Ogni colonna della matrice, in definitiva, contiene tutte le modalità con cui una singola variabile si è manifestata nella popolazione (una variabile, tanti soggetti) e ogni riga contiene tutte le modalità che un singolo soggetto ha manifestato per le variabili indagate (un soggetto, tante variabili). Lo schema che segue riassume in forma grafica i concetti finora esposti. n: numerosità della popolazione = numero di unità statistiche indagate Indagine statistica MATRICE DI DATI Variabili rilevate X1 Unità statistiche 1 X2 … Xm Modalità della variabile X1 rilevata sull'unità statistica 1 2 … Modalità della variabile Xm rilevata sull'unità statistica n n Variabile statistica qualitativa Variabile statistica quantitativa Variabile Variabile Variabile Variabile statistica statistica statistica statistica 25 Il processo di misurazione Per la realizzazione degli esempi numerici contenuti nei prossimi paragrafi, verranno utilizzati i seguenti dati fittizi (Tabella 1) ottenuti da una popolazione di n=20 individui che hanno partecipato a un corso di tennis; le variabili rilevate sono ”voto (in trentesimi) ottenuto al termine del corso” (variabile quantitativa discreta), “altezza in cm” (variabile quantitativa continua), “sesso” (variabile qualitativa nominale), “gradimento dell’organizzazione e della qualità dei maestri” (variabile qualitativa ordinale) e “titolo di studio” (variabile qualitativa ordinale”). Variabili rilevate su ogni unità statistica Z Y X W L Voto Altezza Sesso Gradimento Titolo di studio 1 19 178,23 Maschio Basso Licenza scuola media inf. 2 19 170,03 Maschio Medio Diploma 3 22 173,74 Femmina Basso Diploma 4 18 171,26 Maschio Alto Licenza scuola media inf. 5 24 157,12 Femmina Alto Licenza scuola media inf. 6 20 163,76 Femmina Alto Licenza scuola media inf. 7 21 185,41 Maschio Basso Diploma 8 19 175,53 Femmina Basso 9 20 182,97 Femmina Medio 10 21 165,84 Maschio Basso 11 22 158,57 Maschio Alto Diploma 12 25 188,05 Maschio Alto Laurea I livello 13 24 178,88 Femmina Medio Laurea I livello 14 19 169,35 Maschio Medio Diploma 15 22 179,29 Femmina Basso Licenza scuola media inf. 16 24 157,20 Femmina Basso Laurea I livello 17 20 187,42 Femmina Medio Diploma 18 25 156,00 Maschio Basso Laurea I livello 19 23 166,74 Femmina Alto Diploma 20 19 189,99 Femmina Alto Diploma Unità statistiche Diploma Licenza scuola media inf. Licenza scuola media inf. Tabella 1 -­‐ Matrice dei dati 1.6 La statistica descrittiva univariata La statistica descrittiva univariata ha come obiettivo lo studio della distribuzione di ogni variabile, singolarmente considerata, all’interno della popolazione (analisi per colonna) mentre la statistica descrittiva bivariata si occupa dello studio della distribuzione di due variabili congiuntamente considerate. Nell’ambito dell’analisi univariata si intuisce come, nel caso in cui la numerosità della popolazione (ovvero il numero di righe della matrice) sia elevata, diventi estremamente difficile per il ricercatore riuscire ad avere un’idea di come la variabile oggetto di studio si distribuisca all’interno della popolazione. Per questo motivo, risulta inevitabile la ricerca di strumenti per una visualizzazione immediata e compatta di tutte le modalità osservate (distribuzione di frequenza) e l’utilizzo di indici in grado di riassumere in un unico valore le caratteristiche salienti della variabile osservata: le sue manifestazioni “in media” (indici di posizione) e il grado di dispersione con cui esse ricorrono (indici di variabilità). 26 Il processo di misurazione 1.6.1 Distribuzioni di frequenza Data una lista di tutte le modalità di una variabile osservata sugli n individui della popolazione indagata, è possibile ricompattare i dati in una distribuzione di frequenza (Tabella 2). Quest’operazione sposta il punto focale dell’indagine dalle singole unità statistiche alle k modalità rilevate xi (i=1,2,…,k) e al numero di soggetti che le hanno manifestate. Si consideri, ad esempio, la variabile qualitativa “sesso” della Tabella 1: X Sesso Maschio Maschio Femmina Maschio Femmina Femmina Maschio Femmina Femmina Maschio Maschio Maschio Femmina Maschio Femmina Femmina Femmina Maschio Femmina Femmina DISTRIBUZIONE DI FREQUENZA frequenze assolute X Sesso xi ni Femmina 11 Maschio 9 Somma Σ 20 LISTA DI DATI Unità statistiche 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 Tabella 2 – Dalla matrice alla distribuzione di frequenza Si intuisce chiaramente come la distribuzione di frequenza sia in grado di compattare la lista di dati dando un’immagine immediata e di facile lettura della distribuzione del carattere in oggetto. Nel caso in esame, la variabile “sesso” si è manifestata nella popolazione con due modalità x1=femmina e x2=maschio, indicate nella prima colonna della distribuzione di frequenza (k=2); nella seconda colonna vengono indicate le frequenze assolute ni (i=1,2,…,k) ovvero quante unità statistiche hanno manifestato le corrispondenti modalità (nella popolazione in esame si sono rilevati 11 femmine e 9 maschi). Si noti che la somma delle frequenze assolute per tutte le modalità riproduce la numerosità n della popolazione2 ( n1 + n2 k + ... + nk = ∑ ni = n ). Accanto alla colonna delle frequenze assolute è possibile i =1 aggiungere quella delle frequenze relative pi (i=1,2,…,k), ottenute dividendo ogni ni per la 2 La somma di k elementi indicati con lo stesso simbolo e differenziati da un deponente che si accresce ogni volta di una unità, ad esempio x1 + x2 + x3 + x4 + x5 + x6 + x7 , si può scrivere (solo per comodità) utilizzando la convenzione del simbolo di sommatoria Σ . Nell’esempio qui considerato basterà scrivere la somma sinteticamente 7 come ∑ x (che si legge: sommatoria di x per i che va da 1 a 7) i i =1 i 27 Il processo di misurazione numerosità totale n ( pi = ni ; i = 1,2,..., k ). In questo caso, si noti che la somma delle n k frequenze relative per tutte le modalità è pari a 1 ( p1 + p2 + ... + pk = ∑ pi = 1). Inoltre, i =1 moltiplicando le frequenze relative per 100 è possibile ottenere le frequenze relative percentuali pi% (i=1,2,…,k), ( pi % = pi ⋅100; i = 1,2,..., k ), la cui somma per tutte le k modalità è pari a 100 ( p1 % + p2 % + ... + pk % = ∑ pi % = 100 ). i =1 X Sesso xi Femmina Maschio Somma Σ Frequenze assolute ni 11 9 20 Frequenze relative pi 0,55 0,45 1 Frequenze relative percentuali pi% 55 45 100 Tabella 3 – Distribuzione di frequenza della variabile sesso Dalla distribuzione di frequenza costruita per la variabile X “sesso” (Tabella 3) si deduce che il 55% della popolazione indagata è costituita da femmine e il restante 45% da individui di genere maschile. Si osservi che le frequenze relative (e relative percentuali) hanno il pregio di eliminare l’effetto della numerosità n della popolazione; per questo motivo, esse vengono utilizzate per confrontare la distribuzione di uno stesso fenomeno rilevato su due popolazioni distinte e con differenti numerosità. Di seguito vengono riportate le distribuzioni di frequenza per le variabili W – gradimento (Tabella 4) e Z – voto (Tabella 5). W Frequenze assolute Gradimento wi ni Basso 8 Medio 5 Alto 7 Somma Σ 20 Frequenze relative Frequenze relative percentuali pi 0,4 0,25 0,35 1 pi% 40 25 35 100 Tabella 4 – Distribuzione di frequenza della variabile gradimento Z Voto zi 18 19 20 21 22 23 24 25 Somma Σ Frequenze assolute ni 1 5 3 2 3 1 3 2 20 Frequenze relative pi 0,05 0,25 0,15 0,1 0,15 0,05 0,15 0,1 1 Frequenze relative percentuali pi% 5 25 15 10 15 5 15 10 100 Tabella 5 -­‐ Distribuzione di frequenza della variabile voto Si noti come già per la variabile quantitativa discreta Z il numero k di modalità osservate sia superiore rispetto ai due casi precedenti, motivo per cui può risultare discutibile la capacità riassuntiva della distribuzione di frequenza. Questo problema si avverte maggiormente nel caso di variabili quantitative continue per le quali può addirittura capitare che le frequenze assolute 28 Il processo di misurazione assumano valore unitario per tutte le modalità. E’ il caso, per esempio, della variabile Y “altezza” per la quale (se, come nel nostro esempio, la misurazione è stata fatta con una certa precisione) nessuna modalità osservata si manifesta per più di un’unità statistica. Per sopperire a questo problema il ricercatore può fissare a priori delle classi di modalità e, in seguito, costruire nel modo classico la distribuzione di frequenza che sarà caratterizzata da k classi anziché da k modalità. In pratica, la generica classe del tipo (xi-1, xi], i=1,2,…,k, conterrà tutte le modalità della variabile in oggetto comprese, come anticipato, tra xi-1 (escluso) e xi (incluso). Si ipotizzi, ad esempio, di costruire 6 classi di modalità per la variabile Y – altezza (155-160], (160-165], (165-170], (170-175], (175-180], (180-190] (Tabella 6). La scelta di queste classi, in questo caso, deriva da una considerazione di carattere prettamente pratico; si ricordi, però, che nella letteratura statistica esistono diversi riferimenti a particolari tecniche per la costruzione delle classi di modalità. Y Altezza yi (155-160] (160-165] (165-170] (170-175] (175-180] (180-190] Somma Σ Frequenze assolute ni 4 1 3 3 4 5 20 Frequenze relative pi 0,2 0,05 0,15 0,15 0,2 0,25 1 Frequenze relative percentuali pi% 20 5 15 15 20 25 100 Tabella 6 – Distribuzione di frequenza per classi di età 1.6.2 Indici di posizione: quantili, moda e mediana L’obiettivo principale della statistica descrittiva è quello di fornire chiavi di lettura dei fenomeni osservati di rapida e immediata interpretazione; gli indici di posizione rappresentano uno degli strumenti più utilizzati per questo scopo. Essi sono in grado di riassumere in un unico valore l’andamento generale dell’intera distribuzione. I principali indici di posizione sono la moda, i quantili di ordine p (ai quali appartiene la più mediana), e le medie analitiche (alle quali appartiene la media aritmetica). Nella Tabella 7 vengono presentate delle schede riassuntive per ogni indice, contenenti le modalità di calcolo, i pregi e difetti nonché le avvertenze per i casi particolari. Per il momento è importante sapere che il tipo di variabile statistica con cui si sta lavorando pregiudica talvolta la scelta degli indici di posizione. Come si può vedere dalla tabella seguente, infatti, solamente la moda può essere calcolata per tutte le tipologie di variabile; i quantili, invece, poiché si avvalgono del concetto di frequenza cumulata (di cui si dirà tra breve), si possono computare unicamente per variabili qualitative ordinali e per variabili quantitative. Infine, la media aritmetica (e più in generale le medie analitiche), per sua stessa definizione, può essere calcolata solamente per variabili quantitative. Indice di posizione Moda Quantili di ordine p (tra cui la mediana) Medie analitiche (tra cui la media aritmetica) Variabile qualitativa nominale P Variabile qualitativa ordinale P P Variabile quantitativa discreta P P Variabile quantitativa continua P P P P Tabella 7 -­‐ Indici di posizione per tipologia di variabile statistica Prima di procedere con la trattazione, è necessario introdurre il concetto di frequenza cumulata, calcolabile per quelle variabili le cui modalità presentano un ordinamento intrinseco (variabili qualitative ordinali) o numerico (variabili quantitative discrete e continue). 29 Il processo di misurazione La frequenza cumulata Ni, associata alla modalità i-esima (i=1,2,…,k), indica il numero di unità statistiche che hanno manifestato una modalità inferiore o uguale alla i-esima. Si faccia riferimento, a titolo di esempio, alla distribuzione di frequenza della variabile W “gradimento” (Tabella 8). W Gradimento wi Basso Medio Alto Somma Σ Frequenze assolute ni 8 5 7 20 Frequenze cumulate Ni =8 (N1) =8+5=13 (N2) =13+7=20 (N3) Tabella 8 – Frequenza assoluta e cumulata della variabile gradimento Dalla tabella 8 emerge che 13 soggetti (N2) hanno espresso un livello di gradimento inferiore o uguale a “medio” e che, ovviamente, 20 soggetti (ovvero tutti) hanno un livello di gradimento inferiore o uguale ad “alto” (per questo motivo si ha che Nk=n per ogni distribuzione di frequenza). Le frequenze cumulate rappresentano, in definitiva, una sorta di ordine di arrivo delle unità statistiche che hanno partecipato alla rilevazione: i primi 8 soggetti che tagliano il traguardo portano sulla pettorina l’indicazione “livello di gradimento basso”, i successivi 5 soggetti (in totale sono arrivati 13 soggetti) “livello di gradimento medio”; infine, gli ultimi 7 soggetti ad arrivare portano una pettorina con la scritta “livello di soddisfazione alto”. In questa ottica, si intuisce, ad esempio, che l’unità statistica che occupa la 10° posizione della classifica è associata alla modalità “livello di soddisfazione medio”. Moda Definizione La moda è quella modalità della distribuzione di frequenza alla quale è associata la frequenza assoluta (o relativa) maggiore. Procedimento di calcolo Bisogna ricercare nella colonna delle frequenze assolute ni (o delle frequenze relative pi) il valore più elevato e risalire successivamente alla modalità corrispondente. Pregi e difetti La moda è un indice di posizione facilmente calcolabile; purtroppo esso non è sempre in grado di discriminare sufficientemente la distribuzione della variabile. Si considerino, ad esempio, le seguenti distribuzioni: a={2,2,2,3,3,3,4,4,4,4}, b={4,4,4,4,5,5,5,6,6,6}, c={1,2,3,4,4,4,4,5,6,7}: nonostante la moda sia pari a 4 in tutti e tre i casi, le distribuzioni appaiono profondamente diverse. Si consideri, inoltre, il seguente caso: a={1,1,1,1,5,6,9,9,9,9}: la distribuzione è bimodale (possiede due valori modali) ma le modalità 1 e 9 sono agli estremi, motivo per cui è preferibile affermare che la moda non esiste perché non si rivela un indice in grado di riassumere l’andamento dei dati. Casi particolari Per variabili quantitative continue con modalità raggruppate in classi di ampiezza diversa (come è il caso della variabile Y) si parla di classe modale (e non di valore modale) e il suo calcolo passa attraverso la valutazione delle densità di frequenza δi (i=1,2,…,K) anziché delle frequenze assolute. In questo caso, infatti, è necessario tener conto anche dell’ampiezza di (i=1,2,…,K) di ogni classe poiché può succedere che una classe contenga al suo interno un gran numero di soggetti solamente per il fatto che è essa molto ampia. In questo caso, dopo 30 Il processo di misurazione aver calcolato le densità di frequenza δi = ni , i=1,2,…,k (dove ni è la frequenza assoluta di della classe i-ma e di la sua ampiezza), si individua la classe modale come quella alla quale è associata la densità di frequenza più alta. Avvertenze Qualora esistano due o più modalità associate alla stessa frequenza assoluta più alta si proceda come segue: a) nel caso di variabili qualitative e di variabili quantitative continue in classi, si affermi che la distribuzione è plurimodale; b) nel caso di variabili quantitative discrete, si affermi che la distribuzione è plurimodale oppure si effettui una media delle modalità modali individuate, sempre che queste non siano troppo distanti (in questo caso, infatti, una media di modalità molto diverse appiattirebbe la distribuzione, nascondendo la presenza di due modalità modali ma distanti). X Sesso xi Femmina Maschio Somma Σ Frequenze assolute ni 11 9 20 La moda per la variabile X è “femmina”. W Gradimento wi Basso Medio Alto Somma Σ Frequenze assolute ni 8 5 7 20 La moda per la variabile W è “basso gradimento”. Si noti come, in questo caso, anche la modalità “alto” possieda una frequenza assoluta (7) prossima a quella modale (8). Z Voto zi 18 19 20 21 22 23 24 25 Somma Σ La moda per la variabile Z è 19. Frequenze assolute ni 1 5 3 2 3 1 3 2 20 31 Il processo di misurazione Y Altezza yi (155-160] (160-165] (165-170] (170-175] (175-180] (180-190] Somma Σ Frequenze Densità di Ampiezze assolute frequenza ni di δi 0,8 4 5 =(4/5) 0,2 1 5 =(1/5) 0,6 3 5 =(3/5) 0,6 3 5 =(3/5) 0,8 4 5 =(4/5) 0,5 5 10 =(5/10) 20 Per quanto riguarda la variabile Y, dall’analisi della corrispondente tabella emergono le seguenti considerazioni: a) Alla classe (180-190], con la frequenza assoluta più alta (5), non corrisponde la densità di frequenza maggiore (0,5), a testimonianza dell’effetto dell’ampiezza della classe. b) Esistono due classi a cui è associata la densità di frequenza maggiore (0,8): in situazioni come queste si può concludere che la distribuzione è bimodale oppure che la moda non esiste. Quantile di ordine p (xp) Definizione Il quantile di ordine p (p ∈ (0,1)) è quella modalità della distribuzione che lascia prima di sé almeno il p% delle n unità statistiche indagate e dopo di sé almeno il restante (1-p)%. Alla famiglia dei quantili appartiene la più famosa mediana per la quale p=0,5 (prima e dopo di sé si collocano almeno il 50% dei casi): mediana =(x0,5). Quantile è il termine generico che individua una famiglia di indici di posizione. In realtà quando p assume un valore appartenente all’insieme {1;0,2;…;0,9} si parla di decili (primo, secondo…nono), oppure di percentili quando p assume un valore dell’insieme {0.01;0.02;…;0.99} e, infine, di quartili quando p assume uno dei seguenti valori {0.25;0.50;0.75}. In particolare, si noti che la mediana è il 5° decile, il 50° percentile e il 2° quartile. Procedimento di calcolo E’ utile costruire la colonna delle frequenze cumulate Ni (i=1,2,…,k); successivamente si deve individuare la posizione quantile, una volta definita a priori la sua posizione. A questo proposito si svolga il prodotto (n*p) (dove n è la numerosità della popolazione) e si proceda come segue: a) se il prodotto (n*p) restituisce un valore intero, si consideri la posizione (n*p) e la successiva(n*p+1); b) se il prodotto (n*p) restituisce un valore decimale si arrotondi per eccesso il valore ottenuto e lo si consideri come posizione. Una volta calcolata/e la/le posizioni occorre individuarla/e nella colonna delle frequenze cumulate e successivamente risalire alla/e modalità corrispondente/i. Pregi e difetti Se da una parte il calcolo del quantili di ordine p risulta leggermente più complicato di quello della moda, dall’altra un indice di questo tipo risulta essere più adatto a interpretare la 32 Il processo di misurazione distribuzione del carattere in esame. Il quantile, infatti, tenendo conto della posizione delle unità statistiche, non si limita a definire quale/i modalità si presentano più spesso bensì stabilisce una ripartizione della popolazione in base ad una modalità rappresentativa xp. Casi particolari Per variabili quantitative continue con modalità raggruppate in classi (come è il caso della variabile Y) si parla di classe quantile (xi-1,xi] di ordine p (e non di quantile), ottenibile secondo il classico procedimento illustrato sopra. Per risalire ad un singolo valore xp (appartenente alla classe quantile (xi-1,xi]) è necessario ipotizzare che le ni unità statistiche comprese nell’intervallo (xi-1,xi] siano ripartite in modo tale che le modalità ad esse associate abbiano, l’una dall’altra, uguale distanza (ipotesi di equispaziatura). Secondo questa ipotesi il quantile di ordine p è dato dalla seguente formula x p = xi −1 + di ( posizione − N i −1 ) , dove xi-1 è l’estremo inferiore ni della classe quantile, di è l’ampiezza della classe quantile, ni è la frequenza assoluta della classe quantile, “posizione” è la posizione (o una delle due posizioni) associata al quantile e Ni-1 è la frequenza cumulata della classe che precede la classe quantile. Avvertenze Qualora le posizioni individuate attraverso il prodotto (n*p) corrispondano a due modalità diverse si proceda come segue: a) nel caso di variabile qualitativa ordinale, si affermi che il quantile non esiste; b) nel caso di variabile quantitativa discreta, si proceda effettuando una media delle due modalità individuate (sempre che non siano troppo diverse); c) nel caso di variabile quantitativa continua in classi, si proceda alla media delle due quantità ottenute attraverso la formula indicata sopra applicata due volte. A titolo esemplificativo, verranno calcolati per ogni variabile disponibile solamente i 3 quartili (1° quartile p=0,25; 2° quartile=mediana p=0,50; 3° quartile p=0,75), fermo restando che il procedimento e il commento dei risultati risultano simili per qualsiasi p si voglia utilizzare. W Frequenze Gradimento assolute wi ni Basso 8 Medio 5 Alto 7 Somma Σ Z Voto zi Frequenze cumulate Ni 8 posizioni (1,2,…,8) 13 posizioni (9,10,…,13) 20 posizioni (14,15,…,20) 20 Frequenze assolute ni 18 1 19 5 20 3 21 2 Frequenze cumulate Ni 1 posizione 1 6 posizioni (2,3,4,5,6) 9 posizioni (7,8,9) 11 1° QUARTILE: (20*0,25)=5 à posizioni 5 e 6 à x0,25=“basso” (almeno il 25% della popolazione ha espresso un gradimento non oltre “basso” e almeno il 75% non meno di “basso”); MEDIANA: (20*0,50)=10 à posizioni 10 e 11 à x0,5= “medio” ; 3° QUARTILE: (20*0,75)=15 à posizioni 15 e 16 à x0,75= “alto”. 33 Il processo di misurazione 22 3 23 1 24 3 25 2 Somma Σ Y Altezza yi (155-160] (160-165] (165-170] (170-175] (175-180] (180-190] Somma Σ posizioni (10,11) 14 posizioni (12,13,14) 15 posizione 15 18 posizioni (16,17,18) 20 posizioni (19,20) 1° QUARTILE: (20*0,25)=5 à posizioni 5 e 6 à x0,25= “19”; MEDIANA: (20*0,5)=10 à posizioni 10 e 11 à x0,5= “21”; 3° QUARTILE: (20*0,75)=15 à posizioni 15 e 16 à la posizione 15 corrisponde alla modalità “23” mentre la posizione 16 alla modalità “24”; in questo caso, in cui la variabile è quantitativa, è possibile effettuare una media delle due modalità individuate (x0,75=23,50). 20 Frequenze Frequenze Ampiezze assolute cumulate ni di Ni 4 4 5 posizioni (1,2,3,4) 5 1 5 posizione 5 8 3 5 posizioni (6,7,8) 11 3 5 posizioni (9,10,11) 15 4 5 posizioni (12,13,14,15) 20 5 10 posizioni (16,17,18,19,20) 20 1° QUARTILE: (20*0,25)=5 à posizioni 5 e 6 à classi del 1° quartile (160-165] e (165-170] à applico due volte la formula sopra indicata e poi faccio una media dei due valori ottenuti: 5 5 x0, 25;1 = 160 + (5 − 4) = 165 e x0, 25; 2 = 165 + (6 − 5) = 166,67 da cui segue che x0,25 1 3 (ottenuto come media tra x0,25;1 e x0,25;2) è pari a 165,83 (almeno il 25% della popolazione ha un’altezza non superiore a 165,83 cm e almeno il 75% non inferiore a 165,83 cm); MEDIANA: (20*0,50)=10 à posizioni 10 e 11 à classe mediana (170-175], applicando la formula per entrambe le posizioni ( x0,5;1 5 = 170 + (10 − 8) = 173,33 3 e 5 x0,5; 2 = 170 + (11 − 8) = 175 ) e facendo una media dei due valori x0,25;1 e x0,25;2 si ottiene 3 che x0,5=174,17 cm; 34 Il processo di misurazione 3° QUARTILE: (20*0,75)=15 à posizioni 15 e 16 à classi del 3° quartile (175-180] e (180190] à applico due volte la formula e poi faccio una media dei due valori ottenuti: 5 10 x0,75;1 = 175 + (15 − 11) = 180 e x0,75;1 = 180 + (16 − 15) = 182 da cui segue che x0,75 4 5 (ottenuto come media tra x0,75;1 e x0,75;2) è pari a 181,00cm. Media aritmetica (µ) Definizione La media aritmetica (chiamata anche semplicemente media) è quel valore (non necessariamente una modalità osservata) che rileva la tendenza centrale della distribuzione; essa rappresenta la parte del totale del fenomeno in esame che spetterebbe a ciascuna unità statistica. È importante sapere che la media aritmetica appartiene alla famiglia delle medie potenziate che a loro volta appartengono a quella delle medie analitiche. Procedimento di calcolo k ∑ x ⋅n i Per il calcolo della media si utilizza la formula µ= i =1 n i ; a questo scopo, risulta comodo aggiungere alla distribuzione di frequenza una colonna contenenti i prodotti (xi*ni) (i=1,2,…,k) che devono poi essere sommati e divisi per la numerosità della popolazione n. Casi particolari Per variabili quantitative continue con modalità raggruppate in classi non si dispone delle singole modalità xi bensì di intervalli di valori (come è il caso della variabile Y); per questo k motivo la formula da utilizzare per il calcolo della media aritmetica diventa µ= * i ∑x i =1 dove x*i=(xi-1+xi)/2, ovvero è il valore centrale dell’intervallo considerato (i=1,2,…,k). Avvertenze n ⋅ ni , È importante verificare che il valore ottenuto per la media µ sia compreso tra la più piccola e la più grande modalità osservata ( x1 ≤ µ ≤ x k ). Inoltre, si ricordi che la media di una variabile che presenta un unico valore costante per tutte le unità statistiche è uguale alla costante stessa. Z Voto zi 18 19 20 21 22 23 24 25 Somma Σ Frequenze assolute ni 1 5 3 2 3 1 3 2 20 k xi*ni (18*1)=18,00 (19*5)=95,00 (20*3)=60,00 (21*2)=42,00 (22*3)=66,00 (23*1)=23,00 (24*3)=72,00 (25*2)=50,00 Σ=426,00 ∑ x ⋅n i µ= i =1 n i = 426,00 = 21,30 20 35 Il processo di misurazione Y Altezza yi (155-160] (160-165] (165-170] (170-175] (175-180] (180-190] Somma Σ Frequenze assolute ni 4 1 3 3 4 5 20 k * Valori centrali X i * Xi (155+160)/2=157,50 (160+165)/2=162,50 (165+170)/2=167,50 (170+175)/2=172,50 (175+180)/2=177,50 (180+190)/2=185,00 * X i*ni (157,50*4)=630,00 (162,50*1)=162,50 (167,50*3)=502,50 (172,50*3)=517,50 (177,50*4)=710,00 (185,00*5)=925,00 Σ=3447,50 µ= * i ∑x ⋅ ni i =1 = n 3447,50 = 172,38 20 1.6.3 Indici di variabilità e mutabilità La variabilità può essere considerata come la stesa ragione di esistenza della statistica: se, infatti, non ci fosse variabilità nei fenomeni osservabili, ovvero se tutte le unità statistiche fossero uguali sotto ogni aspetto, non ci sarebbe bisogno di una scienza in grado di spiegare le diversità di una popolazione. Per questo motivo, un’indagine statistica, accanto agli indici di posizione appena presentati, deve fornire misure capaci di sintetizzare il grado di somiglianza o discordanza delle unità statistiche rispetto ai caratteri osservati. A questo scopo, si utilizzano gli indici di mutabilità per le variabili qualitative, e gli indici di variabilità per le variabili quantitative; di seguito, verranno presentati, rispettivamente, l’indice di Gini e la varianza, sia nella loro versione originaria che in quella relativa o normalizzata. Un indice di mutabilità: l’indice di Gini L’indice di Gini è un indice di mutabilità utilizzato soprattutto per variabili qualitative; esso si basa sull’utilizzo delle frequenze relative ed è facilmente calcolabile. Procedimento di calcolo Data una distribuzione di frequenza per una variabile qualitativa X, l’indice di Gini è dato dalla k 2 ⎛ n ⎞ seguente formula G X = 1 − ∑ ⎜ i ⎟ , dove ni è la frequenza assoluta per la modalità ii =1 ⎝ n ⎠ esima (i=1,2,…,k) e n la numerosità della popolazione. A livello pratico, può risultare comodo aggiungere alla distribuzione di frequenza una nuova colonna contenente i rapporti (ni/n) elevati al quadrato; la somma di questi ultimi dovrà poi essere sottratta dall’unità. L’indice di Gini può assumere valori nell’intervallo ⎡ k − 1⎤ ⎢0, k ⎥ , dove k è il numero di modalità osservate; ⎣ ⎦ in particolare, se il valore dell’indice si avvicina a 0 significa che le unità tendono a concentrarsi in una o poche modalità osservate (ovvero la somiglianza tra i soggetti è alta, c’è quasi un’unica modalità che li contraddistingue), mentre se l’indice tende ad assumere un valore vicino all’estremo superiore è possibile affermare che esiste una tendenza delle unità statistiche ad equidistribuirsi tra le k modalità osservate e, quindi, la dissomiglianza (o mutabilità) è maggiore. L’indice di Gini normalizzato Per poter effettuare dei confronti in termini di mutabilità tra due o più variabili qualitative, è necessario eliminare l’effetto della numerosità della popolazione (n) e del numero di modalità (k). Per questo motivo, si ricorre all’indice di Gini normalizzato ottenibile dividendo l’indice 36 Il processo di misurazione ~ di Gini classico per il suo massimo ( G X = GX ). In questo modo, poiché l’indice di Gini k −1 k normalizzato assume valori compresi tra 0 (assenza di mutabilità) e 1 (massima mutabilità), è possibile valutare il livello di mutabilità della variabile X, sia singolarmente considerata (“la mutabilità di X è alta o bassa?”) sia rispetto ad altri caratteri (“è più mutabile X o Y”?). X Sesso Frequenze assolute xi ni Femmina 11 Maschio 9 Somma Σ 20 W Frequenze Gradimento assolute wi ni Basso 8 Medio 5 Alto 7 Somma Σ 20 k (ni/n)^2 0,302 2 (11/20) 0,202 2 (9/20) Σ=0,505 (ni/n)^2 0,160 2 (8/20) 0,062 2 (5/20) 0,123 2 (7/20) Σ=0,345 2 ⎛ n ⎞ G X = 1 − ∑ ⎜ i ⎟ = 1 − 0,505 = 0,495 G ~ i =1 ⎝ n ⎠ G X = X = 02, 495 = 0 ,99 (mutabilità quasi massima) −1 k −1 2 k GW = 1 − 0,345 = 0,655 G ~ (livello di mutabilità molto GW = W = 03,655 −1 = 0,9825 k −1 3 k alto) Dall’analisi dei risultati appena presentati, è inoltre possibile affermare che la variabile qualitativa X è più mutabile di W poiché presenta un indice di Gini normalizzato superiore. Un indice di variabilità: la varianza (solo per variabili quantitative) Definizione La varianza è un indice di variabilità calcolabile solamente per variabili quantitative; essa appartiene alla famiglia degli indici di dispersione che si basano sulle differenze (nel caso della varianza, le differenze al quadrato) tra le modalità osservate xi e un prefissato indice di posizione (nel caso della varianza, la media aritmetica µ). Procedimento di calcolo Data una distribuzione di frequenza per una variabile quantitativa X, la varianza è ottenibile k applicando la seguente formula 2 σ = ∑ (x − µ) i i =1 n 2 ⋅ ni , dove µ è la media aritmetica della variabile X in esame, ni (i=1,2,…,k) la frequenze assoluta della generica modalità xi e n la numerosità della popolazione. A livello pratico, può risultare comodo aggiungere alla distribuzione di frequenza una colonna contenente le differenze al quadrato tra le modalità xi (i=1,2,…,k) e la media aritmetica di X, ponderate per le corrispondenti frequenze assolute ni 37 Il processo di misurazione (i=1,2,…,k); la somma dei valori contenuti nella colonna costruita dovrà poi essere divisa per n. La varianza è un indice che assume sempre valori maggiori o uguali a 0; in particolare, σ2=0 quando non esiste variabilità nella distribuzione e tutte le unità statistiche presentano la stessa modalità xi (uguale alla media µ). Se, invece, i soggetti assumono modalità diverse di X, l’indice di variabilità assumerà valori positivi e crescenti al crescere della variabilità (ovvero al crescere delle distanze che “mediamente” intercorrono tra le modalità e la loro media aritmetica). In questa sede, per semplicità, non presenteremo il calcolo dell’estremo superiore dell’intervallo di variazione della varianza (noto come “varianza massima”) e, quindi, non sarà possibile costruire l’indice normalizzato. Un “parente” della varianza: lo scarto quadratico medio σ Dalla varianza σ2 è possibile ricavare un altro indice di variabilità, basato sullo stesso principio della varianza: lo scarto quadratico medio, ottenibile calcolando la radice quadrata della k varianza, ∑ (x − µ) i 2 i =1 σ= σ = n 2 ⋅ ni . Si intuisce facilmente che anche lo scarto quadratico medio assume valori maggiori o uguali a 0; il caso particolare σ=0 si verifica solamente in caso di assenza di variabilità. Un indice di variabilità relativo: il coefficiente di variazione (CV) Va segnalato che spesso, nell’ambito di un’indagine statistica, risulta necessario confrontare la distribuzione di due variabili singolarmente considerate: in proposito, può essere utile avere a disposizione un indice che permetta di fare confronti in termini di variabilità eliminando non solo l’effetto della numerosità n (un risultato che già si ottiene con σ2 e σ) ma anche quello dell’unità di misura della variabile. Può capitare, infatti, che una variabile X abbia una varianza (o uno scarto quadratico medio) molto alta senza che ci sia alta variabilità. Ad esempio, se si considerano i numeri 1000, 1500, 2000 è facile rendersi conto che scarto quadratico medio e varianza di tale serie di valori risultano ben più alti che non per la serie formata da 1, 1.5, 2 (che poi sono gli stessi numeri divisi per 1000). D’altra parte è impensabile che la oggettiva misura della variabilità in corrispondenza di una variabile quantitativa come può essere lo “stipendio mensile” debba basarsi su valori di σ2 o σ che, stante una data distribuzione di stipendi, finiscono con l’essere più elevati se i valori sono espressi in lire piuttosto che in euro. Per questo motivo, e in situazioni in cui sia necessario effettuare confronti tra variabili caratterizzate da unità di misura o da ordini di grandezza differenti, è consigliabile utilizzare il coefficiente di variazione, CV = σ , dove σ e µ sono, rispettivamente, lo scarto quadratico µ medio e la media aritmetica della variabile in esame. Il coefficiente di variazione assume valori maggiori di 0 e crescenti al crescere della variabilità; ancora una volta, si avrà che CV=0 in assenza di variabilità. Casi particolari Per variabili quantitative continue con modalità raggruppate in classi non si dispone delle singole modalità xi bensì di intervalli di valori (come è il caso della variabile Y); per questo motivo la formula da utilizzare per il calcolo della varianza e dello scarto quadratico medio k diventa σ2 = * i ∑ (x − µ ) 2 ⋅ ni i =1 n , dove x*i=(xi-1+xi)/2, ovvero è il valore centrale dell’intervallo considerato (i=1,2,…,k). 38 Il processo di misurazione Z Voto zi 18 19 20 21 22 23 24 25 Somma Σ Y Altezza yi (155-160] (160-165] (165-170] (170-175] (175-180] (180-190] Somma Σ k Frequenze µ=21,30 assolute ( zi − ) 2 ⋅ ni ni (x-µ)^2*ni 96,20 2 i =1 = = 4,81 Z = 10,89 2 n 20 1 =(18-21,30) *1 26,45 4,81 2 5 =(19-21,30) *5 CV = = = 0,10 5,07 21,30 2 3 =(20-21,30) *3 0,18 2 2 =(21-21,30) *2 1,47 2 3 =(22-21,30) *3 2,89 2 1 =(23-21,30) *1 21,87 2 3 =(24-21,30) *3 27,38 2 2 =(25-21,30) *2 Σ=96,20 20 Frequenze 1955,94 2 µ=172,38 assolute = 97,80 Y = * * 20 ni Xi (x -µ)^2*ni 885,66 4 157,50 2 97,80 =(157,50-172,38) *4 CV = = = 0,06 97,61 172 , 38 1 162,50 2 =(162,50-172,38) *1 71,44 3 167,50 2 =(167,50-172,38) *3 0,04 3 172,50 2 =(172,50-172,38) *3 104,86 4 177,50 2 =(177,50-172,38) *4 796,32 5 185,00 2 =(185,00-172,38) *5 Σ=1955,94 20 σ ∑ µ σ µ σ σ µ Dal confronto dei due coefficienti di variazione, è possibile affermare che la variabile Z “voto” mostra maggiore variabilità rispetto alla variabile Y “altezza”. A prima vista, sulla base della sola varianza (o del corrispondente valore dello scarto quadratico medio) si sarebbe detto il contrario. 39 Il processo di misurazione 1.7 Statistica descrittiva bivariata 1.7.1 Tabelle di contingenza La statistica descrittiva bivariata si occupa dell’analisi di due variabili congiuntamente considerate; in particolare, risulta interessante sapere se, e in qualche modo, le due variabili si influenzano o se, al contrario, si manifestano una indipendentemente dall’altra. A questo proposito verranno presentati alcuni indici in grado di interpretare il tipo di legame esistente tra due variabili. Prima di procedere risulta tuttavia indispensabile acquisire il concetto di distribuzione di frequenza bivariata. In definitiva, si tratta di raccogliere i dati in una tabella a doppia entrata (o tabella di contingenza) in grado di mostrare congiuntamente le modalità dei due caratteri. Si ipotizzi, ad esempio, di costruire la tabella a doppia entrata per le variabili X “sesso” e W “gradimento”: X Femmina x1 Maschio x2 somma Σ W Basso Medio Alto w1 w2 w3 4 3 4 (n11) (n12) (n13) 4 2 3 (n21) (n22) (n23) 8 5 7 n.1 n.2 n.3 somma Σ 11 n1. 9 n2. 20 N Tabella 9 – Esempio di tabella a doppia entrata La tabella a doppia entrata mostra sulle righe le modalità della variabile X - sesso (“femmina” e “maschio”) e sulle colonne le modalità di W - gradimento (“basso”, “medio” e “alto”); la tabella, inoltre, è composta dalle seguenti distribuzioni: 1. distribuzione congiunta di X e di W: le frequenze congiunte (assolute) nij, che si trovano al centro della tabella, stanno ad indicare quante unità statistiche hanno manifestato contemporaneamente la modalità xi e la modalità wj (ad esempio, ci sono 4 femmine che hanno espresso un giudizio basso, ci sono 3 maschi con un giudizio alto e così via). Si osservi che il numero delle celle contenenti le frequenze congiunte è dato dal prodotto del numero di righe h per il numero di colonne k, per cui la scrittura corretta prevede l’utilizzo del doppio pedice nij (i=1,2,…,k; j=1,2,…,h); 2. distribuzione marginale di X: considerando solamente la prima e l’ultima colonna della tabella a doppia entrata, si ottiene la distribuzione di frequenza marginale della variabile X, eliminando così l’effetto della variabile W. Le frequenze (assolute) della variabile X sono dette frequenze marginali (assolute) e si indicano con ni. (i=1,2,…,k); 3. distribuzione marginale di W: considerando solamente la prima e l’ultima riga della tabella a doppia entrata, si ottiene la distribuzione di frequenza marginale della variabile W, eliminando così l’effetto della variabile X. Le frequenze (assolute) della variabile W sono dette frequenze marginali (assolute) e si indicano con n.j (j=1,2,…,h); Fra le frequenze sopra elencate valgono le seguenti relazioni: h 1. ni. = ∑ nij (somma per riga) j =1 40 Il processo di misurazione k 2. n. j = ∑ nij (somma per colonna) i =1 k 3. h k h ∑ n =∑ n =∑∑ n i. i =1 .j j =1 ij = n (somma per riga e per colonna) i =1 j =1 Qui di seguito vengono elencate tutte le restanti tabelle a doppia entrata costruibili con le variabili a disposizione contenute nella Tabella 1: Z 18 19 20 21 22 23 24 25 0 2 3 0 2 1 3 0 1 3 0 2 1 0 0 2 1 5 3 2 3 1 3 2 X Femmina Maschio somma Σ somma Σ 11 9 20 Y X (155-160] (160-165] (165-170] (170-175] (175-180] (180-190] somma Σ Femmina Maschio somma Σ 2 2 4 1 0 1 1 2 3 1 2 3 3 1 4 3 2 5 11 9 20 W Basso Medio Alto somma Σ Z 18 19 20 21 22 23 24 25 0 2 0 2 2 0 1 1 0 2 2 0 0 0 1 0 1 1 1 0 1 1 1 1 1 5 3 2 3 1 3 2 somma Σ 8 5 7 20 Y W Basso Medio Alto somma Σ (155-160] (160-165] (165-170] (170-175] (175-180] (180-190] 2 0 2 4 0 0 1 1 1 1 1 3 1 1 1 3 3 1 0 4 1 2 2 5 Y (155-160] (160-165] (165-170] (170-175] (175-180] (180-190] somma Σ Z 18 19 20 21 22 23 24 25 0 0 0 0 1 0 2 1 0 0 1 0 0 0 0 0 0 1 0 1 0 1 0 0 1 1 0 0 1 0 0 0 0 2 0 0 1 0 1 0 0 1 2 1 0 0 0 1 1 5 3 2 3 1 3 2 Somma Σ 8 5 7 20 somma Σ 4 1 3 3 4 5 20 Si noti come una tabella di contingenza possa essere costruita accoppiando variabili di diversa natura: qualitativa (nominale o ordinale) e qualitativa (nominale o ordinale), qualitativa (nominale o ordinale) e quantitativa (discreta o continua in classi), quantitativa (discreta o 41 Il processo di misurazione continua in classi) e quantitativa (discreta o continua in classi). A partire da una data tabella di contingenza sarà possibile affrontare lo studio dei seguenti legami: 1.7.2 Indipendenza e connessione Il concetto base della statistica bivariata: l’indipendenza statistica Data una tabella di contingenza, due variabili X e Y si dicono indipendenti se le modalità di X non influenzano il verificarsi delle modalità di Y, e viceversa (per questo si dice che l’indipendenza statistica è una relazione bidirezionale: se X è indipendente da Y anche Y è indipendente da X). In caso contrario, ovvero in assenza di indipendenza statistica, si parla genericamente di connessione: le due variabili X e Y tendono ad influenzarsi reciprocamente e tra di loro esiste una qualche relazione generica. Per questo motivo, l’indipendenza statistica e la connessione sono concetti che si escludono reciprocamente. L’indice per l’indipendenza statistica: il Chi quadro La presenza di indipendenza statistica o di connessione tra due variabili X e Y si misura con l’indice Chi Quadro χ2, che si basa sul confronto tra le frequenze assolute osservate nij (contenute nella tabella di contingenza) e le frequenze teoriche nij* che si osserverebbero in caso di indipendenza tra X e Y (le frequenze teoriche vanno calcolate in una nuova tabella di contingenza tramite la relazione nij* = ni. ⋅ n. j n (i=1,2,…,k; j=1,2,…,h). La formula per il k h ∑∑ (n ij χ2 = calcolo dell’indice è data dalla seguente espressione − nij* ) 2 i =1 j =1 nij* : se tutte le frequenze osservate nij coincidono con le frequenze teoriche nij* siamo in presenza di indipendenza statistica ma, qualora anche solo una frequenza osservata fosse diversa dalla corrispondente frequenza teorica, potremmo escludere l’indipendenza ed affermare che esiste connessione tra X e Y. Per stabilire se la connessione tra X e Y è alta o bassa è possibile ricorrere alla normalizzazione dell’indice. Sapendo, infatti, che il minimo del Chi Quadro è 0 ( { }) (in caso di indipendenza statistica) e il massimo è n min h − 1, k − 1 (in caso di massima connessione), dove k è il numero di righe della tabella di contingenza, h il numero di colonne, n la numerosità della popolazione e min la funzione minimo, l’indice normalizzato χ~ 2 = χ2 n(min{h − 1, k − 1}) assumerà valore 0 in caso di indipendenza statistica, valore 1 in caso di massima connessione, valori vicino a 0 nel caso di bassa connessione e valori vicino a 1 in presenza di alta connessione. Presentiamo qui di seguito il calcolo dell’indice Chi quadro per la coppia di variabili (X,W): Come primo passo si riporta la tabella delle frequenze osservate: Tabella delle frequenze osservate nij W Basso Medio Alto Somma Σ X Femmina Maschio somma Σ 4 4 8 3 2 5 4 3 7 11 9 20 42 Il processo di misurazione Successivamente si costruisce la tabella che contiene le frequenze teoriche che si avrebbero nel caso di indipendenza statistica tra X e W, ottenute moltiplicando le frequenze marginali e dividendole poi per n: * Tabella delle frequenze teoriche nij W Basso Medio Alto 4,40 2,75 3,85 =(11*8/20) =(11*5/20) =(11*7/20) 3,60 2,25 3,15 =(9*8/20) =(9*5/20) =(9*7/20) 8 5 7 X Femmina Maschio somma Σ somma Σ 11 9 20 Poiché, già per più di una cella, le frequenze osservate sono diverse da quelle teoriche (ad esempio, per la prima cella della prima riga, la frequenza osservata è 4 mentre quella che si dovrebbe avere teoricamente è 4,40) è possibile escludere l’esistenza di indipendenza statistica e affermare che esiste connessione. Per valutare se il livello di connessione è alto o basso, procediamo con il calcolo dell’indice e con la sua normalizzazione: X Femmina Maschio Tabella di calcolo del Chi Quadro W Basso Medio Alto 0,04 0,02 0,01 2 2 2 =(4-4,40) /4,40 =(3-2,75) /2,75 =(4-3,85) /3,85 0,04 0,03 0,01 2 2 2 =(4-3,60) /3,60 =(2-2,25) /2,25 =(3-3,15) /3,15 2 Somma di tutte le 9 celle=χ =0,15 L’indice Chi quadro è pari a 0,15 e, poiché è diverso da 0, conferma la presenza di un qualche livello di connessione. La sua normalizzazione: χ~ 2 = 0,15 0,15 0,15 = = = 0,01 20(min{2 − 1, 3 − 1}) 20(min{1, 2}) 20 ⋅ 1 porta ad affermare che il livello di connessione esistente tra X e W è molto basso. Nella tabella 10, tralasciando i passaggi svolti per il calcolo dell’indice di connessione per le altre coppie di variabili, vengono riportati diversi valori standardizzati del Chi Quadro: X X Y Z W 0,13 0,62 0,01 Y 0,13 0,37 0,18 Z 0,62 0,37 W 0,01 0,18 0,32 0,32 Tabella 10 -­‐ Valori dell’indice Chi quadro normalizzato per le coppie di variabili considerate Innanzitutto si noti la simmetria della tabella 10, a conferma che la relazione di indipendenza statistica è bidirezionale; inoltre, dalla tabella emerge che tutte le variabili risultano, anche se con differenti intensità, connesse le une con le altre. È pertanto possibile procedere con analisi più approfondite che indaghino i legame esistenti (se due variabili si fossero rivelate indipendenti, l’analisi statistica bivariata non avrebbe potuto proseguire). 43 Il processo di misurazione 1.7.3 Associazione Un indice per misurare l’associazione: l’indice di Edwards L’associazione è un particolare tipo di relazione che è calcolabile solamente su tabelle di contingenza del tipo (2X2), ovvero con due righe e due colonne, situazione che si presenta nel caso in cui le due variabili considerate manifestino ciascuna solamente due modalità, come succede per la variabile X “sesso” della Tabella 1 (variabili di questo tipo si diranno, in seguito dicotomiche), oppure nel caso in cui si decida di fissare l’attenzione su una coppia di modalità xa, yb lasciando tutte le altre come residuali (“non xa ” e “non yb”), procedendo così alla dicotomizzazione delle due variabili. Si consideri come modello la seguente tabella di contingenza riguardante due variabili dicotomiche o dicotomizzate (quantitative o qualitative) X e Y: Y somma Σ X O A n11 n12 n1. Ā n21 n22 n2. somma Σ n.1 n.2 n A e sono le modalità della variabile X e, in particolare, si ha che corrisponde a “non A” (si potrebbe avere, ad esempio, A=”fumatore” e =”non fumatore”); lo stesso discorso vale per le modalità di Y, per cui corrisponde a “non O” (potrebbe essere, ad esmpio, O=”maggiorenne” e =”non maggiorenne”). L’obiettivo dell’associazione è quello di verificare se le due modalità principali nell’angolo di Nord-Ovest nella tabella 2x2, le modalità A e O tendono in qualche modo ad attrarsi o a respingersi, appurando, quindi, l’esistenza di un legame di associazione o di dissociazione. L’indice di Edwards è lo strumento da utilizzare per misurare il livello di associazione o di dissociazione esistente tra due variabili dicotomiche X e Y; esso è calcolabile attraverso la seguente espressione numerica E= n11 ⋅ n22 , dove i termini contenuti nella n11 ⋅ n22 + n12 ⋅ n21 formula sono le frequenze assolute indicate nella tabella precedente. L’indice di Edwards assume valori nell’intervallo [0,1]: nel caso si abbia E=0 si è in presenza di associazione negativa (o dissociazione) massima (le modalità A e O tendono a respingersi), se E=0,5 si è in presenza di indipendenza tra le due modalità e, infine, se E=1 si è in presenza di associazione positiva massima (le modalità A e O tendono ad attrarsi). È evidente, quindi, che valori di E prossimi allo 0 segnalano una forte associazione negativa fra A e O; valori di E prossimi a 1 segnalano, al contrario, forte associazione positiva tra A e O. Si ricordi, infine, che se l’indice Chi quadro calcolato per le due variabili X e Y dicotomiche è pari a 0 allora necessariamente si avrà che E=0,5. È importante ribadire che anche una variabile non dicotomica (ovvero con un numero di modalità superiore a 2) può essere resa tale puntando l’attenzione su una modalità di interesse A e raggruppando le restanti in un’unica modalità del tipo “non A” ( ). 44 Il processo di misurazione Si ipotizzi, ad esempio, di voler indagare il livello di associazione o dissociazione esistente tra la modalità “Femmina” della variabile X e la modalità “voto minore o uguale a 20” della la variabile Z. La tabella di contingenza che si otterrebbe, operando una dicotimizzazione per la variabile Z, avrebbe la seguente struttura: Z X ≤ 20 5 (2+3) 4 (1+3) 9 Femmina Maschio somma Σ e l’indice di Edwards sarebbe dato da >20 6 (2+1+3) 5 (2+1+2) 11 E= somma Σ 11 9 20 5⋅5 = 0,51 , valore che indica una 5⋅5 + 6⋅ 4 situazione di associazione positiva molto debole (quasi indipendenza) tra le due modalità considerate. Verrà presentato ora il calcolo dell’associazione fra le modalità “giudizio basso” della variabile W e “voto minore o uguale a 20” della variabile Z e fra le modalità “giudizio basso” della variabile W e “altezza minore o uguale a 170 cm” della variabile Y: W Basso Non basso somma Σ ≤ 20 2 7 9 W Basso Non basso somma Σ ≤ 170 3 5 8 Z >20 6 5 11 Y >170 5 7 12 somma Σ 8 12 20 somma Σ 8 12 20 E= 2⋅5 = 0,19 2⋅5 + 6⋅7 Siamo in presenza di un’associazione negativa abbastanza marcata (tendenza a respingersi). E= 3⋅ 7 = 0,46 3⋅ 7 + 5⋅5 Siamo in presenza di un’associazione negativa debole. 45 Il processo di misurazione 1.7.4 Cograduazione La cograduazione tra due variabili qualitative ordinali e il coefficiente di Spearman Qualora si intenda approfondire l’analisi della connessione esistente tra due variabili qualitative ordinali X e Y, è possibile ricorrere al concetto di cograduazione. Si parla di cograduazione (o di contrograduazione) quando i due fenomeni in esame tendono ad associare le rispettive modalità in modo che a modalità crescenti dell’uno corrispondano preferibilmente modalità crescenti (o decrescenti) dell’altro (in relazione alla scala ordinale che le caratterizza). Il coefficiente rs di Spearman, che si basa sul concetto di rango (posto d’ordine), fornisce la formula per il calcolo della cograduazione tra due variabili. Il concetto di rango Data una lista di dati circa una certa variabile statistica X (qualitativa ordinale o quantitativa) relativi a n unità statistiche, è possibile ordinarli e attribuire ad ogni soggetto un numero indicante la sua posizione nella lista. Si ipotizzi, ad esempio, di essere in possesso dei seguenti 15 dati relativi ad una certa variabile le cui modalità sono O=ottimo, B=buono e S=sufficiente: unità stat. xi 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 B O B O S S B B O B S B B O S E’ possibile ordinare le unità statistiche in maniera crescente (da sufficiente a ottimo) in base alla modalità riportata: unità stat. xi 5 6 11 15 1 3 7 8 10 12 13 2 4 9 14 S S S S B B B B B B B O O O O È ora facile associare a ogni unità statistica il rango, ovvero quel numero che indica la posizione dell’unità all’interno dell’ordinamento per modalità, facendo attenzione al caso in cui più unità presentino la stessa modalità. In questo caso, il rango sarà definito dalla media delle posizioni dei soggetti con la stessa modalità. unità stat. 5 6 11 15 1 3 7 8 10 12 13 2 4 9 14 xi S S S S B B B B B B B O O O O Posizione 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 2,5 8 13,5 Rango (1+2+3+4)/4 (5+6+7+8+9+10+11)/7 (12+13+14+15)/4 Riordinando le unità rispetto alla loro numerazione naturale e associando a ognuna il proprio rango si ottiene quanto segue: unità stat. 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 rango 8 13,5 8 13,5 2,5 2,5 8 8 13,5 8 2,5 8 8 13,5 2,5 46 Il processo di misurazione Il coefficiente di cograduazione di Spearman Una volta definito il concetto di rango, è possibile introdurre la formula del coefficiente rs di n Spearman: rs = 1 − 6 ⋅ ∑ (R Xi − RYi ) 2 i =1 n ⋅ (n 2 − 1) , dove RXi e RYi sono, rispettivamente, il rango della variabile X e il rango della variabile Y per il medesimo soggetto i (i=1,2,…,n). Il coefficiente rs di Spearman assume valori compresi nell’intervallo [-1,+1]: si ha rs uguale a -1 quando la contrograduazione è massima –ossia quando a modalità crescenti (decrescenti) di X corrispondo modalità decrescenti (crescenti) di Y e viceversa- e, al contrario, rs è pari a +1 quando la cograduazione è massima: allorché a modalità crescenti (decrescenti) di X corrispondono modalità crescenti (decrescenti) di Y. Inoltre, si ha rs nullo quando X e Y sono indipendenti statisticamente (ma non vale il viceversa). È evidente, quindi, che valori di rs prossimi allo 0 saranno sintomo di una cograduazione o di una contrograduazione debole, valori prossimi a -1 di una contrograduazione forte e, infine, valori prossimi a +1 di una cograduazione forte. Qui di seguito viene presentata la procedura per il calcolo del coefficiente di Spearman per una data coppia di variabili (W,L): La prima tabella riporta la lista di dati osservati per la variabile W e per la variabile L: W unità statistiche L Gradimento Titolo di studio Basso Licenza scuola media inf. 2 Medio Diploma 3 Basso Diploma 4 Alto Licenza scuola media inf. 5 Alto Licenza scuola media inf. 6 Alto Licenza scuola media inf. 7 Basso Diploma 8 Basso Diploma 9 Medio Licenza scuola media inf. 10 Basso Licenza scuola media inf. 11 Alto Diploma 12 Alto Laurea I livello 13 Medio Laurea I livello 14 Medio Diploma 15 Basso Licenza scuola media inf. 16 Basso Laurea I livello 17 Medio Diploma 18 Basso Laurea I livello 19 Alto Diploma 20 Alto Diploma 1 47 Il processo di misurazione Nella tabella seguente vengono calcolati i ranghi per entrambe le variabili: unità stat. 1 3 7 8 10 15 16 18 2 9 13 14 17 4 5 6 11 12 19 20 wi Basso Basso Basso Basso Basso Basso Basso Basso Medio Medio Medio Medio Medio Alto Alto Alto Alto Alto Alto Alto ordinam. numerico rango 1 2 3 4 4,5 5 6 7 8 9 10 11 11 12 13 14 15 16 17 17 18 19 20 unità stat. 1 4 5 6 9 10 15 2 3 7 8 11 14 17 19 20 12 13 16 18 li Licenza s.m.inf. Licenza s.m.inf. Licenza s.m.inf. Licenza s.m.inf. Licenza s.m.inf. Licenza s.m.inf. Licenza s.m.inf. Diploma Diploma Diploma Diploma Diploma Diploma Diploma Diploma Diploma Laurea I livello Laurea I livello Laurea I livello Laurea I livello ordinam. numerico rango 1 2 3 4 4 5 6 7 8 9 10 11 12 12 13 14 15 16 17 18 18,5 19 20 Nell’ultima tabella, infine, vengono riportati i calcoli richiesti dalla formula del coefficiente di cograduazione: unità statistiche RWi RLi 1 4,5 4 2 11 12 3 4,5 12 4 17 4 5 17 4 6 17 4 7 4,5 12 8 4,5 12 (RWi-RLi) 2 0,25 2 =(4,5-4) 1 2 =(11-12) 56,25 2 =(4,5-12) 169 2 =(17-4) 169 2 =(17-4) 169 2 =(17-4) 56,25 2 =(4,5-12) 56,25 2 =(4,5-12) 48 Il processo di misurazione 9 11 4 10 4,5 4 11 17 12 12 17 18,5 13 11 18,5 14 11 12 15 4,5 4 16 4,5 18,5 17 11 12 18 4,5 18,5 19 17 12 20 17 12 somma 49 2 =(11-4) 0,25 2 =(4,5-4) 25 2 (17-12) 2,25 2 =(17-18,5) 56,25 2 =(11-18,5) 1 2 =(11-12) 0,25 2 =(4,5-4) 196 2 =(4,5-18,5) 1 2 =(11-12) 196 2 =(4,5-18,5) 25 2 =(17-12) 25 2 =(17-12) 1254 n rs = 1 − 6 ⋅ ∑ (R Xi − RYi ) 2 i =1 n ⋅ (n 2 − 1) 1254 rs = 1 − 6 ⋅ = 0,06 20 ⋅ (20 2 − 1) Poiché il valore del coefficiente è prossimo allo 0, è possibile affermare che tra le due variabili esiste una bassa cograduazione. 49 Il processo di misurazione 1.7.5 Correlazione La correlazione tra due variabili quantitative e il coefficiente di Bravais-Pearson Qualora si intenda approfondire l’analisi del legame esistente tra due variabili quantitative (continue o discrete) X e Y così da cogliere oltre all’intensità anche l’eventuale natura lineare (proporzionale) del legame, è possibile ricorrere al concetto di correlazione lineare. Si dice che X e Y sono correlate positivamente (o negativamente) quando i due fenomeni in esame tendono ad associare le rispettive modalità in modo che a modalità crescenti dell’uno corrispondano preferibilmente modalità proporzionalmente crescenti (o decrescenti) dell’altro. Il coefficiente ρ di Bravais-Pearson, che si basa sul concetto di covarianza, fornisce la formula per il calcolo della correlazione lineare tra due variabili. Il concetto di covarianza La covarianza è l’attitudine di due variabili quantitative X e Y a subire delle variazioni nello stesso senso; in particolare, la covarianza assume valori positivi quando al crescere (descrescere) di X, Y cresce (decresce) e valori negativi quando al crescere (descrescere) di X, Y descresce (cresce). Appare evidente che, qualora X e Y siano indipendenti statisticamente, la covarianza assumerà valore nullo, in quanto i due fenomeni variano autonomamente. La formula per il calcolo della covarianza è data dalla seguente espressione numerica k h ∑∑ ( x i cov XY = − µ X )( y j − µY ) ⋅ nij i =1 j =1 , nel caso si disponga di una tabella di n n ∑ (x − µ i contingenza per X e Y, oppure da cov XY = X )( yi − µY ) i =1 di una lista di n coppie di modalità per le due variabili. n , nel caso di disponga Ad esempio, si ipotizzi di calcolare la covarianza per le variabili Z “voto” e Y “altezza”; per poter applicare comodamente entrambe le formule, operiamo una modifica alla variabile Y: attribuiamo ad ogni unità statistica l’altezza centrale yi* dell’intervallo di appartenenza, per cui y i= y i* . Per l’applicazione della prima formula è necessario utilizzare la tabella di contingenza già costruita precedentemente e procedere come segue: Y (µ=172,38) 157,5 162,5 167,5 172,5 177,5 185 somma Σ Tabella di contingenza delle frequenze osservate Z (µ=21,3) 18 19 20 21 22 23 24 25 0 0 0 0 1 0 2 1 0 0 1 0 0 0 0 0 0 1 0 1 0 1 0 0 1 1 0 0 1 0 0 0 0 2 0 0 1 0 1 0 0 1 2 1 0 0 0 1 1 5 3 2 3 1 3 2 somma Σ 4 1 3 3 4 5 20 50 Il processo di misurazione In una nuova tabella vengono calcolate le differenze (yi-µY)*(zi-µZ) ponderate per le frequenze congiunte (i calcoli per esteso vengono svolti solo per le prime due colonne): Tabella per il calcolo del coefficiente ρ Z (µ=21,3) Y (µ=172,38) 157,5 162,5 167,5 172,5 177,5 185 Somma 18 19 0 (157,5-172,38)* (18-21,3)*0 0 (162,5-172,38)* (18-21,3)*0 0 (167,5-172,38)* (18-21,3)*0 -0,40 (172,5-172,38)* (18-21,3)*1 0 (177,5-172,38)* (18-21,3)*0 0 (185-172,38)* (18-21,3)*0 0 (157,5-172,38)* (19-21,3)*0 0 (162,5-172,38)* (19-21,3)*0 11,22 (167,5-172,38)* (19-21,3)*1 -0,28 (172,5-172,38)* (19-21,3)*1 -23,55 (177,5-172,38)* (19-21,3)*2 -29,03 (185-172,38)* (19-21,3)*1 20 21 22 23 24 25 0 0 -10,42 0 -80,35 -55,06 12,84 0 0 0 0 0 0 1,46 0 -8,30 0 0 0 0 0,08 0 0 0 0 0 3,58 0 13,82 0 -32,81 -3,79 0 0 0 46,69 Somma di tutte le celle somma -154,25 Inserendo la somma nella formula si ottiene un valore negativo della covarianza k cov XY = h ∑∑ ( y i − µY )( z j − µ Z ) ⋅ nij i =1 j =1 = n − 154,25 = −7,71. 20 Per l’applicazione della seconda formula, assai più agevole quando si disponga della matrice dei dati sotto forma di tante righe quanti sono i casi esaminati, è invece necessario procedere come segue: si aggiungono alla tabella della lista di dati due nuove colonne contenenti gli scarti delle singole modalità dalla corrispondente media (i calcoli vengono riportati solamente per le prime 5 unità statistiche): Voto 21,3 Altezza 172,38 Unità statistiche zi yi 1 19 177,5 2 19 172,5 3 22 172,5 4 18 172,5 5 6 7 8 9 10 11 24 20 21 19 20 21 22 157,5 162,5 185 177,5 185 167,5 157,5 media µ Scarti (zi-µZ) Scarti (yi-µY) (zi-µZ)*(yi-µY) -2,30 =(19-21,3) -2,30 =(19-21,3) 0,70 =(22-21,3) -3,30 =(18-21,3) 2,70 =(24-21,3) -1,30 -0,30 -2,30 -1,30 -0,30 0,70 5,13 =(177,5-172,38) 0,13 =(172,5-172,38) 0,13 =(172,5-172,38) 0,13 =(172,5-172,38) -14,88 =(157,5-172,38) -9,88 12,63 5,13 12,63 -4,88 -14,88 -11,79 =(-2,30*5,13) -0,29 =(-2,30*0,13) 0,09 =(0,70*0,13) -0,41 =(-3,30*0,13) -40,16 =(2,70*(-14,88)) 12,84 -3,79 -11,79 -16,41 1,46 -10,41 51 Il processo di misurazione 12 13 14 15 16 17 18 19 20 25 24 19 22 24 20 25 23 19 185 177,5 167,5 177,5 157,5 185 157,5 167,5 185 3,70 2,70 -2,30 0,70 2,70 -1,30 3,70 1,70 -2,30 12,63 5,13 -4,88 5,13 -14,88 12,63 -14,88 -4,88 12,63 somma 46,71 13,84 11,21 3,59 -40,16 -16,41 -55,04 -8,29 -29,04 -154,25 Inserendo la somma nella formula si ottiene, come calcolato precedentemente, cov XY = − 154,25 = −7,71. 20 Entrambe le formule portano ad un valore della covarianza tra Z e Y negativo, ciò significa che al crescere (decrescere) delle modalità di Z, le modalità di Y decrescono (crescono), facendo in modo che le due variabili siano legate da un rapporto di tipo inverso, Il coefficiente ρ di Bravais Pearson Il coefficiente di correlazione lineare ρ misura, come anticipato, l’intensità del legame lineare (interpretabile graficamente da una retta) tra due variabili quantitative X e Y, ovvero il grado di proporzionalità esistente tra X e Y, Il coefficiente di Bravais Pearson si calcola come rapporto tra la covarianza tra X e Y e il rapporto degli scarti quadratici medi, ρ XY = cov XY σ X ⋅σ y , In particolare, ρ assume valori compresi tra -1 (perfetta correlazione negativa: la relazione tra X e Y è di assoluta proporzionalità inversa e può essere perfettamente interpretata da una retta con pendenza negativa) e +1 (perfetta correlazione positiva: la relazione tra X e Y è di perfetta proporzionalità diretta e può essere perfettamente interpretata da una retta con pendenza positiva); se ρ=0 si dice che i due fenomeni sono incorrelati (non esiste legame lineare tra X e Y), È logico pensare che se due variabili X e Y sono indipendenti statisticamente (χ2=0) allora necessariamente si avrà che ρ=0, mentre non vale il contrario, Ritornando all’esempio precedente relativo alle variabili Z e Y, è possibile ottenere con un semplice calcolo il coefficiente di correlazione lineare: ρ ZY = covZY − 7,71 = = −0,35 , Questo valore indica che tra le due variabili σ Z ⋅σ Y 4,81 ⋅ 97,80 esiste un legame lineare negativo (dato dal segno negativo che già si ritrovava nella covarianza) piuttosto debole. 52 Il processo di misurazione 1.7.6 La retta di regressione Quando si opera su variabili entrambe quantitative è possibile andare al di là delle conoscenze sull’intensità e la eventuale natura (lineare/proporzionale) del legame tra X e Y sino ad identificare la forma funzionale di tale legame. Giungendo ad affermare non solo che Y è legato a X da una perfetta correlazione lineare positiva, ma anche che l’espressione matematica di tale relazione è, ad esempio, Y=4 X +2. E’ evidente che ciò rappresenta un grande salto di qualità. Infatti, la specificazione della relazione rende possibile estendere la conoscenza a tutte le coppie (x,y), anche a quelle che non sono state fornite dalla rilevazione. Ma come si arriva a tale specificazione? Innanzitutto va tenuto presente che le informazioni da cui si parte sono le n coppie del tipo: Unità statistica numero. 1 2 3 4 ecc. n Variabile X Variabile Y x1 x2 x3 x4 y1 y2 y3 y4 xn yn e che ognuna di tali coppie identifica, su un sistema di assi cartesiani, un punto di un’ipotetica funzione y = f(x). Ricordando che con f(x) si intende denotare qualunque forma di funzione, ad esempio: a+bx; ax2+bx+c; log (x+a); a+dx, e così via. Di solito, nel corsi elementari di matematica si parte da una funzione nota e si determinano le coordinate dei punti che appartengono ad essa: in pratica, data l’espressione della funzione (ad esempio y=3x-20) si fissa x e si ottiene il corrispondente y, ripetendo di volta in volta la scelta di x e il calcolo di y sino ad ottenere una tabella con un appropriato insieme di coppie/punti. In questo caso si tratta invece di muoversi nella direzione opposta: è nota la tabella delle coppie/punti (i dati statistici di base) e si vuole determinare la funzione cui tali punti possono appartenere. In generale si dovrebbero affrontare due problemi successivi. 1) Decidere il “tipo” di funzione cui i punti potrebbero appartenere (una retta, una parabola, un’esponenziale, una logistica, e così via), sapendo che ogni tipo di funzione ha una forma caratteristica che si modella in relazione ad alcuni parametri che ricorrono nella sua espressione analitica. Ad esempio, ogni retta (genericamente indicata come y = a + b x) assume andamenti diversi secondo il valore numerico dei parametri “b” (coefficiente angolare) e “a” (termine noto o intercetta). 2) Decidere il valore da assegnare ai parametri della funzione che si è scelta. Tale assegnazione deve rispondere al criterio di rendere il più possibile legittimo il ruolo della funzione come modello di ipotetica appartenenza dei “ punti di cui disponiamo”. Nel senso che, se la retta interpreta bene i punti di cui disponiamo, allora allorché si inserisce uno dei nostri valori di x nella funzione/retta ci si aspetta di ottenere (o quasi) il suo corrispondente valore di y. 53 Il processo di misurazione Nel caso specifico, se ci si limita a dare per scontata la scelta della retta come “funzione madre” dell’insieme di coppie/punti che si considerano, resta solo da deciderne i parametri A tale proposito, un valido criterio guida consiste nel ritenere che “la migliore retta sia quella che rende minima la somma delle differenze al quadrato tra i valori di yi realmente osservati e i corrispondenti valori che la retta stessa fornisce per i diversi valori di xi osservati (i=1,2,3,…n; essendo n il numero di punti che si considerano)”. La retta che risponde a tale requisito è nota come “retta di regressione o retta dei minimi quadrati” e i suoi parametri, “a” e “b”, si ottengono dalle relazioni: b = σxy / σ x e 2 a = µ y – [σxy / σ x ] µx 2 (dove σxy è un altro modo per indicare la covarianza Covxy) i cui termini – covarianza tra X e Y, varianza di X, e medie di X e di Y- sono calcolati a partire dalla matrice dei dati di base e con le usuali formule già viste. Pertanto, l’espressione finale della retta di regressione è la seguente: Y = [σxy / σ x] X + µy – [σxy / σ x ] µx 2 Ovvero: 2 Y = [σxy / σ x] [X - µx] + µy . 2 Resta tuttavia ancora da verificare se tale retta, pur essendo la “migliore”, è realmente idonea a svolgere il ruolo di “funzione madre” dell’insieme delle n coppie/punti che si considerano. Tale verifica avviene agevolmente mediante il calcolo dell’indice ρ2 ( che altro non è se non il quadrato del coefficiente di correlazione lineare e assume valori compresi tra zero e uno). In particolare, se ρ2 = σxy2 / [ σx2 σy2] è prossimo a 1 si può affermare che i dati confermano la bontà della retta di regressione come modello interpretativo del comportamento di Y al variare di X; se invece è prossimo a 0 è legittimo affermare che il “modello retta” poco si addice alla realtà del legame tra X e Y. Se ρ2 =0 tale legame potrebbe non esistere (perché Y si mantiene costante al variare di X) o potrebbe essere del tutto diverso da un legame di tipo lineare e, quindi, esprimibile con una retta. In quest’ultimo caso, conviene riprendere in esame il punto 1) e riflettere sulla scelta del tipo di funzione più idonea. Ad esempio, se si volesse esprimere, mediante una retta il legame tra il voto (variabile dipendente) espresso dalla variabile Z e l’altezza (variabile indipendente) espressa dalla variabile Y: Z=a+bY dai calcoli svolti precedentemente si dispone dei seguenti dati: µz = 21,30 54 Il processo di misurazione µy = 172,38 Cov z,y = σ z,y = -7,71 σ2y = 97,80 che conducono ai seguenti valori dei parametri a e b della retta di regressione: b = σzy / σ y = -7,71/97,80 = -0,0788 e a = µ z – [σzy / σ y ] µy = 21,30 – (-0,0788*172,38) = 34,88 2 2 da cui: Z = 34,88 – 0,0788 Y Tale retta dovrebbe consentire di esprimere i valori di Z (ossia i voti) anche in corrispondenza di quelle altezze che non sono state oggetto di osservazione diretta (non compaiono tra le 20 coppie di cui si dispone). Ad esempio, un soggetto alto esattamente 160 dovrebbe ottenere come voto: Z =34,88 – 0,0788 * 160 = 22,27. Questo se il modello della retta dovesse rispondere bene alla relazione tra Z e Y. In effetti, nel nostro esempio ciò non accade in quanto, come facile rilevare: ρ2 = (-0,35)2 = 0,1225 indica che la bontà di adattamento della (pur migliore) retta ai dati è scarsa. Per esprimere l’eventuale relazione tra Z e Y conviene dunque ipotizzare un diverso tipo di funzione matematica. 55 Bibliografia Bibliografia Abbagnano N. (1998) Dizionario di filosofia. Torino: UTET Baglio G, Materia E. (2006) Scienza, salute e complessità: per un’etica dell’incertezza. Tendenze Nuove; 1: 83-7. Bowler PJ, Morus IR. (2005) Making modern science. A historical survey. Chicago and London: The University of Chicago Press Carra L, Aprile S. (2007) Salute e complessità. Viaggio nei campi del sapere. Bologna, Il Mulino Cardano, Miceli, (1991) Il linguaggio delle variabili, Torino, Rosenberg & Sellier Corbetta P. La ricerca sociale: metodologia e tecniche. Voll. I, II, III, IV Bologna, Il Mulino Cosmacini G. (2008) La medicina non è una scienza. Breve storia delle sue scienze di base. Milano: Raffaello Cortina Editore Damasio A. (1995)L’errore di Cartesio. Milano: Adelphi Engel, G.L., 1977, The need for a new medical model: a challenge for biomedicine, Science, 196: 129-136. Foucault M. (1967) La parole e le cose. Milano: Rizzoli Foucault M. (2003) Ermeneutica del soggetto. Corso al Collège de France (1981-1982). Milano: Feltrinelli Giannetta P, Federspil G. (2008) Epistemologia dell’errore clinico. Arco di Giano 2008; 55: 1130. Husserl E. (2002) La crisi delle scienze europee e la fenomenologia trascendentale. Milano: Net Koiré A. (1953) From the closed world to the infinite universe. Baltimora: John Hopkins University Press Latour B, Woolgar S. (1979) Laboratory life. The social construction of scientific facts. Beverly Hills: Sage Materia E, Baglio G. (2008) Complessità aziendale e sensibilità postmoderna. In: Vanara F. (2008) Il governo delle Aziende Sanitarie. Bologna: Il Mulino Morin E. (1993) Introduzione al pensiero complesso, trad. it. Sperling & Kupfer, Milano Parisi G. (2007) Complessità, fisica e biologia. In: Mele A, Materia E, Baglio G, De Masi S, 56 Il processo di misurazione Popper K.R. (1997) I due problemi fondamentali della teoria della conoscenza, Milano Popper K.R. (1998) Logica della scoperta scientifica, Torino Einaudi Prigogine I, Stengers I. (1981) La Nuova alleanza. Metamorfosi della scienza, Einaudi, Torino Rorty R. (1999) Conseguenze del pragmatismo. In: Marchetti G. Il neopragmatismo. Firenze: La Nuova Italia Toulmin S. (1990) Cosmopolis. Milano: Rizzoli