MODELLI NON DETERMINISTICI (rifer. a fenomeni aleatori, casuali): probabilità e statistica. La PROBABILITÀ si occupa della misura dell’incertezza dei fenomeni aleatori, cioè dei quali si conosce l’ambiente in cui sono definiti, si conoscono le regole, ma, nonostante tutto, non si può conoscere con certezza l’esito di ogni esperimento (prova, tentativo; es: lancio un dado), cioè non si può sapere in anticipo se un evento (ciascuno dei possibili risultati di un esperimento; es : esce il numero 3) si è verificato o no (si verificherà o no). Ci sono tre definizioni di probabilità, con le quali copriamo tutti i casi possibili: Classica o Matematica, Frequentista o Statistica, Soggettiva. Def.Classica : La probabilità di un evento si ottiene dividendo il numero dei casi favorevoli f per il numero n dei casi possibili : p=f/n Def.Frequentista: (su un grande numero di prove) La probabilità di un evento si ottiene dividendo il numero dei successi (prove favorevoli) f per il totale n delle prove effettuate : p = f / n Def. Soggettiva: (dopo aver acquisito informazioni) La probabilità di un evento si ottiene dividendo la somma s che uno è disposto a pagare, per ricevere una somma stabilita S, per la somma S suddetta : p=s/S Per determinare la probabilità di eventi complessi ci sono due principi fondamentali, che poi danno origine al teorema di Bayes (che per ora non prenderemo in considerazione) : Principio delle Probabilità Totali: per eventi INCOMPATIBILI: p(A o B) = p (A) + p(B) per eventi COMPATIBILI: p(A o B) = p (A) + p(B) – p (A e B) Principio delle Probabilità Composte: per eventi INDIPENDENTI: p(A e B) = p (A) * p(B) per eventi DIPENDENTI: p(A e B) = p (A) * p(B | A) (B | A = B condizionato da A) Due eventi si dicono incompatibili se non si possono presentare insieme (contemporaneamente sulla stessa prova); due eventi si dicono indipendenti se la probabilità del secondo non è modificata dal fatto che il primo evento è avvenuto. ---------------------------------------------------------------------------------------------------------------------------------- Presentazione della STATISTICA La statistica è sorta in tempi antichissimi, fin dai primi insediamenti umani aventi una semplice organizzazione sociale. Si trovano documenti di rilevazioni di persone e di terreni nei nuraghi sardi e nei monumenti egiziani più antichi. Esistono notizie relative a rilevazioni statistiche fatte eseguire dall'imperatore cinese Yu, più di 4000 anni fa, allo scopo di ottenere notizie precise sulla situazione dell'agricoltura in ogni provincia, e quindi di poter ripartire equamente le imposte. Presso i Romani, Servio Tullio istituì la prima forma di censimento, chiamato allora <<Census>>, che era effettuato ogni cinque anni e serviva a conoscere il numero dei cittadini, l'ammontare dei loro beni, l'andamento delle nascite e delle morti. Possiamo però affermare che solo nel secolo XVII, in seguito alle grandi scoperte matematiche, nacque la Statistica come disciplina a sé stante e, inizialmente, finalizzata all'espressione di fenomeni riguardanti gli Stati. Nel XVIII e nel XIX secolo, grazie all'introduzione di metodi matematici e al <<Calcolo delle Probabilità>>, la statistica ebbe notevoli impulsi e il suo campo delle applicazioni andò ampliandosi in quanto si capì come utilizzare un insieme d'informazioni allo scopo di ricercare le cause del manifestarsi di molti fenomeni. Fra i numerosi studiosi che hanno contribuito allo sviluppo della statistica possiamo ricordare il belga Adolfo Quetelet (1796-1874) che ha sostenuto il principio secondo cui: <<le leggi che governano la Società sono fisse e immutabili, come quelle che governano i corpi celesti ed esistono fuori dal capriccio degli uomini>>. Numerose sono state, nel corso del tempo, le definizioni della statistica perché c'era chi si limitava a considerarla solo un metodo, chi invece una scienza. Attualmente si possono dare varie definizioni di statistica e fra esse ci pare interessante quella proposta da B. Giardina: <<La statistica, in senso moderno, è propriamente l'applicazione dei metodi scientifici alla programmazione della raccolta dei dati, alla loro classificazione, elaborazione, analisi e presentazione e all'inferenza di conclusioni attendibili da essi>>. Il 1 campo dell'indagine statistica si è ampliato in modo eccezionale e i metodi statistici hanno trovato applicazione, oltre che in demografia, in moltissime discipline: economia, sociologia, fisica, biologia, genetica, psicologia. Nelle industrie dei paesi a tecnologia avanzata (Stati Uniti d'America e Giappone) si fa giornalmente uso di modelli statistici per rilevare, attraverso PC e durante i processi di trasformazione della materia, eventuali variazioni intervenute nel processo. Inoltre, il controllo statistico della qualità si avvale delle moderne tecniche di campionamento e dei risultati delle elaborazioni effettuate dal PC. È consuetudine suddividere la statistica in: statistica descrittiva, che ha lo scopo di raccogliere e di elaborare i dati per descrivere fenomeni collettivi e di massa; statistica induttiva (o inferenza statistica), che si occupa dei metodi che permettono di stimare le caratteristiche di un fenomeno collettivo partendo dall'analisi delle caratteristiche di un campione. Generalità L'indagine statistica si basa sull’ osservazione dei fenomeni che possono manifestarsi in svariati modi. Prima d'iniziare l'esame del metodo statistico vediamo alcuni concetti generali. Fenomeni tipici, atipici e collettivi In generale, per fenomeno intendiamo tutto ciò che capita intorno a noi o che noi stessi provochiamo. Possiamo distinguere fra fenomeni naturali (come il clima, il tramonto del sole, le onde del mare) e fenomeni riprodotti in laboratorio. Infiniti sono i fenomeni a cui possiamo assistere, tuttavia possiamo affermare che esistono alcuni fenomeni che presentano uniformità nel loro comportamento e tali che poche osservazioni ci permettono d'individuarne tutte le caratteristiche. Ognuno di noi ha osservato che qualsiasi corpo, indipendentemente dalle sue dimensioni e dalla sua forma, abbandonato ad una certa altezza, cade verticalmente verso il basso a causa della forza di gravità terrestre. Tutti i fenomeni che si presentano costantemente con le stesse caratteristiche sono chiamati fenomeni tipici. D'altra parte esistono dei fenomeni che si manifestano ogni volta con caratteristiche diverse e per i quali è difficile fare delle previsioni sul loro comportamento. Pensiamo, ad esempio, ai fenomeni meteorologici, che non sempre permettono di fare in anticipo delle previsioni sicure sulle condizioni del tempo nei giorni successivi, e che quindi possono essere definiti fenomeni atipici. Se consideriamo, invece, i fenomeni sociali quali ad esempio le nascite, i matrimoni, le migrazioni, possiamo affermare che non è possibile stabilire delle leggi generali, se limitiamo il nostro studio ad un singolo caso, come invece avviene per i fenomeni tipici. Possiamo però affermare che se si effettuano delle osservazioni molto numerose su tali fenomeni, essi rivelano determinate caratteristiche uniformi, per cui si può concludere che, pur essendo singolarmente atipici, presentano, considerati collettivamente, una tipicità di comportamento che ci permette di studiare le leggi che li governano. I fenomeni di questo tipo sono chiamati fenomeni collettivi. Il metodo statistico costituisce il metodo induttivo per eccellenza perché è fondato sull'analisi di fenomeni collettivi allo scopo di ricavare, pur nella varietà delle singole manifestazioni, le leggi soggiacenti ai fenomeni stessi, o almeno di evidenziare eventuali regolarità, in modo da poter trarre previsioni relative al comportamento futuro. In sintesi: La STATISTICA si occupa di valutazioni (attraverso tecniche adatte) su fenomeni collettivi, cioè avvenimenti, soggetti od oggetti aventi uno o più caratteri molto variabili e distribuiti su una vasta popolazione. Popolazione: insieme di unità statistiche (semplici: persone, bulloni, auto; o composte: regioni, famiglie, scolaresche, comuni, …) cioè di elementi semplici che posseggono il carattere oggetto di studio 2 Descrittiva: che si riferisce a tutta la popolazione - Induttiva : che si riferisce solo ad una parte della popolazione (campione: ampiezza del campione-casualità-stratificazione) per risparmiare tempo e denaro. Fasi: a- QUAL E’ IL PROBLEMA – determinazione del fenomeno che si vuole studiare ( o dei due fenomeni da confrontare ) – dei caratteri con cui esso si manifesta e delle corrispondenti modalità 1. qualitative (serie): espresse da sostantivi o aggettivi; sconnesse o ordinate;rappresentata da una mutabile statistica. 2. quantitative (seriazione): rappresentata da una variabile statistica; espresse da numeri: discrete (numerabili) o continue (misurabili) – individuazione della popolazione statistica (es: giovani italiani di 28-30 anni) su cui osservare il fenomeno (es: titolo di studio) (es2: peso) (…) b- RACCOLTA DI INFORMAZIONI IN MODO CORRETTO – rilevazione (es: telefonata, intervista, questionario,..) dei dati statistici grezzi, cioè delle modalità e delle frequenze con cui esse compaiono nell’indagine(es: nessuno, licenza elementare, licenza media, diploma, laurea, specializzazione) (es2: tutte le misure di pesi tra 45 e 120 kg) c- COSTRUZIONE DEL MODELLO MATEMATICO e sua ELABORAZIONE – spoglio dei dati e loro rappresentazione mediante tabelle (classificazione) e grafici (grafico a torta per i titoli di studio; diagramma a canne d’organo per i pesi suddivisi in classi di 15 kg) – (eventuale studio dello stesso carattere sul secondo fenomeno) – elaborazione ( medie, scarti medi, grafici e altri indici) e interpretazione dei risultati ( si formulano ipotesi e si cercano relazioni matematiche (equazioni e funzioni) che approssimino il più possibile la situazione reale d- CONTROLLO E AGGIUSTAMENTO DEL MODELLO – feedback (controllo, sulla popolazione, della bontà del modello matematico costruito) Esempio1: Prendiamo in considerazione i voti di 3 allievi in cinque prove scritte di Storia. Il calcolo della media aritmetica M = (x1 + x2 + … + xn ) / n (comunque vedi più avanti, dove sono illustrati i 4 tipi di media) ci permette di sintetizzare una quantità di dati, ma dall’altro riduce l’informazione racchiudendo tanti valori in un solo ‘dato’, rende simili situazioni che proprio simili non sono: 1^ prova 2^ prova 3^ prova 4^ prova 5^ prova MEDIA Allievo 1 3 4 5 9 9 6 Allievo 2 6 6 6 6 6 6 Allievo 3 2 4 7 8 9 6 Per ridurre la perdita di informazioni, si ricorre allo studio della variabilità del fenomeno. Variabilità è la tendenza di un fenomeno ad assumere modalità diverse fra loro. Indici statistici di variabilità ( o dispersione): Campo di variazione o escursione o range R • Varianza σ 2 • Scarto quadratico medio σ Permettono di valutare le disuguaglianze dei dati rilevati in relazione al loro scostamento o dispersione da una media( che di solito è la media aritmetica) . • Campo di variazione o range R (R= x max - x min ) Attenzione tale indice presenta due grossi difetti: 1) dipende esclusivamente dai valori massimo e minimo registrati, senza considerare i valori intermedi; 2) su di esso influisce pesantemente la presenza anche di un solo valore anomalo. Esempio. Dati: 1, 2, 2, 4, 5, 1, 1, 3, 4, 13 il campo di variazione è: R=13-1=12 3 A parità di altre condizioni, quanto più alta è la variabilità di un fenomeno rilevata con gli indici di dispersione, tanto meno significativo è l'uso della media aritmetica per definire sinteticamente una distribuzione. • Varianza La varianza è la media aritmetica dei quadrati degli scarti dalla media, σ 2 (sigma quadro). 2 Es. 1 allievo : 2 x1 M 2 x2 M 2 ... xn M 2 n 3 62 4 62 5 6 2 9 62 2 8 5 • Scarto quadratico medio (media quadratica degli scarti) Lo scarto quadratico medio (sqm) σ o deviazione standard è la radice quadrata (positiva) della varianza. 1^ prova 2^ prova 3^ prova 4^ prova 5^ prova MEDIA sqm o Varianza Deviazione standard Allievo 1 3 4 5 9 9 6 8 2,83 Allievo 2 6 6 7 6 5 6 0,5 0,71 Allievo 3 2 4 7 8 9 6 8,5 2,92 È una misura della dispersione del punteggio intorno al punteggio medio. Un basso valore della deviazione standard indica che i punteggi sono concentrati intorno alla media e che le competenze degli studenti sono omogenee; al contrario una deviazione standard alta indica che le competenze degli studenti sono disomogenee. Il coefficiente di variazione è dato dal rapporto tra deviazione standard e media: V = / 100). Coeff.variazione allievo1 = 2,83 / 6 * 100 = 47,17 % (non buono) Coeff.variazione allievo2 = 0,71 / 6 * 100 = 11,83 % (perfetto!) Coeff.variazione allievo3 = 2,92 / 6 * 100 = 48,67 % (non buono) (moltiplicato per Se supera il 35% indica una variabilità eccessiva, un po’ fuori dai parametri di normalità! Se supera il 50% vuol dire che la media aritmetica non è un indice corretto!(Allora ci si rivolge alla moda o alla mediana) La deviazione standard σ fornisce un'indicazione numerica di quanto i dati siano lontani dalla media. Quando i dati sperimentali sono molti, raccogliendoli in un istogramma (diagramma a barre: terza figura), viene approssimano per difetto il profilo di una curva detta Gaussiana, dal nome del matematico Carl F. Gauss (1777-1855). Per una Gaussiana, è possibile dimostrare che nell'intervallo: 4 ( - < < + ) cade il 68.27% delle misure rilevate ( -2< < + 2 ) cade il 95.45% delle misure rilevate; ( -3< rilevate. + 3 ) cade il 99.73% delle misure < Esempio2: Agli studenti (23) di una quinta classe del Liceo Classico, a giugno, viene chiesto da uno studente del terzo anno: quanti libri hai letto quest’anno? Dati (risposte degli studenti in ordine alfabetico) grezzi: 2,3,7,12,2,7,3,12,2,2,2,7,12,12,7,3,3,2,7,7,7,7,12. Dati ordinati: 2,2,2,2,2,2,3,3,3,3,7,7,7,7,7,7,7,7,12,12,12,12,12. Tabella di frequenze: media (modalità dei) dati frequenze Frequenze Relative Freq.percentuali scarti 6 2 6 6/23 26% –4 3 4 4/23 17,4% –3 7 8 8/23 34,8% 1 12 5 5/23 21,8% 6 Si dice frequenza (assoluta) di una modalità il numero di volte in cui essa compare, cioè, per esempio, quante volte si presenta quel numero. Frequenza relativa è uguale alla frequenza assoluta divisa per il totale dei dati (o delle prove) Media aritmetica (ponderata) = (2 *6 + 3 * 4 + 7 * 8 + 12 * 5) / 23 = 6,08 ( ≈ 6 : non esiste tra i dati!) Moda = 7 (quello con la frequenza più alta) Mediana (il dodicesimo termine, che è il termine centrale) = 7 (esiste tra i dati perché sono dispari) Rispetto alla prima tabella abbiamo i seguenti valori di dispersione: Scarto medio semplice (o quadratico) (cioè quanto i dati sono lontani dalla media) = 3,2 (o 3,7) (opp. 3,2 / 6,08= 52,7%) (o V = / =3,7 / 6,08= 60,85 %) Dato che ha senso parlare della SOMMA ( o della globalità ) DEI DATI, faccio il grafico a torta (= diagramma circolare) per vedere meglio le percentuali o le frequenze relative. Se ci fosse stato di mezzo il tempo (serie storica) avrei fatto un grafico a poligonale o cartesiano, per vedere come il fenomeno cambia al passare del tempo (qui non ha nessun senso fare la somma dei tempi o dei dati del fenomeno, perché quello che ci importa è la relazione che c’è tra i dati e il tempo, cioè come cambiano i dati al passare del tempo) Ora supponiamo di voler confrontare questa classe con una quinta ragioneria (18 studenti): ricomincio l’indagine da capo su una nuova popolazione di studenti, con le stesse modalità (intervista diretta anonima fatta da uno studente del 3°), elaboro ( tabella, medie, scarti,.. ) e confronto e cerco di interpretare i risultati. Eventualmente, se voglio fare una indagine un po’ più seria, prendo come campione di ogni scuola almeno cinque o sei classi scelte con criterio (età, professori di italiano, paesi di provenienza degli studenti, … ) e ricomincio l’indagine sulle due scuole. Se i dati fossero molti e molto diversi tra loro (o se il fenomeno fosse continuo), sarebbe dispersivo lasciare i dati singoli e converrebbe raggrupparli in classi (pur sapendo che dai soli dati così raggruppati non sarà più possibile ricavare informazioni sui dati singoli): di queste classi useremo, per fare i calcoli, il loro valor medio, cioè il valore centrale di ogni classe. Dati (risposte di 300 studenti presi in ordine alfabetico) grezzi: 1,2,7,5,9,4,4,5,6,8,8,10,5, …. etc 5 Dati ordinati(qui solo la decima parte): 1,2,2 – 4,4,4,4,5,5,5,5,6,6,6,6,6,6,6 – 7,7,7,8,8,8,8,8,8,9 – 11,12 media Classi di dati val. centrale dei dati frequenze scarti 6,1 1-3 2 30 – 4,1 4-6 5 150 – 1,1 7-9 8 100 1,9 10-12 11 20 4,9 Per avere informazioni in modo sintetico ed efficiente usiamo dei particolari valori chiamati INDICI STATISTICI, oltre ai grafici, naturalmente, ed alle tabelle di frequenze: Gli indici centrali sono dei valori (numeri!) che per la loro posizione(MEDIANA, quartili) o per il loro significato (MEDIE o MODA) danno informazioni sintetiche importanti sui dati statistici. Essi aiutano a limitare gli effetti degli errori; permettono di confrontare distribuzioni relative allo stesso fenomeno, ma riferite a campioni o popolazioni diverse; permettono di seguire come varia il fenomeno nel tempo. Gli indici di dispersione o variabilità (campo di variazione, scarti e scarto medio, differenze medie, etc …) sono valori che indicano come i dati sono distribuiti intorno ai rispettivi indici centrali stabiliti. MEDIA (M) = Secondo A.L.Cauchy possiamo chiamare Media di un insieme qualsiasi valore compreso tra il minimo e il massimo; secondo O.Chisini invece la Media è un invariante, cioè quel valore che assumerebbero i dati se fossero equamente distribuiti, cioè se fossero tutti uguali. Sono state individuate quattro tipi di medie utili. Allora diremo, con Chisini, che se un valore sostituito ai dati: ne lascia inalterata la somma, quel valore è la Media ARITMETICA: (n= f1+ f2 + … + fn) (m.a. semplice) n * M = x1 + x 2 + … + xn da cui M = (x1 + x2 + … + xn ) / n (m.a. ponderata) n * M = x1*f1+ x2*f2 + … + xn*fn da cui M = (x1*f1+ x2*f2 + … + xn*fn) / n ne lascia inalterato il prodotto, è la Media GEOMETRICA: (n= f1+ f2 + … + fn) (m.g. semplice) Gn = x1 * x2 * … * xn da cui G = n√(x1 * x2 * … * xn) n f1 f2 fn (m.g. ponderata) G = x1 * x2 * … * xn da cui G = n√(x1f1 * x2f2 * … * xnfn) ne lascia inalterata la somma dei quadrati, è la Media QUADRATICA: (n= f1+ f2 + … + fn) (m.q. semplice) n * Q2 = x12 + x22 + … + xn2 da cui Q = √[(x12 + x22 + … + xn2 ) / n] (m.q. ponder.) n * Q2 = x12 * f1+ x22 * f2 + … + xn2 * fn da cui Q = √[(x12 * f1+ x22 * f2 + … + xn2 * fn) / n] ne lascia inalterata la somma dei reciproci, è la Media ARMONICA: (m.a.sempl.) n * 1/A = 1/x1 + 1/x2 + … + 1/xn da cui 1/A = (1/x1 + 1/x2 + … + 1/xn ) / n (m.a.pond.)n * 1/A = 1/x1*f1+ 1/x2*f2 + … + 1/xn*fn da cui 1/A = (1/x1*f1+ 1/x2*f2 + … + 1/xn*fn) / n quindi A = n / (1/x1*f1+ 1/x2*f2 + … + 1/xn*fn) Per quanto riguarda gli scarti: facendo la loro media, presi così come sono, si ottiene ZERO. facendo la media dei loro valori assoluti, si ottiene lo scarto semplice medio s (=sc. medio assoluto o lineare) facendone la media quadratica si ottiene (!) lo scarto quadratico medio σ (molto importante perché presente nei ritmi di crescita e di vita degli esseri viventi!) Tutto questo quando si tratta di un solo carattere ( es. voto in italiano degli alunni della classe 5A igea). Quando invece si tratta di due caratteri (voto in italiano e in economia aziendale) riferiti alla stessa popolazione (5A) o se si vuole studiare lo stesso carattere su due popolazioni diverse (voto in italiano della 5° ragioneria e della quinta liceo classico di cui sopra), o sulla stessa popolazione a distanza di tempo, allora o si confrontano semplicemente gli indici (relativi) trovati o intervengono anche altri concetti : 6 interpolazione (estrapolazione o perequazione) statistica e retta di regressione connessione tra mutabili statistiche (colore degli occhi e dei capelli) o tra una mutabile ordinata e una variabile (titolo di studio e stipendio) correlazione tra variabili statistiche (altezza e peso della stessa popolazione) correlazione (lineare) con l’indice di Bravais-Pearson e si trova un buon aiuto nella rappresentazione cartesiana. Poi ci sono i numeri indici, di cui parleremo più avanti. 7 Elenco di indici, tassi, ecc. usati nella pratica: Demografia o Tasso di mortalità, Tasso di natalità, Tasso di fecondità totale, Tasso di nuzialità o Piramide delle età, indice di vecchiaia, indice di sostituzione, indice di dipendenza o Tasso di immigrazione, Tasso di emigrazione, indice di mobilità o Popolazione residente, Popolazione presente o Tavola di mortalità (uno strumento che produce un insieme di indicatori demografici) Economia o Tasso d'inflazione o Prodotto interno lordo e altri aggregati della Contabilità Nazionale (vedasi Statistica economica) Mercato del lavoro o tasso di disoccupazione, tasso di occupazione, tasso di attività,... o Occupazione Sanità, Epidemiologia o Tasso di morbosità Istruzione o Tasso di scolarità, o Tasso di maturità, Tasso di ripetenza, o Tasso di abbandono scolastico