I dati e le previsioni ovvero la Matematica dell’incertezza J L.BORGES: La Bibioteca di Babele “Quando si proclamò che la biblioteca comprendeva tutti i libri, la prima impressione fu di straordinaria felicità. Tutti gli uomini si sentirono padroni di un tesoro intatto e segreto. Non v’era problema personale o mondiale la cui eloquente soluzione non esistesse: in qualche scaffale.” “Quei ricercatori dimenticavano che la possibilità che un uomo trovi il suo, o qualche perfida variante del suo, è sostanzialmente zero… alla speranza smodata, com’è naturale, successe un’eccessiva depressione. La certezza che un qualche scaffale…..celava libri preziosi e che questi libri preziosi erano inaccessibili, parve quasi intollerabile” L’abbondanza di informazioni può rovesciarsi nel suo contrario: non basta avere accesso teorico ad una informazione, occorre anche che tale informazione sia effettivamente fruibile. Statistica Raccoglie e restituisce in forma organizzata grandi quantità di informazioni Rende utilizzabili grandi quantità di informazioni, teoricamente disponibili, ma di fatto difficilmente gestibili, relative agli oggetti della sua indagine la statistica ha esigenze di tipo: Descrittivo:corrisponde al bisogno di ogni comunità di raccogliere dati sulle sue caratteristiche e le sue attività Predittivo: fornendo una fotografia del passato e del presente, aiuta a prevedere i comportamenti futuri e a compiere scelte in mancanza di certezze assolute. Incertezza: si azzardano calcoli e proiezioni a partire da dati a volte essi stessi non esenti da dubbio e comunque incompleti Il 30% degli italiani preferisce la pastasciutta, il 20% la carne; il 15% il pesce; il 10% la frutta; il 25% il dolce credulità acritica scetticismo Come si svolge il lavoro statistico? Di quali fasi si compone? Con quali problemi si scontra? Lavoro statistico • Definizione dei caratteri e della popolazione oggetto dell’indagine; • scelta degli strumenti di rilevazione; • selezione del campione rappresentativo • raccolta dati; • loro elaborazione e rappresentazione. In ogni fase occorre fare delle scelte Conseguenze rispetto ai risultati Es. Interviste: •formulazione delle domande •modalità di classificazione di risposte anomale •scelta del campione rappresentativo. Media aritmetica • La media aritmetica di n numeri si calcola sommando gli n numeri e dividendo il risultato per n; • è un valore di sintesi che riassume un insieme di dati; • ha un preciso ambito di significatività; • è una media ponderata cioè i numeri dell’insieme da sintetizzare pesano in misura frequenza con cui ricorrono. proporzionale alla Altri valori di sintesi • Moda o valore normale • è il numero che è presente con maggior frequenza nell’insieme • Mediana • corrisponde al valore centrale della sequenza ottenuta disponendo in ordine crescente i numeri dell’insieme Ogni valore di sintesi cancella il modo con cui viene a determinarsi Uno stesso valore può corrispondere a dati articolati in modo diverso. È importante misurare il grado di rappresentatività di un valore di sintesi prescelto. Scostamento medio scarto quadratico medio Frequenza e frequenza relativa La frequenza è rappresentata dal numero delle unità statistiche che presentano una certa caratteristica in una determinata indagine. Ad esempio in un’ indagine sugli individui con i capelli biondi, la popolazione è rappresentata da tutti gli individui su cui si fa l’indagine (es. gli i italiani). La frequenza (assoluta) è il numero degli individui della popolazione che hanno i capelli biondi; la frequenza relativa è il numero degli individui che hanno i capelli biondi rapportato a tutta la popolazione cioè al numero totale degli individui. Se la popolazione è composta da 100 individui e si rileva che 30 di questi individui hanno i capelli biondi si ha : FREQUENZA ASSOLUTA: 20 FREQUENZA RELATIVA: 20|100 = 20% I numeri indici Quando ci troviamo di fronte alla frequenza di un fenomeno rilevato in luoghi diversi (serie territoriale) o in tempi diversi (serie temporale) è più semplice calcolare dei rapporti prendendo una base comune di riferimento. Spiegheremo meglio con un esempio: l’esempio che segue mostra la popolazione lavorativa nell’anno 2001 in alcuni Paesi europei. ADDETTI Italia Francia Germania Spagna Lavoratori dipendenti dell’ industria e dei sevizi 23,8 28,5 22,6 9,0 Funzionari e impiegati 19,8 28,1 28,5 33,8 Lavoratori autonomi dell’ industria e dei servizi 14,6 6,6 5,8 11,1 Agricoltori e lavoratori agricoli 4,2 3,9 1,7 7,0 Altri 37,6 32,8 41,4 39,1 Vogliamo fare un confronto tra le varie nazioni relativamente ai lavoratori dipendenti dell’ industria e dei servizi. Se è semplice fare confronti a due a due, meno semplice è fare dei confronti globali; è allora comodo riferirsi a uno dei due dati come base di riferimento. Scegliamo allora l’Italia come base di confronto e riferiamo tutti gli altri dati a questa base. Poniamo uguale a 100 il dato di riferimento Italia; i valori degli altri paesi si ottengono moltiplicando per 100 il quoziente del numero di addetti di ogni paese con il valore reale della frequenza Italia: 28,5 Francia 22,6 x 100 = 119,75 Germania 23,8 9 Spagna x 100 = 94, 96 23,8 x 100 = 37,82 23,8 Si ottiene così, relativamente al settore scelto Addetti Italia Francia Germania Spagna Lavoratori dipendenti dell’ industria e dei servizi 100 119,75 94,96 37,82 I dati superiori al 100 indicano un incremento percentuale rispetto alla base scelta, quelli inferiori al 100 indicano una diminuzione percentuale. Nel nostro caso i dati ci dicono che in Francia i lavoratori dipendenti dell’ industria e dei servizi sono circa il 19,75% in più di quelli dell’ Italia, in Germania il 5,04% in meno e in Spagna il 62,18% in meno. Se ripetiamo gli stessi calcoli nel settore dell’ agricoltura otteniamo i seguenti numeri 3,9 Francia 1,7 x 100 = 92,86 Germania 4,2 x 100 = 40,48 4,2 7 Spagna x 100 = 166,67 4,2 Addetti Italia Francia Germania Spagna Agricoltori e lavoratori agricoli 100 92,86 40,48 166,67 I dati ottenuti ci dicono che in Francia c’è il 7,14% in meno e in Germania il 59,52% in meno di lavoratori agricoli rispetto all’ Italia mentre in Spagna vi è il 66,67% in più. Possiamo ora dare la seguente definizione. Si chiamano rapporti statistici indici o numeri indici, i rapporti dei dati di una serie territoriale o temporale rispetto a uno di essi preso come base di riferimento. I numeri indici si ottengono dividendo l’ intensità in esame per l’ intensità base e moltiplicando il quoziente ottenuto per 100. Concetti importanti Distribuzione normale: •si trova in tutti i fenomeni casuali Correlazione (positiva o negativa) •due variabili sono distribuite in modo che al crescere di una cresce anche l’altra •non conduce necessariamente ad una relazione di causa effetto ( es. Statura- distanza da casa) Interpolazione si rilevano dati che misurano una relazione tra grandezze: Interpolazione: ricerca della funzione analitica che approssima i dati nel modo migliore •Metodo dei minimi quadrati: metodo che rende minima la distanza dei punti della linea che rappresenta il fenomeno Retta interpolante Trend= coefficiente angolare dalla retta La funzione lineare interpolatrice potrebbe non essere •ma essere di 2° grado, un’iperbole, una curva esponenziale •è il fisico, lo statista, l’economista che seleziona la formula che sembra meglio descrivere il fenomeno. Probabilità? •L’incertezza è condizione normale quando occorre prendere decisioni •siamo guidati quasi sempre da valutazioni di tipo probabilistico •è un tentativo di matematizzare i processi inconsapevoli o intuitivi con cui attribuiamo una determinata probabilità ad un evento •nasce su sollecitazione di giocatori d’azzardo nel 1600 casi favorevoli P( evento) casi possibili •Probabilità che lanciando un dado venga il numero 2 •…estraendo una carta da un mazzo di 40 carte questa sia un re •se abbiamo lanciato 10 volte una moneta ottenendo testa, all’undicesimo lancio è più conveniente puntare su croce? •E’ più facile indovinare l’ordine di arrivo in una gara a cui partecipano 4 atleti o indovinare la seconda lettera della trecentoquarantesima parola del terzo capitolo di un libro di lettura? Definizione classica •eventi equiprobabili ( lancio di due monete) TT TC CT CC •Probabilità che domani piova •Probabilità che il primo • dell’anno a Torino nevichi Statistica Definizione frequentista Si basa su una stima A POSTERIORI DIFETTO: la valutazione della probabilità dipende dal numero di prove che si effettuano Legge dei grandi numeri Da un baule, contenente 5 paia di scarpe alla rinfusa, si estraggono ,al buio, 3 scarpe. Qual è la probabilità di trovare un paio di scarpe ben accoppiate ? 1/9 8/9 2/8 Probabilità= 6/8 1 2 8 3 1 9 8 9 9 3 Francesco Avolio Classe V B