I dati e
le previsioni
ovvero
la Matematica
dell’incertezza
J L.BORGES: La Bibioteca di Babele
“Quando si proclamò che la biblioteca
comprendeva tutti i libri, la prima impressione fu
di straordinaria felicità. Tutti gli uomini si
sentirono padroni di un tesoro intatto e segreto.
Non v’era problema personale o mondiale la cui
eloquente soluzione non esistesse: in qualche
scaffale.”
“Quei ricercatori dimenticavano che la possibilità
che un uomo trovi il suo, o qualche perfida variante
del suo, è sostanzialmente zero… alla speranza
smodata, com’è naturale, successe un’eccessiva
depressione. La certezza che un qualche
scaffale…..celava libri preziosi e che questi libri
preziosi erano inaccessibili, parve quasi
intollerabile”
L’abbondanza di informazioni può rovesciarsi nel suo
contrario: non basta avere accesso teorico ad una
informazione, occorre anche che tale informazione sia
effettivamente fruibile.
Statistica
Raccoglie e restituisce in
forma organizzata grandi
quantità di informazioni
Rende utilizzabili grandi quantità di informazioni,
teoricamente disponibili, ma di fatto difficilmente
gestibili, relative agli oggetti della sua indagine
la statistica ha esigenze di tipo:
Descrittivo:corrisponde
al bisogno di ogni comunità
di raccogliere dati sulle sue
caratteristiche e le sue
attività
Predittivo: fornendo
una fotografia del
passato e del presente,
aiuta a prevedere i
comportamenti futuri e a
compiere scelte in
mancanza di certezze
assolute.
Incertezza: si azzardano calcoli e proiezioni a partire da dati a volte essi
stessi non esenti da dubbio e comunque incompleti
Il 30% degli italiani preferisce la pastasciutta,
il 20% la carne;
il 15% il pesce;
il 10% la frutta;
il 25% il dolce
credulità acritica
scetticismo
Come si svolge il lavoro statistico?
Di quali fasi si compone?
Con quali problemi si scontra?
Lavoro statistico
• Definizione dei caratteri e della popolazione
oggetto dell’indagine;
• scelta degli strumenti di rilevazione;
• selezione del campione rappresentativo
• raccolta dati;
• loro elaborazione e rappresentazione.
In ogni fase occorre fare delle scelte
Conseguenze rispetto ai risultati
Es. Interviste:
•formulazione delle domande
•modalità di classificazione di
risposte anomale
•scelta del campione
rappresentativo.
Media aritmetica
• La media aritmetica di n numeri si calcola
sommando gli n numeri e dividendo il risultato per
n;
• è un valore di sintesi che riassume un insieme di
dati;
• ha un preciso ambito di significatività;
• è una media ponderata cioè i numeri dell’insieme
da sintetizzare pesano in misura frequenza con cui
ricorrono. proporzionale alla
Altri valori di sintesi
• Moda o valore normale
• è il numero che è presente con maggior frequenza
nell’insieme
• Mediana
• corrisponde al valore centrale della sequenza
ottenuta disponendo in ordine crescente i numeri
dell’insieme
Ogni valore di sintesi cancella il modo con cui viene a
determinarsi
Uno stesso valore può corrispondere a dati
articolati in modo diverso.
È importante misurare il grado di rappresentatività di un
valore di sintesi prescelto.
Scostamento medio
scarto quadratico medio
Frequenza e frequenza relativa
La frequenza è rappresentata dal numero delle unità
statistiche che presentano una certa caratteristica in una
determinata indagine.
Ad esempio in un’ indagine sugli individui con i capelli
biondi, la popolazione è rappresentata da tutti gli individui
su cui si fa l’indagine (es. gli i italiani).
La frequenza (assoluta) è il numero degli individui della
popolazione che hanno i capelli biondi; la frequenza
relativa è il numero degli individui che hanno i capelli
biondi rapportato a tutta la popolazione cioè al numero
totale degli individui.
Se la popolazione è composta da 100 individui e si rileva
che 30 di questi individui hanno i capelli biondi si ha :
FREQUENZA ASSOLUTA: 20
FREQUENZA RELATIVA: 20|100 = 20%
I numeri indici
Quando ci troviamo di fronte alla frequenza di un fenomeno
rilevato in luoghi diversi (serie territoriale) o in tempi diversi
(serie temporale) è più semplice calcolare dei rapporti prendendo una base comune di riferimento.
Spiegheremo meglio con un esempio:
l’esempio che segue mostra la popolazione lavorativa
nell’anno 2001 in alcuni Paesi europei.
ADDETTI
Italia
Francia
Germania Spagna
Lavoratori dipendenti dell’
industria e dei sevizi
23,8
28,5
22,6
9,0
Funzionari e impiegati
19,8
28,1
28,5
33,8
Lavoratori autonomi dell’
industria e dei servizi
14,6
6,6
5,8
11,1
Agricoltori e lavoratori
agricoli
4,2
3,9
1,7
7,0
Altri
37,6
32,8
41,4
39,1
Vogliamo fare un confronto tra le varie nazioni relativamente ai lavoratori
dipendenti dell’ industria e dei servizi. Se è semplice fare confronti a due a due,
meno semplice è fare dei confronti globali; è allora comodo riferirsi a uno dei due
dati come base di riferimento. Scegliamo allora l’Italia come base di confronto e
riferiamo tutti gli altri dati a questa base.
Poniamo uguale a 100 il dato di riferimento Italia; i valori degli altri paesi si
ottengono moltiplicando per 100 il quoziente del numero di addetti di ogni paese
con il valore reale della frequenza Italia:
28,5
Francia
22,6
x 100 = 119,75
Germania
23,8
9
Spagna
x 100 = 94, 96
23,8
x 100 = 37,82
23,8
Si ottiene così, relativamente al settore scelto
Addetti
Italia
Francia
Germania
Spagna
Lavoratori dipendenti dell’ industria e dei
servizi
100
119,75
94,96
37,82
I dati superiori al 100 indicano un incremento percentuale rispetto alla base scelta,
quelli inferiori al 100 indicano una diminuzione percentuale. Nel nostro caso i dati ci
dicono che in Francia i lavoratori dipendenti dell’ industria e dei servizi sono circa il
19,75% in più di quelli dell’ Italia, in Germania il 5,04% in meno e in Spagna il 62,18%
in meno.
Se ripetiamo gli stessi calcoli nel settore dell’ agricoltura otteniamo i seguenti
numeri
3,9
Francia
1,7
x 100 = 92,86
Germania
4,2
x 100 = 40,48
4,2
7
Spagna
x 100 = 166,67
4,2
Addetti
Italia
Francia
Germania
Spagna
Agricoltori e lavoratori
agricoli
100
92,86
40,48
166,67
I dati ottenuti ci dicono che in Francia c’è il 7,14% in meno e in Germania il 59,52%
in meno di lavoratori agricoli rispetto all’ Italia mentre in Spagna vi è il 66,67% in
più.
Possiamo ora dare la seguente definizione.
Si chiamano rapporti statistici indici o numeri indici, i
rapporti dei dati di una serie territoriale o temporale rispetto a
uno di essi preso come base di riferimento.
I numeri indici si ottengono dividendo l’ intensità in esame per l’
intensità base e moltiplicando il quoziente ottenuto per 100.
Concetti importanti
Distribuzione normale:
•si trova in tutti i fenomeni casuali
Correlazione (positiva o negativa)
•due variabili sono distribuite in modo che al crescere di
una cresce anche l’altra
•non conduce necessariamente ad una relazione di
causa effetto ( es. Statura- distanza da casa)
Interpolazione
si rilevano dati che misurano una relazione tra
grandezze:
Interpolazione: ricerca della funzione analitica che
approssima i dati nel modo migliore
•Metodo dei minimi quadrati: metodo che rende
minima la distanza dei punti della linea che
rappresenta il fenomeno
Retta interpolante
Trend= coefficiente
angolare dalla retta
La funzione
lineare
interpolatrice potrebbe non essere
•ma essere di 2° grado, un’iperbole, una curva
esponenziale
•è il fisico, lo statista, l’economista che seleziona la
formula che sembra meglio descrivere il fenomeno.
Probabilità?
•L’incertezza è condizione normale quando occorre
prendere decisioni
•siamo guidati quasi sempre da valutazioni di tipo
probabilistico
•è un tentativo di matematizzare i processi
inconsapevoli o intuitivi con cui attribuiamo una
determinata probabilità ad un evento
•nasce su sollecitazione di giocatori d’azzardo nel 1600
casi favorevoli
P( evento) 
casi possibili
•Probabilità che lanciando un dado venga il numero 2
•…estraendo una carta da un mazzo di 40 carte
questa sia un re
•se abbiamo lanciato 10 volte una moneta ottenendo
testa, all’undicesimo lancio è più conveniente puntare
su croce?
•E’ più facile indovinare l’ordine di arrivo in una gara a
cui partecipano 4 atleti o indovinare la seconda
lettera della trecentoquarantesima parola del terzo
capitolo di un libro di lettura?
Definizione classica
•eventi equiprobabili ( lancio di due monete)
TT
TC
CT
CC
•Probabilità che domani piova
•Probabilità che il primo
• dell’anno a Torino nevichi
Statistica
Definizione frequentista
Si basa su una stima A POSTERIORI
DIFETTO: la valutazione della probabilità dipende dal
numero di prove che si effettuano
Legge dei grandi numeri
Da un baule, contenente 5 paia di scarpe alla rinfusa,
si estraggono ,al buio, 3 scarpe.
Qual è la probabilità di trovare un paio di scarpe ben accoppiate ?
1/9
8/9
2/8
Probabilità=
6/8
1 2 8 3 1
   
9 8 9 9 3
Francesco Avolio
Classe V B