Evidenza e incertezza
Prologo alle lezioni
Luca La Rocca1
Dipartimento di Scienze Fisiche, Informatiche e Matematiche
Università degli Studi di Modena e Reggio Emilia
Insegnamento di Statistica ed Elementi di Probabilità
Corso di Laurea in Informatica
Anno Accademico 2016/2017
1
http://personale.unimore.it/rubrica/dettaglio/llarocca
L. La Rocca (UNIMORE)
Evidenza e incertezza
SEP 2016/2017
1 / 16
The sexy job
Hal Varian, chief economist di Google,
intervistato da McKinsey & Company nell’ottobre 2008:
I keep saying the sexy job in the next ten years will be
statisticians. People think I’m joking, but who would’ve
guessed that computer engineers would’ve been the sexy job
of the 1990s?
...
Because now we really do have essentially free and
ubiquitous data. So the complementary scarce factor is the
ability to understand that data and extract value from it.
...
I think statisticians are part of it, but it’s just a part. You also
want to be able to visualize the data, communicate the data,
and utilize it effectively.
L. La Rocca (UNIMORE)
Evidenza e incertezza
SEP 2016/2017
2 / 16
Data samurai
Eric Schmidt, Chairman of Google:
“We are in the era of big data, and
big data needs statisticians to make
sense of it. The democratization of
data means that those who can analyze it well will win. Data is the sword
of the twenty-first century, those who
wield it well, the samurai”
Eric Schmidt & Jonathan Rosenberg
(2014). How Google Works. Grand
Central Publishing, New York.
immagine da Wikipedia (http://it.wikipedia.org/wiki/Samurai)
L. La Rocca (UNIMORE)
Evidenza e incertezza
SEP 2016/2017
3 / 16
Data science
The 25 Hottest Skills That Got People Hired in 2014:
1
Statistical Analysis and Data Mining
2
Middleware and Integration Software
3
Storage Systems and Management2
New Undergraduate Data Science Programs:
in the UK (University of Warwick, University of Nottingham)
and in the US (Winona State University, University of California
at Irvine, Northern Kentucky University, Ohio State University,
Miami University, University of Michigan) where the number
of undergraduate statistics degrees has nearly doubled
in the last four years (fastest-growing STEM degree)3
2
Linkedin Official Blog http://blog.linkedin.com/2014/12/17/
the-25-hottest-skills-that-got-people-hired-in-2014
3
Amstat News http://magazine.amstat.org/blog/2015/08/01/
new-undergraduate-data-science-programs-2
L. La Rocca (UNIMORE)
Evidenza e incertezza
SEP 2016/2017
4 / 16
An updated picture
The 25 Skills That Can Get You Hired in 2016:
1
Cloud and Distributed Computing (not recorded in 2014)
2
Statistical Analysis and Data Mining (↓ 1)
3
Marketing Campaign Management (↑ 9)
4
SEO/SEM Marketing (Search Engine Optimization/Marketing, ↑ 1)
5
Middleware and Integration Software (↓ 3)
6
Mobile Development (↑ 1)
7
Network and Information Security (↓ 3)
8
Storage Systems and Management (↓ 5)
9
Web Architecture and Development Frameworks (↓ 1)
10
User Interface Design (↑ 4)4
4
Linkedin Official Blog https://blog.linkedin.com/2016/01/12/
the-25-skills-that-can-get-you-hired-in-2016
L. La Rocca (UNIMORE)
Evidenza e incertezza
SEP 2016/2017
5 / 16
The data deluge
Nel 2013 IBM (http://www.ibm.com/big-data/us/en,
http://en.wikipedia.org/wiki/Big_data) stimava che:
Every day, 2.5 billion gigabytes of high-velocity data are
created in a variety of forms, such as social media posts,
information gathered in sensors and medical devices,
videos and transaction records.
La nostra capacità di memoria è circa un milionesimo di questo valore
(http://www.sizes.com/people/brain.htm):
Robert Birge (Syracuse University) who studies the storage
of data in proteins, estimated in 1996 that the memory
capacity of the brain was between one and ten terabytes,
with a most likely value of 3 terabytes.
Siamo però abili a riconoscere (interruzioni di) regolarità nei dati. . .
L. La Rocca (UNIMORE)
Evidenza e incertezza
SEP 2016/2017
6 / 16
45.0
Terremoti
+
44.9
+
+
+
+
+
44.8
+
+
+
+
44.7
Latitudine
+
+
+
44.6
+
+
+
+
44.5
+
+
9.0
9.2
9.4
9.6
+
9.8
10.0
Longitudine
L. La Rocca (UNIMORE)
Evidenza e incertezza
SEP 2016/2017
7 / 16
45.0
Una regione sicura
+
44.9
+
+
+
+
+
44.8
+
+
+
+
44.7
Latitudine
+
+
+
44.6
+
+
+
+
44.5
+
+
9.0
9.2
9.4
9.6
+
9.8
10.0
Longitudine
L. La Rocca (UNIMORE)
Evidenza e incertezza
SEP 2016/2017
8 / 16
0.4
# hierarchical clustering
X=cbind(Longitude,Latitude)
Tree=hclust(dist(X))
plot(Tree)
2
17
9
10
7
18
4
11
5
16
12
19
1
6
8
3
13
20
14
0.0
15
0.2
Height
0.6
0.8
1.0
Cluster Dendrogram
Data Points
hclust (*, "complete")
L. La Rocca (UNIMORE)
Evidenza e incertezza
SEP 2016/2017
9 / 16
44.8
44.7
44.5
44.6
Latitudine
44.9
45.0
Quattro sorgenti sismiche
9.0
9.2
9.4
9.6
9.8
10.0
Longitudine
L. La Rocca (UNIMORE)
Evidenza e incertezza
SEP 2016/2017
10 / 16
La tigre. . .
Tyger! Tyger! burning bright
In the forests of the night,
What immortal hand or eye
Could frame thy fearful symmetry?
William Blake (Songs of Experience, 1794)
L. La Rocca (UNIMORE)
Evidenza e incertezza
SEP 2016/2017
11 / 16
. . . che non c’è
# set.seed(1709)
Latitude = 44.5+0.5*runif(20)
Longitude = 9+1*runif(20)
Chance!
Some argue, plausibly, that we evolved to see a single cause
even when there is none, on the basis that it is better to be
safe than sorry, better to identify that pattern in the trees as
a tiger, better to run—far better—than to assume that what
we see is a chance effect of scattered light and shifting leaves
in the breeze, creating an illusion of stripes.
Michael Blastland & Andrew Dilnot (2008). The Tiger That Isn’t (Expanded Edition).
Profile Books, London.
L. La Rocca (UNIMORE)
Evidenza e incertezza
SEP 2016/2017
12 / 16
Segnale e rumore
Nate Silver5 è uno “statistico” americano divenuto celebre nel 2008 per
avere previsto correttamente 49 stati su 50 nelle elezioni presidenziali:
Biologically, we are not very different from our ancestors. But some
stone-age strengths have become information-age weaknesses.
...
Meanwhile, if the quantity of information is increasing by
2.5 quintillion bytes per day, the amount of useful information
almost certainly isn’t. Most of it is just noise, and the noise is
increasing faster than the signal.
...
We must become more comfortable with probability
and uncertainty. We must think more carefully about the
assumptions and beliefs that we bring to a problem.
5
Nate Silver (2012). The Signal and the Noise. Penguin, London.
Edizione italiana: Il Segnale e il Rumore, Fandango Libri (2013).
L. La Rocca (UNIMORE)
Evidenza e incertezza
SEP 2016/2017
13 / 16
Morale
Siamo geneticamente predisposti per scavare nei dati ed estrarne
informazioni (un talento che ovviamente possiamo sviluppare con lo
studio e la pratica) ma se vogliamo dare il giusto peso all’evidenza che
i dati forniscono dobbiamo riconoscerne la natura incerta e imparare a
ragionare in termini probabilistici (un’attività per la quale l’intuizione
non basta e che dunque necessita di formalizzazione)
⇒ un’introduzione prima alla probabilità e poi alla statistica,
basata sui primi sette capitoli del testo di riferimento:
Marco Boella (2010). Probabilità e Statistica per Ingegneria
e Scienze. Pearson Italia, Milano-Torino.
Dettagli nella pagina dedicata ai contenuti delle lezioni
http://www-dimat.unipv.it/luca/sep1617.htm
dove saranno disponibili anche le presenti diapositive.
L. La Rocca (UNIMORE)
Evidenza e incertezza
SEP 2016/2017
14 / 16
Practice, practice, practice!
L’esame tipicamente inizia con la risoluzione di un esercizio:
soluzioni a quelli del testo di riferimento disponibili online
http://www.pearson.it/opera/pearson/21-4121-probabilita_
e_statistica_per_ingegneria_e_scienze
nella pagina del libro a cura dell’editore (assieme ad altre risorse);
necessari gli strumenti di base dell’analisi matematica.
Calendario di massima degli esami:
3 appelli in gennaio/febbraio;
2 appelli in giugno/luglio;
1 appello in settembre.
L. La Rocca (UNIMORE)
Evidenza e incertezza
SEP 2016/2017
15 / 16
Per chi non si accontenta. . .
. . . di orientare lo studio all’esame:
R Core Team (2016). R: A Language and Environment for
Statistical Computing. R Foundation for Statistical Computing,
Vienna. URL https://www.r-project.org.
RStudio (https://www.rstudio.com)
Prossima lezione: funzionalità di base del software statistico R
nel contesto di una semplice applicazione statistica.
L. La Rocca (UNIMORE)
Evidenza e incertezza
SEP 2016/2017
16 / 16