Progetto di statistica

annuncio pubblicitario
POLITECNICO DI MILANO
PROGETTO DI PROBABILITA' E STATISTICA
A.A. 2012/2013 prof. E.L.Piazza
Titolo:
L'UNIVERSITA' È MALATA?
Componenti:
Aquino Marco (responsabile progetto)
Barducci Marco
Caliò Otello Marco
Indice:
 Descrizione e obiettivi
 Statistica descrittiva
 Statistica Inferenziale
 Regressione
 Conclusione
Descrizione e obiettivi:
In questo elaborato abbiamo deciso di trattare un argomento che ci
riguarda in prima persona e che, a nostro parere, è spesso tenuto fuori dalle
notizie di primo piano. Stiamo parlando dell'andamento allarmante del
numero di immatricolazioni nelle università del nostro Paese.
Il nostro progetto si suddivide in tre sezioni:
Nella prima parte (di statistica descrittiva) analizziamo i numeri a livello
nazionale di iscritti agli atenei dal 1977 ad oggi suddividendo il nostro
campione in classi e prestando attenzione ad alcuni indici statistici.
Successivamente focalizziamo la nostra attenzione su come l'andamento
degli immatricolati dell'ultimo decennio si manifesta differentemente tra le
varie regioni italiane (Lombardia, Campania, Calabria, Friuli Venezia
Giulia).
Nella seconda parte (di statistica inferenziale) verifichiamo ,utilizzando i
test noti, se i nostri dati a disposizione seguono una qualche precisa
distribuzione.
Nell'ultima parte ci occupiamo della regressione.
Seguiranno infine valutazioni personali.
STATISTICA DESCRITTIVA
Il dataset:
Il nostro dataset ricavato da fonti dell'Istat è composto da 36 dati. Ad ogni
anno è associato il numero di studenti universitari immatricolati sul
territorio nazionale.
Anno
Numero immatricolati
1977/1978
1978/1979
1979/1980
1980/1981
1981/1982
1982/1983
1983/1984
1984/1985
1985/1986
1986/1987
1987/1988
1988/1989
1989/1990
1990/1991
1991/1992
1992/1993
1993/1994
1994/1995
1995/1996
1996/1997
1997/1998
1998/1999
1999/2000
2000/2001
2001/2002
2002/2003
2003/2004
2004/2005
2005/2006
2006/2007
2007/2008
2008/2009
2009/2010
2010/2011
2011/2012
2012/2013
216643
233246
226316
224596
210713
212203
237568
236779
225979
278692
240539
261249
281170
303419
321601
328469
345238
324869
320348
317218
305060
295027
271893
280526
316288
332160
338482
336725
320670
308194
306952
293503
297383
289714
280144
268892
*fonti: www.anagrafe.miur.it/php57home.php , www.istat.it
Grafici ed indici statistici:
Il primo grafico mostra l'andamento degli immatricolati dal 1972 al 2013.
Possiamo osservare che a partire dagli anni ottanta vi è stato un notevole
incremento di immatricolati. Registriamo il picco massimo nel 1993 e
notiamo che dal 2006 è in corso una forte diminuzione di iscritti, dato
allarmante e che a nostro parere è riconducibile alla forte depressione
economica degli ultimi anni.
Di seguito riportiamo i principali indici statistici.
INDICI
numero dati
media
varianza
dev. standard
mediana
massimo
minimo
range
curtosi
asimmetria
VALORI
36
286604,666666667
1335859351,66667
36549,4097307558
291609
345238
210713
134525
-0,6100876819
-0,4378250281
Avendo a disposizione 36 dati la formula di Sturges ci suggerisce di
suddividere il campione in k=1+ln(36)/ln(2) classi per poter visualizzare
meglio le frequenze assolute su questo modello di osservazione. K=6.
Tabella con le nuove classi e le frequenze assolute osservate relative ai 36
dati campionari.
classi
valore centrale frequenza assoluta
210713/233134
221923
3
233134/255555
244344
4
255555/277976
266765
6
277976/300397
289186
9
300397/322818
311607
8
322818/345238
334028
6
Tracciamo l'istogramma relativo agli immatricolati nazionali con la
suddivisione in classi effettuata.
Box Plot:
Tracciamo adesso un altro grafico significativo che ci permette di
visualizzare la concentrazione dei nostri dati: il Box Plot.
Calcoliamo tutti i valori necessari.
BOX-PLOT
max
min
media
mediana
Q1
Q3
IQR
Q1-1.5IQR
Q3+1.5IQR
baffo inf
baffo sup
Q1-b_inf
Q2-Q1
Q3-Q2
outlier
b_sup-Q3
345238
210713
286604,6666667
291608,5
262546,5
318000,5
55454
179365,5
401181,5
210713
345238
51833,5
29062
26392
27237,5
Tutti i nostri dati sono compresi tra Q1-1,5IQR e Q3+1,5IQR, quindi il
baffo inferiore e baffo superiore corrispondono rispettivamente al valore di
minimo e di massimo. Proprio per questo motivo non vi sono valori
Outlier.
Si nota che i dati tendono a disperdersi maggiormente nei valori inferiori a
Q1 e a disporsi equamente negli intervalli Q3-Q2, Q2-Q1.
Focus sulle regioni:
Dall'analisi effettuata su scala nazionale abbiamo riscontrato una
preoccupante diminuzione degli immatricolati negli atenei italiani dal 2007
in poi, periodo che ,curiosamente, corrisponde all'inizio della crisi
economica che ha portato nel Bel Paese un notevole aumento della
disoccupazione, soprattutto giovanile, e a nostra ipotesi questa è una delle
cause scatenanti il costante decremento degli iscritti.
La conclusione vien da sé: Il numero di richiedenti istruzione universitaria
è collegato alla domanda di lavoro sul mercato.
Per questo motivo abbiamo deciso di calare la questione iscritti alle
università in differenti contesti regionali. Approfondiamo quindi il
discorso immatricolati nelle nostre rispettive regioni di appartenenza
(Campania, Marco A. - Friuli V.G. Marco B. e Calabria Otello C.) e la
Lombardia, confrontandoli con i relativi indici ipotizzati caratteristici per
una congiuntura di crisi economica, ovvero in questo caso, fra tanti il più
significativo, la disoccupazione.
Lombardia:
49000
Immatricolati Lombardia
Immatricolati
48000
47000
46000
45000
44000
43000
42000
2003/2004
2006/2007
2009/2010
2012/2013
Anni
Disoccupati Lombardia
350000
Disoccupati
300000
250000
200000
150000
100000
50000
0
2003/2004
2006/2007
2009/2010
2012/2013
Anni
2003/2004
2004/2005
2005/2006
2006/2007
2007/2008
2008/2009
2009/2010
2010/2011
2011/2012
2012/2013
Immatricolati
48155
48411
46301
44633
44870
45628
47369
47026
46690
46294
Anni
2003/2004
2004/2005
2005/2006
2006/2007
2007/2008
2008/2009
2009/2010
2010/2011
2011/2012
2012/2013
Disoccupati
145180
186560
186170
198900
173370
166750
196850
293510
251690
316560
Anni
Si nota che il livello di disoccupazione della Lombardia rimane
relativamente stabile fino al 2010 per poi aumentare gradualmente, mentre
per quel che riguarda il numero di immatricolati dall'inizio della crisi non
si è verificato un pesante decremento. Riteniamo che comunque il discorso
Lombardia sia un caso particolare in quanto l'alto livello di formazione
delle proprie università riesce ad attirare studenti da tutta la penisola oltre
che ad essere la regione economicamente più sana.
Campania:
38000
Immatricolati Campania
Immatricolati
36000
34000
32000
30000
28000
26000
2003/2004
2006/2007
2009/2010
2012/2013
Anni
2003/2004
2004/2005
2005/2006
2006/2007
2007/2008
2008/2009
2009/2010
2010/2011
2011/2012
2012/2013
Immatricolati
35664
34637
31780
32366
32121
31911
31667
30711
29393
27998
Anni
Disoccupati
Disoccupati Campania
400000
350000
300000
250000
200000
150000
100000
50000
0
2003/2004
2006/2007
2009/2010
2012/2013
Anni
2003/2004
2004/2005
2005/2006
2006/2007
2007/2008
2008/2009
2009/2010
2010/2011
2011/2012
2012/2013
Disoccupati
360849
326415
302462
255860
217497
241931
239764
258217
287995
378585
Anni
In Campania si nota una situazione critica dovuta ad un elevato numero di
persone in cerca di occupazione. Il grafico disoccupati segue un
andamento di tipo parabolico con minimo nel 2007. Per quel che riguarda
il numero di iscritti nelle università vi si riscontra una notevole
diminuzione di iscritti imputabile all'altrettanto significativo aumento della
disoccupazione.
Friuli Venezia Giulia:
Immatricolati
Immatricolati F.V.G.
7000
6500
6000
5500
5000
4500
4000
2003/2004
2006/2007
2009/2010
2012/2013
Disoccupati
Anni
56000
54000
52000
50000
48000
46000
44000
42000
40000
2003/2004
Disoccupati F.V.G.
2006/2007
2009/2010
2012/2013
Anni
2003/2004
2004/2005
2005/2006
2006/2007
2007/2008
2008/2009
2009/2010
2010/2011
2011/2012
2012/2013
Immatricolati
6644
6264
5943
5816
6190
5986
6000
5552
5717
5401
Anni
2003/2004
2004/2005
2005/2006
2006/2007
2007/2008
2008/2009
2009/2010
2010/2011
2011/2012
2012/2013
Disoccupati
45323
46345
46702
48325
49395
50233
51244
52339
53555
54245
Anni
Nel Friuli Venezia Giulia sia il grafico sulla disoccupazione , sia quello
sugli immatricolati hanno un andamento lineare. Anche qui l'aumento dei
disoccupati corrisponde a una significativa diminuzione del numero di
immatricolazioni.
Calabria:
Immatricolati
Immatricolati Calabria
12000
11000
10000
9000
8000
7000
6000
5000
2003/2004
2006/2007
2009/2010
2012/2013
Anni
Anni
2003/2004
2004/2005
2005/2006
2006/2007
2007/2008
2008/2009
2009/2010
2010/2011
2011/2012
2012/2013
Immatricolati
10484
9848
9748
9550
9410
8640
8579
7321
7009
6931
Anni
2003/2004
2004/2005
2005/2006
2006/2007
2007/2008
2008/2009
2009/2010
2010/2011
2011/2012
2012/2013
Disoccupati
120110
103400
101380
90820
76270
82010
75000
77620
84250
135440
Disoccupati Calabria
160000
140000
Disoccupati
120000
100000
80000
60000
40000
20000
0
2003/2004
2006/2007
2009/2010
2012/2013
Anni
In Calabria il numero di disoccupati si è tenuto stabile fino al 2010
per poi aumentare vertiginosamente nell'ultimo biennio. Per quel che
riguarda il numero di immatricolati nelle università si assiste ad un vero e
proprio crollo di iscrizioni.
STATISTICA INFERENZIALE
Con la seconda parte del progetto vogliamo verificare se i nostri dati
seguono una distribuzione di tipo normale. Introduciamo dunque una
variabile aleatoria X, di media 286604,6 e deviazione Standard 36549,4,
che conta il numero di immatricolati per anno alle università italiane.
Come prima valutazione osserviamo il valore dell’indice di asimmetria e
di curtosi, prossimi allo zero. La condizione necessaria per la normalità dei
dati è perciò verificata.
Notiamo inoltre l’istogramma delle frequenze che segue un andamento a
campana, simile a quello della Gaussiana.
La statistica descrittiva è quindi favorevole all’ipotesi di una distribuzione
normale del dataset; vogliamo però esserne più sicuri effettuando altri test
di statistica inferenziale.
Il qq-plot:
Costruiamo il qqplot per un ulteriore verifica della normalità dei dati.
Utilizziamo i quantili della N(0;1).
Dati
210713
212203
216643
233246
237568
246079
254596
257539
261249
262979
267316
268892
271893
278692
280144
280526
281170
289714
Quantili
-1,9145058251
-1,593218818
-1,3829941271
-1,2206403488
-1,0853249081
-0,9674215661
-0,8616341202
-0,7647096738
-0,6744897502
-0,5894557978
-0,5084880591
-0,4307272993
-0,3554904178
-0,2822161471
-0,2104283942
-0,1397102989
-0,0696849203
0
Dati
293503
295027
297383
300060
303419
306952
308194
316288
317218
320348
320670
321601
324869
328469
332160
336725
338482
345238
Quantili
0,0696849203
0,1397102989
0,2104283942
0,2822161471
0,3554904178
0,4307272993
0,5084880591
0,5894557978
0,6744897502
0,7647096738
0,8616341202
0,9674215661
1,0853249081
1,2206403488
1,3829941271
1,593218818
1,9145058251
Osserviamo che i punti si dispongono in maniera eccellente lungo la retta.
Siamo sempre più convinti dell'andamento normale dei dati. Cerchiamo
però maggiore certezza con il prossimo Test.
TEST DI PEARSON
Per sviluppare questo test necessitiamo di accorpare le prime due classi in
quanto la frequenza teorica deve risultare maggiore di 5. Andiamo quindi a
calcolare la nostra statistica test.
Distribuzione ipotizzata: Normale.
Media campionaria: 286604,6667
Dev. Standard: 36549,409
Classi
210713/255555
255555/277976
277976/300397
300397/322818
322818/345238
Sup
255555
277976
300397
322818
345238
Freq. Oss.
7
6
9
8
6
36
Freq. Teorica (Ni-Npi)2 / Npi
7,1205980099 0,0020425082
7,520041322 0,3072490591
8,6530686655 0,0139096725
6,91423637
0,1705007751
5,7920556326 0,0074655464
36
0,5011675612
Statistica test: 0,5011
Numero classi: 5
Parametri ricavati dal campione: 2
Livello di confidenza: 0,1
Chi-quadro(2): 4 ,605
0,5011<4,605
Accettiamo con un ampio margine di sicurezza.
Concludiamo dopo tutti questi test a favore della nostra ipotesi iniziale che
l'andamento dei dati segue senza ombra di dubbio un andamento normale.
REGRESSIONE
Con la retta di regressione siamo interessati a verificare se esiste una
relazione lineare tra gli anni esaminati, che consideriamo i nostri predittori,
e i rispettivi giovani iscritti all'università, responsi.
Calcoliamo gli indici che utilizzeremo per tracciare la nostra retta.
Indici statistici
media
varianza
covarianza
correlazione (r)
variazione (r2)
n° osservazioni
X
2009
4,6666666667
-29218,5
-0,9577070891
0,9172028686
36
Y
292111,7143
199454412
Quantità significative
var. spiegata
var. residua
Sxx
Syy
Sxy
SSE
SSR
163,333333333
6980904428,33
-1022647,5
577998861,458
6402905566,88
Parametri della retta
b1
-6261,107
b0
12870676
Notiamo dal grafico e dal valore di r² che il nostro modello non è per
niente affidabile.
Cerchiamo, quindi, un risultato più interessante restringendo il nostro
dominio di predittori dall'anno 2006 e tracciamo nuovamente la retta di
regressione.
Notiamo dunque che i valori sembrano disporsi proprio lungo una retta
ma, purtroppo, con coefficiente angolare negativo.
CONCLUSIONI E VALUTAZIONI PERSONALI
Dopo lo studio effettuato, ci sentiamo di poter affermare che il momento
infelice che sta vivendo il nostro Paese e che soprattutto ha stritolato le
famiglie di ceto medio, abbia determinato uno spaventoso calo di
immatricolati nelle università italiane. L'istruzione ha perso il suo naturale
ruolo di investimento a lungo termine: anche il governo, nell'ultimo ddl
Lavoro ha contribuito a questo clima di sfiducia verso la formazione
culturale elitaria, fornendo sussidi alle imprese che assumono manodopera
totalmente impreparata (specificamente senza addirittura diploma di scuola
superiore) senza uno straccio di titolo di studio. L'ennesimo schiaffo alla
dignità di una classe iperqualificata come la nostra (in potenza
ovviamente, qui nessuno è già laureato) che dovrebbe essere trainante e
punto di riferimento indiscutibile. L'Italia si sta privando di una futura
generazione istruita che è alla base di una civiltà indipendente e libera e
che non sarà più in grado di competere con le altre potenze industriali del
21mo secolo, siano esse storiche od emergenti.
Riconosciuta la secolare frattura dell'Italia a due velocità (nord e sud),
questa volta i caduti si contano a migliaia in entrambe le fazioni: gli
espulsi, sollevati, stoppati anche (in cassa integrazione ad esempio) dal
mercato del lavoro si annoverano a fiotte all-Italy long. Lo stivale è logoro,
ormai, i sogni dei suoi giovani ridotti a stereotipati modelli imposti
dall'alto per i quali non serve sacrificarsi per anni sui libri, non serve uno
spirito critico efficace e ben allenato alla comprensione della realtà. Che
prospettive di miglioramento può intravedere un osservatore imparziale in
una generazione di sgangherati citazionisti 2.0 invisi al sacrificio e alla
profondità di pensiero?
Che ruolo se non marginale può assumere la tenacia dei pochi che credono
ancora nella formazione universitaria e perseguono i propri obiettivi con
fermezza, in una società che invita mellifluamente al vivere senza pensieri,
all'abbandonare il troppo complesso ragionamento critico (sorretto da
adeguate basi culturali) e l'analisi di ciò che ci circonda? Hakuna Matata,
giovani. Non pensateci, fatevi una birra. Non rinunciate a nulla in funzione
del futuro, pazienza se vi ritroverete a 30 anni con un pugno di mosche in
una mano e un pugno di debiti nell'altra.
La verità è che studiare è difficile, e con l'incalzante disoccupazione i
genitori non se la sentono più di battere con violenza il ferro dell'istruzione
universitaria: è comodo uno stipendio in più, a volte necessario, e la
decisione di proseguire gli studi viene lasciata in mano ad impulsivi e non
lungimiranti “uaglionetti” (licenza poetica campana) che sotto l'influenza
della contingente quotidianità perseguono il guadagno immediato (o
almeno apparentemente) a scapito della formazione personale e culturale.
Non è una generazione di eroi, decisamente: si naviga a vista sulla soglia
della mediocrità, specie culturale.
“"Tu avevi in cuore una visione della vita, una fede, un postulato, eri pronto
ad agire, a soffrre, a sacrificarti...e poi ti accorgesti a poco a poco che il
mondo non chiedeva affatto gesta, sacrifici e cose simili, che la vita non è un
poema sublime con personaggi eroici, bensì una buona stanza borghese dove
ci si accontenta di mangiare e bere, di prendere il caffè e di fare la calza, di
giocare ai tarocchi e di ascoltare la radio. E chi petende le cose belle ed
eroiche, il rispetto dei grandi poeti o la venerazione dei santi è uno sciocco,
un Don Chisciotte.”
Scarica