Laboratorio IV
Author: Valerio Busillo
Indice
I
Analisi dati
6
1 Fondamenti di statistica
1.1 Modello degli errori di Laplace . . . . . . . . . . . . . . . . . .
1.2 Teorema del limite centrale . . . . . . . . . . . . . . . . . . . .
1.3 Misura di una grandezza fisica . . . . . . . . . . . . . . . . . .
1.4 Stima dei parametri delle distribuzioni . . . . . . . . . . . . .
1.5 Legge dei grandi numeri e disuguaglianza di Bienayme-Cebicev
per la media aritmetica . . . . . . . . . . . . . . . . . . . . . .
1.6 Metodo della massima verosimiglianza . . . . . . . . . . . . .
1.7 Funzione di distribuzione di più variabili aleatorie e covarianza
1.7.1 Dimostrazione del fatto che ρ ∈ [−1, 1] . . . . . . . . .
1.8 Gaussiana multivariata . . . . . . . . . . . . . . . . . . . . . .
1.9 Determinazione grafica dei parametri di massima verosimiglianza
1.9.1 Un parametro . . . . . . . . . . . . . . . . . . . . . . .
1.9.2 Due parametri . . . . . . . . . . . . . . . . . . . . . . .
2 Regressione
2.1 Regressione lineare . . . . . . . . . . . . . . . . . . . . . . .
2.2 Estimatori dei minimi quadrati dei parametri di regressione
lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2.3 Distribuzione degli estimatori . . . . . . . . . . . . . . . . .
2.4 Estimatore della varianza σ 2 . . . . . . . . . . . . . . . . . .
2.5 Test d’ipotesi statistica sui parametri di regressione . . . . .
2.5.1 Test d’ipotesi riguardanti β1 . . . . . . . . . . . . . .
2.5.2 Test d’ipotesi riguardanti β0 . . . . . . . . . . . . . .
2.5.3 Test d’ipotesi riguardante la risposta media β0 + β1 x0
2.6 Coefficiente di determinazione e coefficiente di correlazione
lineare . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
2
7
7
12
13
15
18
19
20
21
22
23
24
25
27
. 27
.
.
.
.
.
.
.
28
29
31
32
32
34
35
. 36
2.7
2.8
2.9
Analisi dei residui . . . . . . . . . . . . . . . . . . . . . . . . . 37
Test d’ipotesi sulla correlazione lineare . . . . . . . . . . . . . 40
Correlazione tra i parametri di regressione lineare . . . . . . . 41
3 Machine Learning
3.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.2 Categorie di machine learning . . . . . . . . . . . . . . . . . .
3.3 Affrontare un problema di supervised learning applicato alla
regressione . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3.4 Rumore nel supervised learning . . . . . . . . . . . . . . . . .
3.5 Teoria del learning . . . . . . . . . . . . . . . . . . . . . . . .
3.5.1 Decomposizione bias-varianza di Eout . . . . . . . . . .
3.6 Metodi di Gradient Descent per minimizzare la funzione di costo
3.6.1 Miglioramento dell’algoritmo di gradient descent . . . .
4 Test d’ipotesi
4.1 Introduzione . . . . . . . . . . . . . . . . . . . . . . .
4.2 Test χ2 . . . . . . . . . . . . . . . . . . . . . . . . . .
4.3 Test di Kolmogorov-Smirnov . . . . . . . . . . . . . .
4.4 Confidence belt e intervallo di confidenza per segnali
niani con background comparabile col segnale . . . .
. . . .
. . . .
. . . .
poisso. . . .
5 Metodi montecarlo
5.1 Integrazione montecarlo . . . . . . . . . . . . . . . . . . . .
5.1.1 Metodo “Crude” montecarlo . . . . . . . . . . . . . .
5.1.1.1 Confronto tra metodo “Crude” montecarlo e
altre tecniche d’integrazione numerica . . .
5.1.2 Metodo montecarlo “hit or miss” . . . . . . . . . . .
5.1.3 Campionamento stratificato . . . . . . . . . . . . . .
5.1.4 Campionamento a importanza . . . . . . . . . . . . .
5.1.5 Metodo delle variabili di controllo . . . . . . . . . . .
5.1.6 Metodo delle variabili antitetiche . . . . . . . . . . .
5.1.7 Metodi adattivi . . . . . . . . . . . . . . . . . . . . .
5.2 Generazione di variabili aleatorie che seguono una certa distribuzione di probabilità . . . . . . . . . . . . . . . . . . . . .
5.3 Generatori di numeri casuali con distribuzione di probabilità
uniforme . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
3
43
43
48
51
53
55
57
59
63
67
. 67
. 70
. 73
. 74
77
. 77
. 78
.
.
.
.
.
.
.
80
81
83
84
84
85
85
. 86
. 88
II
Apparati scientifici
92
6 Proprietà dei materiali e strumenti da lavoro
6.1 Metalli e leghe metalliche . . . . . . . . . . . .
6.2 Proprietà dei materiali . . . . . . . . . . . . .
6.3 Prove di caratterizzazione dei materiali . . . .
6.4 Strumenti per la lavorazione dei materiali . . .
6.4.1 Trapano a colonna . . . . . . . . . . .
6.4.2 Tornio . . . . . . . . . . . . . . . . . .
6.4.3 Fresa . . . . . . . . . . . . . . . . . . .
6.5 Principi di disegno tecnico . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
7 Pompe a vuoto
7.1 Definizione di vuoto . . . . . . . . . . . . . . . . .
7.2 Teoria cinetica dei gas . . . . . . . . . . . . . . .
7.3 Degassificazione delle pareti e collisioni superficiali
7.4 Flusso viscoso e flusso molecolare . . . . . . . . .
7.5 Parametri per specificare il flusso di gas . . . . . .
7.6 Equazione maestra . . . . . . . . . . . . . . . . .
7.7 Misure di vuoto . . . . . . . . . . . . . . . . . . .
7.8 Pompe a vuoto . . . . . . . . . . . . . . . . . . .
8 Richiami di ottica
8.1 Onde piane . . . . . . . . . . . . . . . .
8.2 Indice di rifrazione . . . . . . . . . . . .
8.3 Velocità di gruppo e pacchetti d’onda . .
8.4 Vettore di Poynting e intensità luminosa
8.5 Coefficienti di riflessione e trasmissione .
8.6 Coating antiriflettenti . . . . . . . . . . .
8.7 Specchio dielettrico (o di Bragg) . . . . .
8.8 Reticolo di diffrazione . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
93
93
95
97
100
100
100
101
102
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
105
. 105
. 105
. 107
. 107
. 108
. 109
. 110
. 112
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
114
. 114
. 115
. 116
. 118
. 119
. 122
. 125
. 127
9 Ottica guidata
9.1 Guida d’onda . . . . . . . . . . . . . . . . . .
9.2 Guide d’onda monomodali e multimodali . . .
9.3 Modi TE e TM . . . . . . . . . . . . . . . . .
9.4 Relazione di dispersione per una guida d’onda
9.4.1 Dispersione intermodale . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
4
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
131
131
135
136
137
138
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
139
139
141
142
144
145
146
147
10 Fotorivelatori
10.1 Principi di funzionamento di base dei fotodiodi .
10.2 Efficienza quantica e responsività . . . . . . . .
10.3 Fotodiodo PIN . . . . . . . . . . . . . . . . . .
10.4 Fotodiodo a valanga . . . . . . . . . . . . . . .
10.5 Rumore associato a un fotodiodo . . . . . . . .
10.6 Metodi di abbattimento del rumore . . . . . . .
10.6.1 Lock-in . . . . . . . . . . . . . . . . . .
10.6.2 Boxcar . . . . . . . . . . . . . . . . . . .
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
150
150
152
155
157
160
163
164
166
.
.
.
.
168
. 168
. 172
. 174
. 175
.
.
.
.
178
. 180
. 181
. 181
. 182
9.5
9.6
9.7
9.8
9.4.2 Dispersione intramodale . . . . . . .
Fibra ottica con indice a gradino . . . . . .
9.5.1 Fibra ottica a indice graduato . . . .
Apertura numerica di una fibra ottica . . . .
Attenuazione del segnale in una fibra ottica
9.7.1 Attenuazione intrinseca . . . . . . . .
9.7.2 Perdite per piegatura . . . . . . . . .
Fabbricazione della fibra ottica . . . . . . .
.
.
.
.
.
.
.
.
11 Dispositivi fotovoltaici
11.1 Principi di base e caratteristica IV del fotovoltaico
11.2 Retta di carico e fill factor . . . . . . . . . . . . .
11.3 Circuiti equivalenti del fotovoltaico . . . . . . . .
11.4 caratteristiche costruttive dei fotovoltaici . . . . .
12 Rivelatori termici
12.1 Bolometri . . . . . . . .
12.2 Rivelatori piroelettrici .
12.3 Cella di Golay . . . . . .
12.4 Termocoppie e termopile
.
.
.
.
.
.
.
.
.
.
.
.
5
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
.
Parte I
Analisi dati
6
Capitolo 1
Fondamenti di statistica
1.1
Modello degli errori di Laplace
Consideriamo una grandezza fisica avente valor vero x∗ , e supponiamo di effettuare una misura di tale grandezza, ottenendo il risultato x. A causa degli
inevitabili errori di misura casuali1 , in generale x 6= x∗ .
Nel modello semplificato di Laplace per gli errori casuali, si considereranno tali errori come un numero estremamente grande di disturbi contemporanei
infinitesimi, ciascuno dei quali shifterà di pochissimo il risultato della misura
dal valor vero. In particolare, si effettueranno le seguenti ipotesi sulla natura
degli errori:
1. Ciascuna perturbazione avrà modulo fisso , con uguale probabilità
di shiftare la misura verso sinistra o verso destra dal valor vero.
2. Ciascun errore è statisticamente indipendente dagli altri
ciò significa che, date N perturbazioni, la variazione + da x∗ ha probabilità
p = 0.5 di verificarsi, mentre quella − ha probabilità q = 1 − p = 0.5 di
verificarsi.
Indichiamo con M il numero di perturbazioni positive. Quelle negative
saranno allora N − M e il valore osservato risulterà essere:
x = x∗ + M − (N − M ) = x∗ + (2M − N ) 1
Saranno per il momento trascurati gli errori sistematici.
7
(1.1)
La probabilità che in un esperimento si abbiano esattamente M perturbazioni
positive su N perturbazioni totali sarà data dalla distribuzione binomiale:
P (M, N ) =
N!
pM q N −M
M ! (N − M )!
(1.2)
il valor medio della distribuzione sarà M̄ = N p, mentre la sua varianza sarà
σM = N pq.
Indichiamo con λ lo scarto di M dal suo valor atteso:
λ := M − M̄ = M − N p
(1.3)
Se M varia tra 0 ed N quindi, λ varia tra −N p ed N q. Con tale definizione
quindi, il numero di perturbazioni + e il numero di perturbazioni − si
scriveranno come:
N = N p + λ,
N− = N q − λ.
(1.4)
(1.5)
La probabilità associata alla variabile aleatoria λ, fissato un numero N di
perturbazioni, sarà a sua volta una binomiale:
P (λ, N ) =
N!
pN p+λ q N q−λ
(N p + λ)! (N q − λ)!
(1.6)
Il valore atteso di λ sarà quindi:
λ̄ = M̄ − N p = 0,
σλ ≡ σM = N pq.
(1.7)
(1.8)
Effettuiamo ora il rapporto tra P (M + 1) e P (M ) (fissato N ). Si ha:
M
N −M −1
+1 q
N!
M! p
P (M + 1, N )
(M − N ) !
=
·
(
(
=
M
−M
q N
((
P (M, N )
(N(−
M(−(1)! (M + 1) !
N!
p
(
p N −M
= ·
(1.9)
q M +1
tale quantità corrisponde al rapporto tra probabilità di due valori successivi
di M , e si può riscrivere come:
P (M + 1, N ) =
pN −M
P (M, N )
q M +1
8
(1.10)
ciò significa che la probabilità, dato un certo numero di perturbazioni positive
M , di avere una successiva perturbazione positiva, è proporzionale alla probabilità di avere M perturbazioni.
Ora, tale probabilità può essere maggiore, minore o uguale di P (M, N ), a
seconda che il coefficiente di proporzionalità sia maggiore, minore o uguale
ad 1. Nel caso in cui sia uguale a 1, si avrebbe:
p (N − M ) = q (M + 1) .
(1.11)
La condizione per la quale 2 valori di M molto vicini abbiano probabilità
uguale si realizza quando:
Np = M + q → M u Np − q
chiamiamo tale quantità µ:
(1.12)
µ := N p − q
(1.13)
al crescere di N , µ → N p. Per valori inferiori a µ, la probabilità P (M ) ha
un andamento crescente, mentre per valori superiori a µ essa ha andamento
decrescente. Questo significa che, anche se N → +∞, la probabilità P (M )
avrà uno e un solo punto di massimo, pari proprio a µ. Tale punto è detto
moda. La stessa cosa ovviamente succederà anche per P (λ).
Vediamo ora in particolare a cosa tende la distribuzione P (λ) se N → +∞.
Ricordiamo la formula di Stirling:
√
N +1
2π e−N N 2
(1.14)
N! ≈
N →+∞
usando tale approssimazione, la probabilità P (λ) si scrive come:
√ −N N +1 N p+λ N q−λ
2πe N 2 p
q
P (λ) ≈ √
N p+λ+1 √
N q−λ+1
−(N q−λ)
2πe(−N p+λ) (N p + λ) 2 2πe
(N q − λ) 2
moltiplico e divido per (N p)(N p+λ+1)/2 e per (N q)(N q−λ+1)/2 . Segue:
N +1
e−N
N 2 pN p+λ q N q−λ
1
1
P (λ) ≈ √
(N p+λ+1)/2
(N q−λ+1)/2
(N
p+λ+1)/2
−N
(p+q)
(N p+λ)
(N q−λ)
e
2π (N p)
(N q)(N q−λ+1)/2
(N p+λ+1)/2
(N q−λ+1)/2
(N p)
(N q)
dalle proprietà delle potenze (x/y)n = xn /y n , segue:
1
P (λ) ≈ √ 2π 1 +
1
λ
Np
(N p+λ+1)/2 N
1−
λ
Nq
9
(N q−λ+1)/2
N +1
2
pN p+λ q N q−λ
(N p)(N p+λ+1)/2 (N q)(N q−λ+1)/2
|
√
≈1/ N pq al prim’ordine
{z
}
In definitiva, un’espressione approssimata (ma asintoticamente valida per
N → +∞) per P (λ) è la seguente:
λ
1
1+
P (λ) ≈ √
Np
2π N pq
!−(N p+λ+1)/2
λ
1−
Nq
!−(N q−λ+1)/2
(1.15)
il valore corrispondente al punto di massimo sarà dunque P (λmax ) =
1
= (2πN pq)− 2 . Tale espressione tuttavia diverge se λ → −N p ∨ λ → N q.
Ciò non crea problemi, in quanto a noi interessa solo la zona di valori intermedia a questi due estremi.
√
Si noti ora che P (λmax ) tende a zero come 1/ N al crescere di N. Dato
che la somma delle probabilità relative a tutti i casi possibili deve essere pari
a 1, il numero di valori di λ per cui
√ la probabilità non è trascurabile rispetto
al massimo deve divergere come N al crescere di N .
In definitiva, la formula approssimata è valida già per valori relativamente
piccoli di N e per N molto grande è asintoticamente esatta per tuti i valori
di λ che non abbiano probabilità tracurabile√di presentarsi. Tali valori non
trascurabili
sono mediamente dell’ordine di N pq e divergono dunque solo
√
come N .
Consideriamo ora il fattore:
λ
k := 1 +
Np
!−(nP +λ+1)/2
λ
1−
Nq
!−(N q−λ+1)/2
(1.16)
calcoliamone il logaritmo naturale:
Np + λ + 1
λ
log k = −
−
log 1 +
2
Np
!
Nq − λ + 1
λ
−
log 1 −
= k1 + k2
2
Nq
!
(1.17)
Poiché sia λ/ (N p) che λ/ (N q) sono molto minori di 1 (nell’intervallo d’interesse in cui i valori di λ non abbiano probabilità trascurabile), è possibile
10
sviluppare k1 e k2 in serie di Taylor attorno a zero:
λ (λ + N p + 1) λ + N p + 1
+
k1 u −
2N p
4
−
λ + Np + 1
6
λ
Np
!3

λ
Np
+ o
λ
Nq
!3

!2
−
!3 
λ (N q − λ + 1) (N q − λ + 1)
k2 u
+
2N q
4
(N q − λ + 1)
+
6
λ
Np
λ
+ o
Nq
(1.18)

λ
Nq
!2
+
!3 
(1.19)

Sommando i due termini sviluppati, si ottiene:
(p − q) λ
[(1 − N p) q 2 + (1 − N q) p2 ] λ2
+
+
2pq N
4p2 q 2
N2
[(N p − 2) q 3 + (2 − N q) p3 ] λ3
+
+ o(λ3 )
12p3 q 3
N3
log k ≈
ora, poiché i λ interessanti in tale apprrossimazione vanno come
√
N , il primo monomio andrà come:
√
p−q N
p−q 1
1
(p − q) λ
√ ∼√
∼
=
2pq N
2pq N
2pq N
N
(1.20)
√
N pq ≈
(1.21)
il secondo monomio andrà invece come:
2
[(1 − N p) q 2 + (1 − N q) p2 ] λ2
(p2 q + pq 2 ) N
p2 +q
∼
−
∼
2
2
2
2
2
2
2
p q
4p q
N
4N p q
4
N
va a 0
2
∼−
p q + pq 2
4p2 q 2
(1.22)
(1.23)
mentre il terzo monomio come:
3
[(N p − 2) q 3 + (2 − N q) p3 ] λ3
2p3 −2q
∼
+
3/2 p3 q 3
12p3 q 3
N3 12N
+
11
3
0
(pq − p3 q) N
1
∼√
3/2
N
N
(1.24)
dunque per N → +∞ l’unico valore che resta finito è il primo monomio,
quindi:
2
p2 q + q 2 p 2
N
p2 + q 2 (p2 q + q 2 p)
λ
u
−
lim log k u
−
λ u
2 p2 q 2
N →+∞
4N
4N p2 q 2
4N 2 p2 q 2
p2 q + q 2 p
λ2
1
λ2
λ2
·
u−
· ≈−
u−
2N pq
2pq
2N pq 2
2N pq
quindi la probabilità P (λ) si riscrive al limite per N → +∞, sostituendo il
k appena trovato, come:
P (λ) = √
λ2
1
e− 2 N pq
2πN pq
(1.25)
ma essendo σ = N pq quindi, si ha:
λ2
1
e− 2 σ
P (λ) = √
2πσ
(1.26)
che è l’espressione di una gaussiana centrata attorno al valore atteso λ̄ = 0.
Ritornando alla variabile M quindi, si può dire che per N → +∞ il numero
di errori positivi rispetto al valor vero x∗ nel modello degli errori di Laplace
tende ad assumere una distribuzione di probabilità gaussiana:
P (M ) ≈ √
1.2
(M −M̄ )2
1
−
2σ
e
2πσ
(1.27)
Teorema del limite centrale
Siano date n variabili aleatorie xi , ciascuna delle quali dotata di una distribuzione di probabilità associata qualsiasi (a patto che i rispettivi valori attesi
µi e le rispettive varianze σi siano finite). Il teorema del limite centrale afferma che, sotto tali ipotesi, una qualsiasi combinazione lineare delle
variabili aleatorie xi :
y=
N
X
i=1
12
ai x i
(1.28)
convergerà per n → +∞ ad una distribuzione normale con medie e varianza
date da:
µy =
σy2 =
N
X
i=1
N
X
ai µ i
(1.29)
a2i σi2
(1.30)
i=1
Affinché il teorema del limite centrale sia valido tuttavia, è importante che le
σi2 siano non solo tutte finite, ma anche paragonabili, nel senso che non c’è
predominanza di una delle varianze rispetto alle altre. Se le distribuzioni di
probabilità fi sono tutte concentrate attorno al loro valore atteso, quindi se
le σi sono tutte molto piccole, il teorema risulta praticamente valido anche
per piccoli valori di N .
Un’applicazione del teorema del limite centrale è quella di ottenere una distribuzione gaussiana che generi numeri casuali “normali” mediante la somma
di n numeri casuali aventi distribuzione uniforme in ]0, 1[. Ciò si può fare
considerando la combinazione lineare:
y=
N X
i=1
n
xi −
2
(1.31)
dove xi sono N variabili aleatorie a distribuzione uniforme in ]0, 1[. La media
e la varianza di y saranno date da:




µ
N
N
−
=0
2
2

N


σ 2 =
12
=
(1.32)
l’accordo di y con una gaussiana è buono già per N > 5/10.
1.3
Misura di una grandezza fisica
Ammettendo che esista un valore vero x∗ associato ad una grandezza fisica,
la cui stima è disturbata da N perturbazioni i ciascuna a varianza finita,
per la generica misura xM si avrà:
xM = x∗ +
N
X
(i ) :≡ x∗ + i=1
13
(1.33)
dove:
=
N
X
(1.34)
i
i=1
per il teorema del limite centrale, se ciascuna i ha distribuzione normale e
varianza finita, anche per N molto grande sarà una distribuzione normale
con valore atteso e varianza dati da:
µ =
σ2 =
N
X
µi = 0
i=1
N X
σ2i
(1.35)
(1.36)
i=1
la cui distribuzione si espliciterà quindi come:
2
exp − 2
f () = q
2σ
2πσ2
1
!
(1.37)
a sua volta xM sarà una variabile aleatoria con distribuzione normale, avente:
µ xM = x ∗ + µ = x ∗
σx2M = σ2
(1.38)
(1.39)
la cui distribuzione si esplicita come:
1
f (xM ) = q
2πσx2M
(xM − x∗ )2
exp −
2σx2M
!
(1.40)
il miglior stimatore di µxM sarà dato in questo caso dalla media aritmetica
delle xi :
N
1 X
xi
(1.41)
x̄ :=
N i=1
mentre il miglior stimatore di σx2M sarà lo scarto quadratico medio del
campione:
N
1 X
s2 :=
(xi − x̄)2
(1.42)
N − 1 i=1
14
a sua volta, la media x̄ sarà una variabile aleatoria con distribuzione normale,
avente:
µ(x̄) = x∗
σ2
σ 2 (x̄) = x
N
(1.43)
(1.44)
in definitiva, il risultato di N misure ripetute con la stessa metodologia e
nelle stessee condizioni di una grandezza fisica sarà espresso in termini degli
stimatori come:
sx
x = x̄ ± √
(1.45)
N
ciò significa che c’è la probabilità del 68% che l’intervallo [x̄ − √sxN , x̄ + √sxN ]
contenga il valor vero x∗ . Una singola misura xi della stessa grandezza fisica
sarà invece da esprimere, assumendo noto sx , come:
x = xi ± s x
1.4
(1.46)
Stima dei parametri delle distribuzioni
Se la distribuzione di probabilità associata ad una variabile aleatoria è ignota,
è difficile stimarne i parametri, in quanto in linea di principio sono necessarie
infinite prove per determinare quale sia la distribuzione limite. Si procede
quindi considerando un campione di dimensione N , cioè un esperimento con
N prove. In tal modo è possibile stimare delle proprietà della distribuzione,
cioè delle grandezze caratterizzanti completamente la stessa. Tali statistiche
(cioè funzioni dei dati disponibili, del tipo S(x1, x2 , . . . , xN )) saranno detti
estimatori delle proprietà della distribuzione.
Un buon estimatore gode delle seguenti proprietà:
1. L’estimatore è non distorto, cioè il valore atteso dello stimatore â è
proprio il valor vero a∗ della proprietà da stimare:
E(â) = a∗
∀N
(1.47)
se la distorsione tende solo asintoticamente a 0, l’estimatore si dice
asintoticamente non distorto.
15
2. L’estimatore è consistente, nel senso che al crescere delle dimensioni
del campione l’estimatore converge al valor vero della proprietà:
lim σâ2 = 0
n→∞
(1.48)
3. L’estimatore è efficiente, nel senso che la varianza della stima della
proprietà ottenuta da uno stimatore è piccola.
4. L’estimatore è invariante sotto trasformazione dei parametri, nel
senso che, se f è una generica funzione, allora la stima di f (a) è data
proprio da f (â).
Come abbiamo detto, lo stimatore del valor vero è la media aritmetica.
Vediamo che esso è un buon estimatore del valor vero, in quanto:
1. è non distorto:
E(x̄) =
µx
N
1
= µx
(E(x1 ) + · · · + E(xN )) =
N
N
2. è consistente:
σx̄2 =
1
σ2
σx2 = x → 0
·
N
N N →∞
N 2
(1.49)
(1.50)
3. è il più efficiente, in quanto si può dimostrare che la media aritmetica
è lo stimatore avente minima varianza tra tutti quelli possibili.
La media aritmetica ha due proprietà fondamentali:
1. La somma degli scarti rispetto ad essa è nulla:
N
X
i=1
(xi − x̄) = N ·
PN
(xi )
− N x̄ = N x̄ − N x̄ = 0
N
i=1
(1.51)
2. La somma dei quadrati degli scarti rispetto ad essa è la minima possibile, in quanto se invece di scegliere x̄ come valore da cui effettuare lo
16
scarto si sceglie un altro x generico si avrà:
N
X
2
(xi − x) =
i=1
N
X
[(xi − x̄) + (x̄ − x)]2 =
i=1
=
N h
X
(xi − x̄)2 + (x̄ − x)2 + 2 (xi − x̄) (x̄ − x) =
i
i=1
=
=
N
X
i=1
N
X
2
(xi − x̄) + N (x̄ − x)
2
N
X
(xi − x̄) =
+ 2 (x̄
−x)
i=1
(xi − x̄)2 + N (x̄ − x)2
i=1
che è sempre maggiore di
P
i
(xi − x̄)2 ∀x 6= x̄.
Lo stimatore della varianza sarà invece lo scarto quadratico medio del
campione:
N
1 X
(xi − x̄)2
(1.52)
s2 =
N − 1 i=1
si potrebbe pensare di usare invece lo scarto quadratico medio della
popolazione:
1 X
s02 =
(xi − x̄)2
(1.53)
N i
facendo così tuttavia, notiamo che esso è uno stimatore solo asintoticamente
non distorto, in quanto:
E s
02
N
X
1
= E
(xi − x̄)2 =
N
i=1
!
=
N n h
io
1 X
E ((xi − µ) − (x̄ − µ))2 =
N i=1
N n h
io
i
h
1 X
E (xi − µ)2 − E (x̄ − µ)2 =
N i=1
1
1 2
N −1 2
2
=
Nσ − N σ =
σ → σ2
N →∞
N
N
N
=
mentre invece si può dimostrare che s2 non è distorto in generale.
17
1.5
Legge dei grandi numeri e disuguaglianza
di Bienayme-Cebicev per la media aritmetica
Consideriamo una popolazione di varianza finita σ 2 . Dati due numeri positivi
ε0 e ε00 , la legge dei grandi numeri afferma che esiste sempre un numero
N tale che, per ogni campione di dimensione M ≥ N , si ha:
P (|x̄ − µx | ≥ ε0 ) ≤ ε00
(1.54)
Il che significa che, se si fa il giusto numero di misure, la probabilità che lo
scarto della media aritmetica dal valor vero sia maggiore di ε0 diventa sempre
più piccola al crescere di N . Vale inoltre la cosiddetta disuguaglianza
di Bienayme-Cebicev. Se x è una variabile aleatoria con distribuzione
associata f (x) e varianza finita σ 2 , allora:
P (|x − µ| ≥ λσ) ≤
1
λ2
(1.55)
per ogni λ ≥ 0.
Dimostriamo prima la disuguaglianza di Bienayme-Cebicev, ricordando che:
ˆ
P (|x − µ| ≥ λσ) =
f (x) dx
(1.56)
C∗
dove C ∗ è il dominio in cui si ha |x − µ| ≥ λσ. In tale regione, sarà anche
vero che:
(x − µ)2
|x − µ|
≥1⇒
≥1
(1.57)
λσ
λ2 σ 2
dunque:
ˆ
ˆ
(x − µ)2
(x − µ)2
P (|x − µ| ≥ λσ) ≤
f
(x)
dx
≤
f (x) dx
(1.58)
λ2 σ 2
λ2 σ 2
C∗
C
dove C è tutto il dominio di definizione della variabile aleatoria x. Segue
quindi:
h
i
1
1
2
P (|x − µ| ≥ λσ) ≤
E
(x
−
µ)
≤ 2
(1.59)
2
λ
(λσ)
da cui la tesi:
1
P (|x − µ| ≥ λσ) ≤ 2 .
(1.60)
λ
18
Ricordando ora che x̄ ha varianza σ 2 /N , possiamo dimostrare la legge dei
grandi numeri come conseguenza della disuguaglianza di Bienayme-Chebicev.
Difatti:


P


|x̄ − µ|


1
σ 
≥ λ√ 
≤ 2
λ
N  |{z}

| {z }
ε0
(1.61)
ε00
da cui la disuguaglianza è verificata se N è pari a:
σ2
ε02 · ε00
N=
(1.62)
e si sceglie M ≥ N .
1.6
Metodo della massima verosimiglianza
Supponiamo che, note le distribuzioni sottostanti a delle variabili aleatorie
xi , vogliamo stimare i parametri a = [a1 , a2 , . . . , aN ]T che determinano una
relazione funzionale associata alle variabili aleatorie del tipo f (xi , a). Se
ad esempio la relazione funzionale è quella lineare, vogliamo un metodo per
determinare stimatori che stimino i parametri a = [A, B]T associati alla
relazione:
y i = A + B · xi
(1.63)
La probabilità di osservare l’insieme y1 , . . . , yN di valori sarà data dal prodotto delle probabilità di osservare i singoli valori ciascuno, dunque:
dP = f (x1 , a) dx · f (x2 , a) dx · · · · · f (xN , a) =
N
Y
[f (xi , a) dx]
(1.64)
i=1
il principio della massima verosimiglianza asserisce allora che i parametri a che meglio stimano quelli veri saranno allora quelli che massimizzano
tale probabilità. Definita funzione di verosimiglianza la quantità:
L :=
N
Y
[f (xi , a)]
(1.65)
∂ 2L
∂L
= 0,
<0
∂ai
∂a2i
(1.66)
i=1
il principio è soddisfatto se:
19
Un estimatore di massima verosimiglianza è sempre asintoticamente non distorto, è sempre consistente, è sempre quello con efficenza migliore e sono
sempre invarianti sotto trasformazione dei parametri. Per comodità, si preferisce lavorare con il logaritmo di L nei calcoli, in quanto la produttoria si
trasforma in sommatoria:
w = log (L) =
N
X
[log (f (xi , a)]
(1.67)
i=1
1.7
Funzione di distribuzione di più variabili
aleatorie e covarianza
Se un fenomeno casuale dipende da più variabili aleatorie, è possibile descrivere la distribuzione di probabilità associata a tali variabili mediante una
densità di probabilità congiunta:
ˆ
f (x) = f (x1 , . . . , xN ) :
f (x) dx = 1
(1.68)
CN
i momenti si stimeranno in modo analogo al caso unidimensionale:
ˆ
E(xi ) =
xi · f (x) dx ≡ µi
(1.69)
CN
h
2
E (xi − µi )
ˆ
i
=
(xi − µi )2 f (x) dx ≡ σi2
(1.70)
CN
oltre a questi momenti banali però, si avrà un nuovo tipo di momento che
tiene conto della possibile “mescolanza” tra loro delle variabili aleatorie:
ˆ
E [(xi − µi ) · (xj − µj )] =
(xi − µi ) (xj − µj ) f (x) dx =
CN
ˆ
=
(xi xj + µi µj − xi µj − xj µi ) f (x) dx =
CN
i
= E [xi xj ] +µ
µj − 2 µi µj =
= E (xi xj ) − [E(xi ) · E (xj )] := Vij
20
(1.71)
la matrice:
V := Vij ≡ E (xi xj ) − E(xi ) E(xj )
(1.72)
è detta matrice di covarianza. Essa è una matrice simmetrica (Vij =
Vji ), i cui elementi diagonali sono le varianze associate alle variabili aleatorie
i-esime:
Vii = σ 2 (xi )
(1.73)
mentre gli elementi fuori diagonale sono detti termini di covarianza, e possono essere maggiori o minori di zero. In corrispondenza della covarianza,
si ha il cosiddetto coefficiente di correlazione per due variabili aleatorie,
definito come:
cov (xi , xj )
Vij
(1.74)
:=
ρ(xi , xj ) := q
σi · σj
Vii · Vjj
Il coefficiente di correlazione assume valori compresi tra −1 e 1: se il valore
è ±1, le due variabili aleatorie sono completamente correlate/anticorrelate,
mentre se il valore è 0 le due variabili sono completamente scorrelate. Un
esempio di perfetta correlazione si ha se x1 ed x2 sono in relazione lineare tra
loro, ad esempio x1 = A x2 , nel qual caso si avrà ρ = ±1 a seconda che A sia
positivo o negativo; un esempio di perfetta scorrelazione si ha se invece x1 ed
x2 generano una distribuzione uniforme del piano [0, 1] × [0, 1], nel qual caso
si avrà ρ = 0. In generale, più la distribuzione dei punti (xi , xj ) assomiglia
ad una retta, più ρ sarà vicino a 1. Un caso intermedio è dato da una
distribuzione di punti (xi , xj ) tale che questa coppia di punti cada nell’area
del primo quadrante di un piano cartesiano delimitata dalla relazione x21 +
x22 = 1 (dunque nella circonferenza unitaria passante per l’origine).
Si noti che, se le xi sono tutte indipendenti tra loro, allora la densità di
probabilità congiunta si può fattorizzare come:
f (x1 , . . . , xN ) =
N
Y
[f (xi )]
(1.75)
i=1
1.7.1
Dimostrazione del fatto che ρ ∈ [−1, 1]
Supponiamo di avere una relazione lineare. Allora:
σ 2 (x1 + Ax2 ) = σ 2 (x1 ) + A2 σ 2 (x2 ) + 2A · cov (x1 , x2 )
(1.76)
dato che σ 2 (x1 + Ax2 ) ≥ 0, segue:
σ 2 (x1 ) + A2 σ 2 (x2 ) + 2A · cov (x1 , x2 ) ≥ 0
21
(1.77)
Divido tutto per σ 2 (x1 ):
1 + A2
σ 2 (x2 )
σ (x2 ) cov (x1 , x2 )
≥0
+ 2A
2
σ (x1 )
σ (x1 ) σ (x1 ) σ (x2 )
|
{z
ρ(x1 ,x2 )
(1.78)
}
Definendo il rapporto σ (x2 ) /σ (x1 ) := α, segue:
1 + (Aα)2 + 2Aα ρ(x1 , x2 ) ≥ 0
(1.79)
ρ2 ≤ 1 ⇒ ρ ∈ [−1, 1].
(1.80)
il che significa che:
Se tutte le xi sono tra loro scorrelate, allora posso fattorizzare la densità di
probabilità:
f (x1 , . . . , xN ) =
N
Y
[f (xi )]
(1.81)
i=1
quindi:
ˆ
E (xi xj ) =
=
=
ˆ
ˆ
xi xj f (xi ) . . . f (xN ) dx1 . . . dxN =
xi xj f (xi ) · f (xj ) dxi dxj =
ˆ
xi f (xi ) dxi · xj f (xj ) dxj = E(xi ) · E(xj )
(1.82)
quindi Vij = 0 ⇒ ρ = 0.
1.8
Gaussiana multivariata
La funzione di distribuzione associata ad N variabili aleatorie gaussiane
correlate tra loro è data dalla cosiddetta gaussiana multivariata:
1
(1.83)
φ(x) = k · exp − (x − a)T · B · (x − a)
2
dove:
1
q
k := q
(1.84)
(2π)n · det (B−1 )
a := [µ1 , µ2 , . . . , µN ]
B := V = Vij
−1
22
(1.85)
(1.86)
e tale che:
ˆ
φ(x) · dx = 1
(1.87)
RN
nel caso di solo 2 variabili aleatorie, si ha:
#−1
cov (x1 , x2 )
σx21
B=
cov (x1 , x2 )
σx22
"
=
1
−cov (x1 , x2 )
σx22
2 −cov (x , x )
σx21
1
2
− [cov (x1 , x2 )]
#
"
=
σx21 σx22
(1.88)
Supponendo che x1 e x2 siano scorrelate, si avrà:
−1
(σ12 )
B=
0
"
0
2 −1
(σ2 )
#
(1.89)
1
(x1 − µ1 )2
(x2 − µ2 )2
φ(x1 , x2 ) =
exp −
exp −
2πσ1 σ2
2σ12
2σ22
!
!
(1.90)
dunque la gaussiana bidimensionale nel caso di due variabili aleatorie scorrelate è semplicemente il prodotto di due gaussiane. Nel caso in cui sono
correlate invece, si avrà:
−1
1
−ρ (σ1 σ2 )−1
(σ12 )
B=
−1
1 − ρ2 −ρ (σ1 σ2 )−1
(σ22 )
1
−G
2
√
φ(x1 , x2 ) =
e
2πσ1 σ2 1 − ρ2
"
#
(1.91)
(1.92)
dove:
1
(x1 − µ1 )2 (x2 − µ2 )2
x1 − µ 1
G :=
+
− 2ρ
2
2
2
1−ρ
σ1
σ2
σ1
"
1.9
x 2 − µ2
σ2
#
(1.93)
Determinazione grafica dei parametri di
massima verosimiglianza
l’uso del metodo della massima verosimiglianza presuppone che la forma analitica della densità di probabilità da analizzare sia specificata a priori. Essa
può tuttavia essere anche massimizzata con procedure numeriche, nel caso in
cui non si può determinare una forma analitica della f (xi , a), o analizzata mediante approssimazioni e metodi grafici nel caso in cui essa sia completamente
ignota a priori.
23
1.9.1
Un parametro
Notiamo innanzitutto che la funzione di massima verosimiglianza L è asintoticamente normale, dunque se si ha solamente un parametro θ che caratterizza
la relazione funzionale:

L(xi , θ) ∝ exp 
−
dove:
θ − θ̂


V θ̂
∂ 2 log (L)
V θ̂ := −
∂θ2
"
2 
(1.94)
#−1
(1.95)
possiamo allora stimare θ con la sua incertezza analizzando L(θ) graficamente. La stima di massima verosimiglianza di θ sarà quel valore per il quale
L(θ) è massimo, mentre l’incertezza si può ottenere stimando per quali valori
di θ si ha L = e−0.5 Lmax (cioè la FWAHM della distribuzione):
Figura 1.1: determinazione grafica della stima θ̂ di massima verosimiglianza
nel caso di L gaussiana (a) e non gaussiana (b).
24
1.9.2
Due parametri
Nel caso di due parametri, la funzione L(θ1 , θ2 ) sarà una gaussiana bidimensionale:




1
 θ1 − θ̂1
L(θ1 , θ2 ) = Lmax exp −


σ12
 2 (1 − ρ2 )

2
+
θ2 − θ̂2
σ22
2
+


θ1 − θ̂1   θ2 − θ̂2 
−2ρ 

σ1
σ2
(1.96)
la miglior stima di (θ1 , θ2 ) si avrà sempre rintracciando il punto di massimo
di L, mentre la FWAHM sarà data da una curva di livello, cioè un’equazione
implicita in θ1 e θ2 pari a:

1  θ1 − θ̂1

1 − ρ2
σ12
2
+
θ2 − θ̂2
σ22
2



θ1 − θ̂1   θ2 − θ̂2 
− 2ρ 
=1
σ1
σ2
(1.97)
che è l’equazione di un ellisse, noto come ellisse di covarianza, centrata
su (θ1 , θ2 ) e il cui asse principale è inclinato rispetto all’asse θ1 di un angolo
pari a:
!
1
2ρσ1 σ2
α = arctan
(1.98)
2
σ12 − σ22
25
Figura 1.2: Gaussiana bidimensionale L(θ1 , θ2 ), con sovraimposte le curve di
livello associate ad e−0.5 Lmax , e−2 Lmax ed e−4.5 Lmax , rispettivamente dall’alto
verso il basso.
Figura 1.3: Curve di livello date dall’equazione dell’ellisse di covarianza.
26
Capitolo 2
Regressione
2.1
Regressione lineare
Molti problemi scientifici richiedono di determinare una relazione tra insiemi
di variabili aleatorie. In molte di queste situazioni, c’è una singola variabile
aleatoria di risposta Y ad un input di r variabili aleatorie xj diverse tra loro.
La più semplice relazione di questo tipo è quella lineare, cioè quella avente
la forma:
Y = β0 + β1 x1 + · · · + βr xr
(2.1)
nella realtà tuttavia, ci sarà sempre una fluttuazione dei punti1 (Yi , xj,i ) rispetto alla retta attesa, dovuta agli errori sperimentali. Ciò significa che la
vera relazione sarà del tipo:
Y = β 0 + β 1 x1 + · · · + β r xr + ε
(2.2)
dove ε è l’errore casuale, che sappiamo essere una variabile aleatoria avente
media nulla. Questo significa che il valore atteso della variabile aleatoria
Yi (xi ) è proprio la retta che ci si aspetterebbe nel caso senza errore, che
possiamo scrivere in forma compatta usando la notazione vettoriale come:
E[Yi (xi )] = β0 + βi xi
(2.3)
dove β = [β1 , . . . , βr ] e x = [x1 , . . . , xr ]. L’equazione (2.2) è nota come
equazione di regressione lineare. Il caso più semplice è quello di una
1
l’indice “j” indica la j-esima variabile aleatoria considerata, mentre l’indice “i” indica
l’i-esimo punto del grafico multidimensionale Y (x1 , . . . , xr ). Nel caso in cui si ha una sola
variabile, i è l’indice che definisce quale punto sul piano xY si sta considerando.
27
sola variabile aleatoria, nel qual caso si avrà una equazione di regressione
semplice. i coefficienti β sono invece noti come coefficienti di regressione. Si noti che l’equazione di regressione semplice, nel caso in cui i parametri
β0 e β1 fossero noti senza errore, effettivamente definisce un fascio improprio
di rette, che fluttuano attorno alla “vera retta” a causa dell’errore ε.
2.2
Estimatori dei minimi quadrati dei parametri di regressione lineare
I parametri β0 e β1 non sono tuttavia noti senza errore. Vogliamo allora
determinare degli stimatori A e B rispettivamente di questi due parametri,
associati alla retta di regressione lineare:
Yi = A + Bxi
(2.4)
determinati A e B, questa retta sarà infatti la miglior stima della “retta
vera”. Definiamo somma dei quadrati dei residui tra i “veri” output Yi
e quelli attesi dallo stimatore A + Bxi come:
SSR =
N
X
(Yi − A − Bxi )2
(2.5)
i=1
Il metodo dei minimi quadrati sceglie come stimatori di β0 e β1 quei
valori di A e B che minimizzano SSR . Deriviamo SSR prima rispetto ad A
e poi rispetto a B:
N
X
∂ (SSR )
= −2
(Yi − A − Bxi )
∂A
i=1
(2.6)
N
X
∂ (SSR )
= −2
xi (Yi − A − Bxi )
∂B
i=1
(2.7)
ponendo tali valori pari a zero, si ottiene il seguente sistema di equazioni,
noto come sistema delle equazioni normali:

N
X




Yi


i=1
N

X




i=1
= NA + B
xi Y i = A
N
X
xi
i=1
N
X
xi + B
i=1
28
N X
i=1
(2.8)
x2i
Possiamo risolvere il sistema rispetto ad A e B per sostituzione. Indicando
con Ȳ e x̄ le medie arimetiche:
N
1 X
Yi
N i=1
(2.9)
N
1 X
xi
x̄ :=
N i=1
(2.10)
Ȳ :=
si può risolvere la prima equazione normale implicitamente rispetto ad A:
A = Ȳ − B x̄
(2.11)
sostituendo tale valore di A nella seconda equazione, si ha:
N
X
xi Yi = Ȳ − B x̄ N x̄ + B
N
X
x2i →
i=1
i=1
→B
N
X
!
x2i − N x̄2 =
i=1
N
X
xi Yi − N x̄Ȳ →
i=1
N
X
B=
(xi Yi ) − N x̄Ȳ
i=1
N X
x2i − N x̄2
i=1
dunque gli stimatori A e B saranno dati da:
N
X
B=
(xi Yi ) − x̄
i=1
N
X
(Yi )
i=1
N X
(2.12)
x2i − N x̄2
i=1
A = Ȳ − B x̄
2.3
(2.13)
Distribuzione degli estimatori
Vediamo ora quale sia la distribuzione associata a tali stimatori. Per fare
ciò, supporremo che la variabile aleatoria ε sia associata ad una distribuzione
normale avente media 0 e varianza σ 2 . Ciò significa che anche le Yi variabili
29
aleatorie avranno una distribuzione normale, saranno indipendenti tra loro
e avranno una varianza che non dipende dai valori in input, ma sarà invece
costante e pari proprio a σ 2 . Tale valore si suppone non noto a priori, e va
stimato a sua volta a partire dai dati.
Per quanto riguarda B quindi, esso può essere riscritto come:
N
X
B=
i=1
N
X
[(xi − x̄) Yi ]
(2.14)
(x2i ) − N x̄2
i=1
il che significa che B è una combinazione lineare delle variabili aleatorie Yi
distribuite normalmente (sotto l’ipotesi effettuata in partenza sulla distribuzione degli errori), e dunque anche B sarà distribuito normalmente. Il valore
atteso dello stimatore è:
[(xi − x̄) (β0 + β1 xi )]
(xi − x̄) E (Yi )
= i P 2
=
E (B) = P 2
2
2
i (xi ) − N x̄
i (xi ) − N x̄
P
P
P
P
β0 i (xi − x̄) + β1 i [xi (xi − x̄)]
[ i x2i − x̄ i xi ]
=
= β1 P 2
P
2
2
2
i (xi ) − N x̄
i (xi ) − N x̄
P
P
i
Ma essendo i (xi − x̄) = 0, il numeratore della frazione si semplifica con il
denominatore, e quindi:
E(B) = β1
(2.15)
P
dunque B è uno stimatore non distorto di β1 . Per quanto riguarda la varianza
invece:
Var
Var (B) =
N
X
!
[(xi − x̄) Yi ]
i=1
N
X
x2i
− N x̄
2
!2
P h
=
i
(xi − x̄)2 Var (Yi )
(
i
P
i
2
x2i − N x̄2 )
i=1
2 ((
2
σ 2 · i (xi − x̄)2
σ 2(
( (i (
(x(
i ) − N x̄ )
= P 2
=
2 =
P
2
( i (xi ) − N x̄2 )
( i (x2i ) − N x̄2 )
σ2
=P 2
2
i (xi ) − N x̄
P
P
30
(
((
=
In definitiva, B fluttua attorno a β1 con varianza:
σ2
2
2
i (xi ) − N x̄
σB2 = P
(2.16)
Per quanto riguarda A invece, con ragionamenti analoghi a prima si può
dimostrare che A ha anch’essa sotto le stesse ipotesi distribuzione normale,
il cui valore atteso è pari a:
E (A) =
N
X
i=1
N
X
E (Yi )
β0 + β1 xi
− x̄E (B) =
N
N
i=1
!
!
− x̄β =
1
1
= β0
+β
x̄
−β
x̄ = β0
(2.17)
dunque anche A è uno stimatore non distorto, mentre la sua varianza si può
dimostrare essere pari a:
σA2
2.4
σ 2 i (x2i )
=
P
N [ i (x2i ) − N x̄2 ]
P
(2.18)
Estimatore della varianza σ 2
Consideriamo nuovamente la somma dei quadrati dei residui:
SSR =
N
X
(Yi − A − Bxi )2
(2.19)
i=1
possiamo usare tale quantità per stimare la varianza σ 2 ignota associata agli
Yi . Si può dimostrare che:
SSR
∼ χ2N −2
(2.20)
σ2
dunque la somma dei quadrati dei residui diviso per la varianza degli Yi ha
distribuzione chi-quadrato con N − 2 gradi di libertà. Ciò significa che:
E
SSR
σ2
= N − 2 ⇒ σ2 = E
SSR
N −2
(2.21)
quindi lo stimatore della varianza associata agli Yi è la quantità:
S=
SSR
N −2
31
(2.22)
Se chiamiamo:
SxY :=
Sxx :=
SY Y :=
N h
X
i=1
N
X
(xi − x̄) Yi − Ȳ
i
=
N
X
(xi Yi ) − N x̄Ȳ
(2.23)
i=1
(xi − x̄)2 =
i=1
N X
Yi − Ȳ
2
N X
x2i − N x̄2
i=1
N X
=
i=1
Yi2 − N Ȳ 2
(2.24)
(2.25)
i=1
allora un’identità computazionale per SSR sarà data da:
SSR =
2
Sxx SY Y − SxY
Sxx
(2.26)
inoltre è possibile scrivere in forma compatta lo stimatore B come:
B=
SxY
Sxx
(2.27)
Si noti inoltre che, dalla (2.26), SSR si può riscrivere come:
SSR = 1 −
2
SxY
≡ 1 − ρ2
Sxx SY Y
(2.28)
dove ρ è proprio il coefficiente di correlazione. Possiamo quindi scrivere che:
S=
2.5
1 − ρ2
N −2
(2.29)
Test d’ipotesi statistica sui parametri di
regressione
vediamo ora come effettuare dei test d’ipotesi per determinare se una retta
di regressione lineare si adatta o meno ai dati da analizzare.
2.5.1
Test d’ipotesi riguardanti β1
Il primo test interessante riguardante il parametro β1 è verificare se esso sia
compatibile o no con lo zero. Definiamo innanzitutto ipotesi nulla (e la
32
indichiamo con H0 ) un’ipotesi statistica di default, che solitamente coincide
con quella riguardante il fatto che non ci sia “nulla di nuovo” nell’esperimento eseguito (ad esempio nessuna correlazione, nessuna variazione della
pendenza della retta, nessuna correlazione tra due variabili aleatorie, etc...).
In questo caso, definiremo:
H0 : β1 = 0
(2.30)
che andrà confrontata con un’ipotesi alternativa, che in questo caso è una
sola possibile e sarà quella che il parametro β1 non sia nullo:
H1 : β1 6= 0
(2.31)
vediamo ora come testare l’ipotesi nulla. Innanzitutto, consideriamo la quantità:
B − β1
q
(2.32)
σ 2 /Sxx
essa si può verificare essere pari a:
B − β1
q
σ 2 /Sxx
=
q
Sxx
(B − β1 )
∼ N (0, 1)
σ
(2.33)
tale quantità è indipendente da:
SSR
∼ χ2N −2
σ2
(2.34)
Si definisce distribuzione t di Student avente ν gradi di libertà la distribuzione:
N (0, 1)
tν = q
(2.35)
χν /ν
ciò significa che:
B − β1
tN −2 ∼ q
σ 2 /Sxx
q
·√
SSR
σ2
N −2
s
=
(N − 2) Sxx
(B − β)
SSR
(2.36)
quindi, l’ipotesi nulla H0 è vera se e solo se vale l’equivalenza:
s
(N − 2) Sxx
B ∼ tN −2
SSR
33
(2.37)
Il test d’ipotesi nulla riguardante β = 0 sarà allora fatto come segue: dato
un livello di significatività γ scelto a priori dallo sperimentatore, l’ipotesi
nulla sarà:
s
(N − 2) Sxx
|B| > tγ/2, N −2
SSR
vera altrimenti
(2.38)
falsa se
(2.39)
per verificare ciò, si calcola:
s
v=
(N − 2) Sxx
|B|
SSR
(2.40)
e si rigetta l’ipotesi nulla se γ è almeno grande quanto il valore:
p-valore = P (|tN −2 | > v) = 2P (tN −2 > v)
(2.41)
queste probabilità si possono ricavare mediante tabelle online, o programmi
di calcolo numerico.
Nel caso in cui β1 non sia nullo invece, una stima dell’intervallo di confidenza
per β1 al 100 (1 − a) %, con a ∈ [0, 1], è dato da:
s
"
B−
2.5.2
SSR
ta/2, N −2 , B +
(N − 2) Sxx
s
SSR
ta/2, N −2
(N − 2) Sxx
#
(2.42)
Test d’ipotesi riguardanti β0
La determinazione degli intervalli di confidenza di β0 si fa in modo analogo
al caso di β1 . Ciò significa che varrà l’uguaglianza:
v
u
u N (N − 2) Sxx
t P
(x2 ) SS
i
R
i
(A − β0 ) ∼ tN −2
(2.43)
l’intervallo di confidenza per β0 al 100 (1 − a) % sarà l’intervallo:
v
u P
2
u
i (xi ) SSR
A − t
v
u P
u
(x2 ) SSR
A+t i i

N (N − 2) Sxx
ta/2, N −2 ,
N (N − 2) Sxx

ta/2, N −2 
(2.44)
e l’ipotesi nulla associata a β0 = 0 con livello di significatività γ sarà:
falsa se
v
u
u N (N − 2) Sxx
t P
(x2 ) SS
i
|A| > tγ/2, N −2
(2.45)
R
i
vera altrimenti
(2.46)
34
2.5.3
Test d’ipotesi riguardante la risposta media β0 +
β1 x0
Fissato un certo x0 , è interessante analizzare la variabile aleatoria A + Bx0 .
Innanzitutto, si noti che questa quantità è uno stimatore non distorto di
β0 + β1 x0 , in quanto:
E (A + Bx0 ) = E (A) + x0 E (B) = β0 + β1 x0
(2.47)
la variabile aleatoria A + Bx0 si può dimostrare essere normalmente distribuita attorno a questo valore atteso. Definito:
c=
1
Sxx
(2.48)
La varianza di A + Bx0 sarà pari a:
Var (A + Bx0 ) =
N X
i=1
=σ
2
N
X
i=1
=σ
2
=σ
2
2
1
− c (xi − x̄) (x̄ − x0 )
N
"
Var (Yi ) =
(x̄ − x0 )
1
− c2 (x̄ − x0 )2 (xi − x̄)2 − 2c (xi − x̄)
=
2
N
N
#
"
N
N
X
X
(xi − x̄)
1
+ c2 (x̄ − x0 )2
(xi − x̄)2 − 2c (x̄ − x0 )
=
N
N
i=1
i=1
"
1
(x̄ − x0 )2
+
N
Sxx
#
#
dunque:
2
σA+Bx
0
=σ
2
"
(x̄ − x0 )2
1
+
N
Sxx
#
(2.49)
anche in questo caso, essendo A + Bx0 distribuito normalmente, varrà l’equivalenza:
A + Bx0 − (β0 + β1 x0 )
r
∼ tN −2
(2.50)
q
(x0 −x̄)2
SSR
1
+ Sxx
N
N −2
da cui si può avere un intervallo di confidenza per β0 + β1 x0 , al 100(1 − a)%
di confidenza:
(A + Bx0 ) ±
v
u
u
t
1
(x0 − x̄)2
+
N
Sxx
35
s
SSR
ta/2, N −2
N −2
(2.51)
2.6
Coefficiente di determinazione e coefficiente di correlazione lineare
Innanzitutto, notiamo che la quantità:
SY Y =
N X
Yi − Ȳ
2
(2.52)
i=1
indica quanto le ordinate Yi scartino dal valor medio Ȳ . La quantità:
SSR =
N
X
(Yi − A − Bxi )2
(2.53)
i=1
indica invece quanto le ordinate Yi scartino dalla retta di regressione. La
quantità:
SY Y − SSR
(2.54)
rappresenta la quantità di scarto delle ordinate Yi dal valor medio che è
spiegato dai differenti input xi . È dunque interessante definire la quantità:
R2 :=
SSR
SY Y − SSR
=1−
SY Y
SY Y
(2.55)
tale quantità è nota come coefficiente di determinazione. Esso avrà valori
compresi nell’intervallo:
R2 ∈ [0, 1]
(2.56)
un valore di R2 vicino ad 1 indica che la maggior parte dello scarto nelle
ordinate Yi dal valor medio è spiegato dai differenti input xi , mentre un
valore di R2 vicino a 0 indica che nessuno degli scarti delle ordinate Yi dal
valor medio è spiegato dagli altri input xi . Ciò significa che il valore di R2
è un indicatore di quanto bene il modello di regressione scelto fitta i dati. In
altre parole, se il modello di regressione riesce a spiegare la maggior parte
degli scarti degli Yi dal valor medio, allora il modello si ritiene essere buono.
Ricordiamo ora che, dalla relazione (2.28), il coefficiente di correlazione si
scrive come:
i
P h
(x
−
x̄)
Y
−
Ȳ
i
i
i
(2.57)
ρ= r
2
P
2P
i (xi − x̄)
i Yi − Ȳ
36
Notiamo ora che:
2
SxY
Sxx SY Y − SSR Sxx
SSR
ρ =
=
=1−
≡ R2
Sxx SY Y
Sxx Syy
SY Y
2
dunque:
|ρ| =
√
R2
(2.58)
(2.59)
e quindi, eccetto per un segno che indichi se si ha correlazione o anticorrelazione, R2 è proprio pari al quadrato del coefficiente di correlazione.
2.7
Analisi dei residui
Il primo passo per capire se un modello di regressione lineare è appropriato
per fittare dei dati è quello di guardare il diagramma di dispersione,
cioè il grafico dei punti (xi , Yi ). Se l’ “aspetto” del grafico non permette
di convincersi del fatto che il modello sia corretto o meno, allora bisogna
effettuare un’analisi dei residui Yi − A − Bxi .
√
L’analisi inizia normalizzando i residui, dividendoli per S:
Yi − (A + Bxi )
Yi − A − Bxi
√
=q
S
SSR / (N − 2)
(2.60)
quantità nota come residui standardizzati. Se il modello di regressione
lineare è corretto, essi sono approssimativamente delle variabili aleatorie indipendenti con distribuzione normale, e dovrebbero dunque essere distribuiti
normalmente attorno a 0 con il 95% dei valori che cadono tra −2 e 2. Un
diagramma di dispersione dei residui standardizzati inoltre non dovrebbe
mostrare alcun pattern funzionale. Ogni indicazione di un “grafico” associato allo diagramma di dispersione dei residui standardizzati è un indice che
pone sospetto sulla validità di un modello di regressione lineare associato
ai dati. Nel primo grafico seguente, verrà mostrato un caso in cui i residui
standardizzati si comportano correttamente, mentre nel secondo grafico verrà
mostrato un diagramma di dispersione in cui i residui hanno un andamento
non distribuito casualmente tra −2 e 2.
37
Figura 2.1: Caso 1: la correlazione lineare non è sospetta
38
Figura 2.2: Caso 2: la correlazione lineare è sospetta.
Si noti inoltre che non sempre è così semplice riconoscere “ad occhio” se i
residui sono distribuiti per bene: nella figura seguente si ha un’analisi dei
residui che pone sospetto nel modello di regressione lineare, in quanto c’è un
aumento dello scarto degli Yi per alti valori di xi . Ciò non significa tuttavia
che l’ipotesi di regressione lineare sia per forza falsa: solitamente questo caso
significa che la varianza associata agli Yi non è costante, ma aumenta in modo
correlato al valore in input xi .
39
Figura 2.3: Caso 3: l’ipotesi di linearità non è completamente trascurabile,
ma la varianza associata ai punti potrebbe semplicemente non essere costante.
2.8
Test d’ipotesi sulla correlazione lineare
Una volta determinato il coefficiente di correlazione lineare, è necessario verificare delle ipotesi statistiche su di esso. Se innanzitutto si vuole verificare
che la correlazione tra due variabili x ed y sia significativamente diversa da
zero, si può calcolare il valore di:
√
ρ N −2
(2.61)
t= √
1 − ρ2
tale variabile aleatoria si può dimostrare essere distribuita come una distribuzione t di Student con N − 2 gradi di libertà. A questo punto si può rigettare
l’ipotesi nulla ρ = 0 se tale variabile è significativamente diversa da zero.
Rispetto al valor vero ρvero della correlazione lineare inoltre, il valore ρ della
correlazione lineare stimato dai dati (coefficiente di correlazione lineare del
campione) è distribuito in modo tale che la variabile aleatoria:
s
Z(ρ) = log
1+ρ
1−ρ
!
=
1
[log (1 + ρ) − log (1 − ρ)]
2
40
(2.62)
detta variabile di Fisher, sia associata ad una distribuzione approssimativamente normale, con valor medio e varianza pari a:
E (Z(ρ)) = Z(ρvero )
1
2
σZ(ρ)
=
N −3
(2.63)
(2.64)
la variabile di Fisher è invertibile, e l’inversa è data da:
ρ(Z) =
e2Z − 1
e2Z + 1
(2.65)
a questo punto:
1. Se si vuole verificare se il valore della correlazione lineare ρ ottenuto è
compatibile con un certo valore ρvero , si può controllare la compatibilità
di Z(ρ) con la distribuzione normale N (Z(ρvero , σZ ))
2. Se si vuole calcolare un intervallo di confidenza per ρvero , si può usare l’intervallo di confidenza corrispondente alla distribuzione normale
associata, avente deviazione standard σZ
3. Per verificare se due coefficienti di correlazione lineare ρ1 e ρ2 , associati rispettivamente ad un set di dati (xi , yi ) con N1 e con N2 punti
disponibili, sono o meno significativamente differenti, si può calcolare
la variabile aleatoria:
Z1 (ρ1 ) − Z2 (ρ2 )
δ := s
1
1
+
N1 − 3 N2 − 3
(2.66)
tale variabile aleatoria segue asintoticamente la distribuzione normale avente media E(Z1 ) − E(Z2 ) e varianza 1. Si può a questo punto
verificare se il risultato ottenuto per δ è compatibile o meno con lo
zero.
2.9
Correlazione tra i parametri di regressione lineare
I parametri della retta di regressione devono essere necessariamente correlati.
Si può dimostrare che la covarianza tra i parametri A e B della correlazione
41
lineare è data da:
Cov (A, B) = −
dove:
∆ := N
N X
x2i
P
!
(xj ) 2
σ
∆
j
−
i=1
N
X
(2.67)
!2
xi
(2.68)
i=1
e σ 2 è ancora la varianza comune associata alle ordinate Yi . L’espressione
della covarianza si può inoltre riscrivere come:
Cov (A, B) = −
dove:
Var (x) :=
σ2
x̄
·
N Var (x)
x2i
−
N
"P
i
P
xi
N
i
2 #
(2.69)
(2.70)
che è sempre diversa da zero se x̄ 6= 0. Si noti inoltre che il segno della
covarianza è opposto a quello di x̄, cosa che è dovuta al fatto che la retta
di regressione deve necessariamente passare per il punto (x̄, Ȳ ): se dunque
supponiamo che x̄ sia positivo, un aumento della pendenza della retta deve
essere necessariamente controbilanciato da una diminuzione del valore dell’intercetta all’origine, in modo che la retta di regressione continui a passare
per il punto (x̄, Ȳ ).
42
Capitolo 3
Machine Learning
3.1
Introduzione
Il machine learning è una branca dell’intelligenza artificiale che raccoglie
una serie di metodi basati sul miglioramento progressivo e autonomo di un
algoritmo preposto ad elaborare o identificare pattern nei dati forniti. A differenza dei metodi classici, gli algoritmi di machine learning si focalizzano
sul predire il risultato, piuttosto che stimarlo numericamente. Questo, e la
focalizzazione sui risultati empirici e sull’intuizione piuttosto che sulla formalizzazione analitica del problema, rendono tali algoritmi efficaci per affrontare
problemi complessi, con strutture di dati ad alta dimensionalità.
Per comprendere come mai sia importante il machine learning, si può partire
da un esempio concreto. Supponiamo di avere un certo numero di lettere, da
recapitare a dei codici postali numerici scritti a mano sulle stesse. Il fatto che
i grafemi siano scritti a mano è un problema, in quanto ogni numero sarà in
linea di principio scritto in modo leggermente diverso, e dunque c’è bisogno
di un metodo per interpretare i simboli e associarli ad un numero oggettivo.
L’idea è quella di costruire una macchina dotata di telecamera, la quale idealmente è capace di interpretare il grafema e di ricostruire il simbolo corrispondente. Nella pratica, per realizzare un algoritmo di questo tipo ci si ispira al
modo in cui un cervello animale riesce ad effettuare la stessa operazione. Nel
caso biologico infatti, sono presenti dei neuroni, che essenzialmente prendono mediante un certo numero di dendriti dei segnali di input in parallelo,
li elabora e restituisce attraverso gli assoni un output “elaborato” in modo
43
non-lineare, come in questa figura:
Ciò che si fa quindi è considerare un sistema informatico formato da unità
computazionali simili a neuroni, che ricevono gli input, li elaborano applicando una funzione non-lineare e li restituiscono in output:
nel nostro caso d’esempio, supponendo per semplicità che gli “hidden layers”
non esistano, avremo solo gli input layer e l’output layer. Negli input
44
layer arriveranno i valori xj di luminosità associati ciascuno al j-esimo pixel
dell’immagine scattata dalla fotocamera. L’input layer utilizzerà dei pesi,
cioè una certa matrice wij , e un bias, cioè un valore b costante, per generare
una funzione vettoriale lineare di input hi del tipo:
hj =
N
X
wij xi + b ⇒ h = w · x + b
(3.1)
i=1
a questo punto sempre gli input layer applicheranno una particolare funzione nonlineare σ(h) al vettore di input (che può essere ad esempio σ(h) =
tanh (h), oppure σ (h) = (1 + exp (−h))−1 , o altri tipi più intricati), in modo da restituire un vettore di output y = yj le cui coordinate siano valori
compresi tra 0 e 1 che descrivono la probabilità che l’immagine corrisponda
ad un numero intero tra 0 e 9.
Avendo fissato il processo, si procede con il cosiddetto learning. Esso consiste nel sottoporre la macchina a delle immagini di training, cioè un
particolare campione esemplificativo che mostri un certo numero di tipologie di numeri da 0 a 9 scritti in modi relativamente diversi tra loro, su cui
la macchina dovrà allenarsi per massimizzare la probabilità che l’output sia
effettivamente quello associato al numero inviato in input.
Il modo in cui si procede è quello di fornire l’immagine, e far restituire all’algoritmo un output con una matrice dei pesi wij inizializzata a certi valori casuali. Si utilizza poi una funzione di costo, che funge da criterio
per determinare quantitativamente la discrepanza dell’output ottenuto nella
pratica dal valore vero che ci si aspetta di ottenere. Solitamente si sceglie la
cosiddetta cross-entropy, cioè la funzione:
E (y0 , y) = −
10
X
yj0 log (yj )
(3.2)
j=1
dove yj sono i valori di probabilità ottenuti effettivamente dal neurone di output, e yj0 quelli ideali che ci si aspetta di ottenere dall’immagine (nel nostro
caso di esempio, 1 per un certo numero e 0 per tutti gli altri). Ottenuto il
valore della funzione di costo, si modificano i pesi wij in modo tale da avvicinarsi quanto più possibile al minimo assoluto1 di E(y0 , y), e si riprova con
1
Si noti che tale minimo si deve cercare in uno spazio dei parametri a dimensione
enorme, tanto più grande quante più variabili si introducono: il costo computazionale
degli algoritmi di minimizzazione di funzioni iterativi che studieremo è quasi sempre molto
elevato, in quanto si basano su calcoli del gradiente e dell’hessiano.
45
un’altra immagine di training. Il processo si itera finché l’output ottenuto
è soddisfacente: a questo punto si fissa la matrice wij come quella migliore
possibile per ottenere l’output desiderato e si ritiene completato il learning.
La macchina a questo punto è pronta per svolgere il suo lavoro, seppur è
necessario accettare il fatto che con questo meccanismo ci sarà sempre la
probabilità di avere saltuariamente un risultato sbagliato (in quanto gli algoritmi di machine learning si può dimostrare che convergono al risultato
atteso in modo asintotico e solo probabilisticamente).
È possibile inoltre dotare la macchina di hidden layers aggiuntivi. Il loro
scopo è molteplice: generalmente è quello di trasformare l’output σ(h) degli input layer in un valore accettabile dall’output layer, oppure di fornire
all’algoritmo la possibilità di calcolare elementi complicati del fenomeno che
solo una funzione nonlineare non è capace di riprodurre (ad esempio una
funzione composta σ1 (σ2 (h)) che non è riproducibile con solo una funzione
nonlineare), oppure di separare il problema di riconoscimento in più sottoproblemi (ad esempio se si vuole riconoscere l’immagine di un furgone tra
tante immagini di veicoli, si può utilizzare un hidden layer per riconoscere
le ruote, un altro hidden layer per riconoscere figure rettangolari e un altro
hidden layer per discriminare la dimensione). A seconda di quanti hidden
layer sono presenti nell’algoritmo, esso si definirà:
• A single layer: nessun hidden layer
• Shallow: un hidden layer
• Deep: molti hidden layers
In definitiva quindi, un algoritmo di machine learning si può generalizzare
con questo diagramma di flusso:
46
fornire vettore xi in
input
modifica dei pesi wij
Input layer:
linearizzazione
mediante pesi
hi =wij xj +b
nonlinearità:
f(hi)
modifica dei pesi w'ij
hidden layer(s):
trasformazione
ulteriore dei dati
g(w'ijf(hi)+b')
output layer:
predizione yi
valori attesi y'i
Ottimizzazione
dei pesi (algoritmi
GD)
funzione di costo
Il processo di learning ed il programma finale saranno più o meno complicati
a seconda delle seguenti tipologie di complessità:
• Complessità computazionale: quanto è difficile in termini di memoria trovare il minimo della funzione di costo
• Complessità del modello: la dimensione dello spazio dei parametri
in gioco
• Complessità dei dati: quanto gli esempi forniti alla macchina sono rappresentativi dell’intera popolazione possibile dei dati esistenti in
47
natura (ad esempio se si è utilizzato un training di lettere scritte in
america, e poi si considerano lettere scritte in russia, i dati potrebbero
cambiare in maniera troppo significativa)
3.2
Categorie di machine learning
Esistono due2 sottocategorie principali associate al machine learning: l’ unsupervised learning, che si occupa di raggruppare ( clustering) e interpretare i dati basandosi solo sul set di dati in input, e il supervised learning,
che si occupa di generare algoritmi capaci di predirre l’output di input successivi sulla base di un set di dati in input e in output forniti precedentemente.
Quest’ultimo tipo di learning si suddivide a sua volta in due sottocategorie principali: problemi di classificazione, che si occupano di prevedere a
quale categoria appartiene un successivo input, e problemi di regressione,
che si occupano di determinare quale sia il valore di output associato ad un
successivo input. Graficamente quindi, si hanno le seguenti sottocategorie:
Vediamo ora un esempio che rappresenti ciascuna sottocategoria.
1. Unsupervised learning: consideriamo come input 18 coppie di misure, associate rispettivamente alle larghezze dei sepali (asse x) e alle
larghezze dei petali (asse y) di alcuni fiori. L’algoritmo di machine
learning di questa sottocategoria verrà allenato a raggruppare i punti
a seconda delle due specie possibili: “versicolore” o “virginica”. Tale
2
in realtà esiste anche una terza sottocategoria, chiamata reinforcement learning,
ma esula dagli scopi del corso.
48
classificazione viene effettuata allenando la macchina su un training set
di misure associate alle versicolore e di misure associate alle virginiche,
e il risultato del clustering effettuato è mostrato nel grafico seguente:
in definitiva, questo algoritmo ha preso i punti in input e li ha clusterizzati in due sottocategorie, con due segnalini diversi a seconda della
specie, basandosi su un gran numero di caratteristiche di questo tipo associate alle due specie e imparate durante il learning. In questo
caso quindi, non c’è nessuna predizione, solo una categorizzazione di
elementi.
2. Supervised learning, classificazione: consideriamo come input sempre le 18 coppie di misure associate alle lunghezze dei sepali e dei petali
dei fiori. L’algoritmo di machine learning di questa sottocategoria verrà
allenato a prevedere se i nuovi input forniti al programma faranno parte della categoria “versicolore” o “virginica”. Un esempio è mostrato
nel grafico seguente, dove la macchina dovrà decidere se il nuovo punto
rosso in input va colorato di blu o di arancione:
49
Questo algoritmo ha quindi preso i punti in input già clusterizzati
e dovrà decidere se quelli nuovi che verranno forniti al programma
appartengono ad una o all’altra categoria.
3. Supervised learning, regressione: Consideriamo questa volta come
input solo la coordinata x (cioè la larghezza del sepalo). L’algoritmo
di machine learning di questa sottocategoria verrà allenato a prevedere
quale sia il valore della coordinata y associata ad un nuovo input x,
sulla base di un set di dati precedente. Un esempio è mostrato nel
grafico seguente, dove la macchina dovrà capire dove si colloca il nuovo
punto sul grafico a partire dalla coordinata x tratteggiata in rosso:
50
questo algoritmo quindi ha preso le coordinate x in input e, sulla base degli output precedenti, prevede l’output di quelle nuove fornite al
programma.
3.3
Affrontare un problema di supervised learning applicato alla regressione
vediamo innanzitutto di chiarire cosa significa predire un risultato. Siano
x tutte le possibili osservazioni, w i parametri veri di un modello che fitta
le osservazioni, ŵ gli estimatori di w e X il set di osservazioni già fatte
sperimentalmente.
Si definisce stima, o fitting, il processo di determinare il set di stimatori ŵ
che meglio descrive il set di osservazioni già effettuate:
ŵ = argmax [p (X|w)]
w
(3.3)
dove la formula si legge così: “gli estimatori ŵ di un processo di stima sono
determinati come quell’insieme dei valori dei parametri w di un modello tali
che la probabilità di ottenere proprio il set di dati osservato, tenuto conto
dei parametri w, sia massima”. Questo è il processo che si esegue quando si
fa una regressione lineare, dove supposto che l’andamento sottostante al set
di dati su cui fare la regressione sia modellizzato da una retta, si cercano gli
stimatori â e b̂ tale che la retta y = âx + b̂ sia quella che descrive meglio il
set di dati.
Da un processo di stima si possono estrapolare nuove possibili osservazioni
x, cioè dire “se l’andamento è quello previsto dal modello, al di fuori del set
di dati X osservato stimiamo che si abbiano certi valori di output a partire
da certi valori di input”. Questo tipo di predizione tuttavia è molto fallace,
in quanto al di fuori del set di dati X l’andamento potrebbe essere completamente diverso dal modello scelto per fittare il set noto.
Con il processo di stima si fa dunque un’assunzione: che il modello per un
particolare campione X si adatti a tutta la popolazione x, a.k.a. si presuppone di sapere a priori che il modello scelto a partire dal campione sia
effettivamente quello che descrive il fenomeno globalmente.
Si definisce invece predizione in machine learning il processo di determinare il set di stimatori che meglio determina in modo corretto le nuove
51
osservazioni:
ŵ : p (x|ŵ)
sia alta
(3.4)
dove la formula si legge così: “in una predizione gli stimatori devono essere
tali che la probabilità di avere le osservazioni cercate, tenuto conto degli
stimatori stessi, sia la più alta possibile”. Questo è ciò che si fa nel machine
learning, dove si aggiustano i pesi wij tramite il learning in modo tale da
poter in futuro predire al meglio possibile i dati veri.
Vediamo quindi come svolgere la predizione. Consideriamo un dataset X, un
modello g(w) dotato di certi parametri w (ad esempio g(w) = a+bx, con w =
{a, b}) e una funzione di costo E = C(X|g(w)), dove con questa notazione si
intende “la funzione di costo associata ad un algoritmo di machine learning
che opera su un dataset X, tenuto conto del modello g(w) che usa i parametri
w”.
Innanzitutto, si divide il dataset in due gruppi distinti: il training set Xtrain
e il test set Xtest . L’algoritmo dovrà effettuare il learning sul training set, e
poi predire i valori associati al test set. Durante il learning sul training set,
il miglior modello sarà quello associato a dei pesi ŵ (che fungono in questo
caso da stimatori del modello, e sono i parametri che si vanno ad aggiustare
mano a mano durante il learning fino a diventare i migliori possibili) tali che
la funzione di costo rispetto al training set sia minima, cioè in formule:
g(ŵ) : ŵ = argmin (Ein )
w
(3.5)
dove Ein := C (Xtrain |g (ŵ)) è la funzione di costo associata al training set, che
va minimizzata durante il learning mediante il processo visto nella Sezione 3.1
(anche detta in-sample error). Una volta completato il learning, si avranno
dei pesi ŵ che generano un certo modello g(ŵ) che in linea di principio
dovrebbe prevedere al meglio anche i dati del test set. Per vedere se ciò
accade, si fa funzionare il programma sul test set, e si calcola la funzione di
costo derivante dal processo:
Eout = C (Xtest |g (ŵ))
(3.6)
che è detta anche out-of-sample error. Solitamente, Eout ≥ Ein , in quanto
nel best case scenario l’errore sulla predizione basandosi sui dati del test set
sarà lo stesso del valore minimo di errore sulla predizione ottenuto alla fine
del processo di learning.
Si noti che è fondamentale separare il set di dati X a disposizione in un
52
training set e in un test set in maniera adeguata, onde evitare di ottenere
una stima erronea della performance dell’algoritmo. Per fare ciò, ci sono vari
processi, noti come validazioni incrociate (crossvalidation in inglese):
• Random partition: Si fanno due partizioni a caso dei punti disponibili, tali che il 90% delle osservazioni cada nel training set ed il 10%
rimanente cada nel test set
• Leave-one-out: il training set viene formato da tutte le osservazioni disponibili, tranne una. Il test set è fatto invece da una sola
osservazione.
• K-fold: il dataset viene suddiviso in k partizioni: il training set è
formato da k −1 partizioni, mentre il test set è formato dalla partizione
rimanente.
3.4
Rumore nel supervised learning
In molte situazioni pratiche i dati disponibili sono generati da una sorgente
che possiede anche rumore. Il fatto che i dati provengano da tale sorgente fa
sì che il modello che minimizza la funzione di costo Ein non sia automaticamente quello che minimizza Eout .
Supponiamo per esempio che il nostro dataset sia formato da un insieme di
punti (xi , yi ) generato da un certo fenomeno naturale “rumoroso”, che possiamo fingere sia esattamente equivalente alla seguente relazione funzionale
“rumorosa”:
yi = 2xi − 10x5i + 15x10
(3.7)
i + ηi
dove ηi fa le veci del rumore intrinseco al fenomeno, ed è tale che:
hηi i = 0
hηi ηj i = δij σ
(3.8)
(3.9)
con σ intensità del rumore. In pratica, stiamo supponendo che il fenomeno naturale rumoroso sia emulabile dalla funzione (3.7). In assenza di
rumore (σ = 0), anche con un piccolo numero di elementi del training set è
possibile ottenere la miglior predizione sui dati del test set scegliendo come
base dell’algoritmo un modello polinomiale quanto più complesso possibile
(che minimizza Ein sicuramente, in quanto abbiamo detto che il fenomeno è
53
equivalente ad un polinomio di ordine 10). Questo si può vedere dai risultati
mostrati nella figura seguente:
Figura 3.1: Grafico di sinistra: risultati finali del learning di un programma
basato sul machine learning che prova a effettuare una previsione dei dati
derivanti dalla funzione generatrice (3.7) priva di rumore, utilizzando modelli
polinomiali di diversa complessità (cioè di grado diverso).
Grafico di destra: previsione dello stesso programma sui dati del test set.
Come si vede, in assenza di rumore la previsione è perfetta.
nella realtà tuttavia σ 6= 0, e a causa del numero di osservazioni N finito
durante il learning si può avere una situazione in cui le fluttuazioni dei dati
dovute al rumore sono ritenute genuine dal programma, e quindi il modello
più complesso finisce per “fittare” anche il rumore, non riuscendo così a
predire bene i dati del test set. Questo si può vedere dai risultati mostrati
nella figura seguente:
54
3.5
Teoria del learning
Lo scopo del machine learning è quello di produrre una macchina che, mediante il learning, è capace di minimizzare Eout su un qualsiasi test set. Mentre
il modello impara tuttavia, si hanno informazioni solo su Ein . Ci si chiede
dunque se ci sono delle relazioni tra Ein ed Eout .
Iniziamo notando che il tipico andamento di Ein ed Eout in funzione di N è
il seguente:
dove il bias è l’errore intrinseco al modello utilizzato, che coincide con il
valore di Eout che otterremmo se avessimo un numero infinito di dati, e
quindi il rumore non ha più effetto sul learning, mentre la varianza è la
discrepanza da tale valore che si ottiene a causa del numero finito di dati.
Inoltre, fissato un certo N , l’andamento di Eout in funzione della complessità
del modello (∼ ordine del polinomio di regressione nel caso dell’esempio fatto
prima) è il seguente:
55
ciò significa che al crescere della complessità del modello, il bias diminuisce
ma l’errore aumenta lo stesso perché aumenta la varianza legata al rumore
nei dati che il modello prova a riprodurre. In generale quindi, si ha un Eout
ottimale a complessità intermedia.
Assumendo che esista un modello vero che descrive il fenomeno (come nel
caso del nostro esempio con fenomeno modellizzabile da un polinomio di
ordine 10), si hanno quindi due casi:
1. Un modello semplice, con varianza piccola ma bias molto grande, che
a causa di ciò per N → +∞ non converge al modello vero
2. Un modello complesso, con varianza elevata ma bias molto piccolo,
che per N finito fitta troppo il rumore ma per N → +∞ converge
asintoticamente al modello “vero”.
Graficamente, le due situazioni si rappresentano in questo modo:
56
3.5.1
Decomposizione bias-varianza di Eout
Supponiamo di avere un fenomeno descrivibile dalla funzione y = f (x) + ,
dove = N (0, σ ) è una particolare istanza di rumore gaussiano con media
µ = 0 e varianza σ = σ . Il dataset con cui si ottimizza il modello sarà un
certo insieme di punti XL = {xi , yi }N
i=1 , mentre il modello predittore con cui
l’algoritmo di machine learning prova a predire i nuovi punti sarà indicato
con ĝL (x).
Si sceglie come funzione di costo lo scarto quadratico tra i punti del dataset
e il modello predittore:
C (X|ĝL (x)) ≡
N
X
(yi − ĝL (xi ))2
(3.10)
i=1
sia inoltre EL il valore atteso rispetto ad un insieme infinito di diversi dataset,
e E il valore atteso rispetto a tante diverse istanze di rumore (quindi rispetto
a diversi rumori ciascuno con σ diverso). L’errore Eout sarà quindi il valore
atteso della funzione di costo rispetto a infiniti dataset diversi e a molte
diverse istanze del rumore, quindi:
Eout = EL, [C (X|ĝL (x))]
(3.11)
per definizione di C (X|ĝL (x)), segue:
Eout = EL,
"N
X
2
(yi − ĝL (xi ))
i=1
57
#
(3.12)
sommo e sottraggo f (xi ) all’interno della parentesi:
Eout =


N
X


EL,  yi
|
i=1
= EL,
= EL,
"N
X
2 
 
− f (xi ) + f (xi ) − ĝL (xi ) 
{z
} |
{z
}
A
B
A2 + B 2 + 2AB
i=1
(N "
X
= EL,
"N
X
2
#
(A + B)
i=1
#
=
(yi − f (xi ))2 + (f (xi ) − ĝL (xi ))2 +
i=1
#)
(((
(
(
(
(f(
(x(i ) − ĝL (xi ))
+2 (yi −(f((x(i ))
((
(((
E =µ=0
=
N X
σ2 + EL (f (xi ) − ĝL (xi ))2
h
=
i
i=1
aggiungo e sottraggo EL (ĝL (xi )) all’interno dell’argomento di EL come segue:
2 

∵ EL f (xi ) − EL [ĝL (xi )] + EL [ĝL (xi )] − ĝL (xi )  =

|
{z
}
A
2
h
= EL (A + B)
i
h
|
2
{z
B
2
 
}
i
= EL A + B + 2AB =
"
= EL (f (xi ) − EL [ĝL (xi )])2 + (EL [ĝL (xi )] − ĝL (xi ))2 +
((
((((
(
(
(
((
[ĝ((x(i )])
(E(L(
[ĝL (xi )] − ĝL (xi ))
+ 2 (f (xi ) − E(L(
(
(
0
(
(
((h
i
h
= EL (f (xi ) − EL [ĝL (xi )])2 + EL (EL [ĝL (xi )] − ĝL (xi ))2
i
da cui si ha la cosiddetta scomposizione bias-varianza di Eout :
Eout =



N 

X
σ2 + EL (f (xi ) − EL [ĝL (xi )])2 +
 |{z}

{z
}
i=1 
rumore |
h
i
(bias)2
+ EL (EL [ĝL (xi )] − ĝL (xi ))2
h
|
{z
(varianza)
58




i

}


(3.13)
3.6
Metodi di Gradient Descent per minimizzare la funzione di costo
Abbiamo visto che la chiave per far apprendere all’algoritmo di machine learning risiede nel minimizzare la funzione di costo E (θ) = C (X|g (θ)), dove θ
è il vettore dei parametri del modello. Intuitivamente, vogliamo una procedura che aggiusti le coordinate θi fino ad ottenere il minimo (almeno locale)
della funzione E(θ). Il problema è che la funzione E (θ) è generalmente
complicata, non globalmente convessa (quindi non c’è la certezza che, se la
funzione ha un minimo, esso è unico ed è anche punto di minimo globale)
quindi con molti possibili minimi locali, e con un dominio a dimensionalità
enorme (praticamente sempre 3 dimensioni, nelle applicazioni moderne
tipicamente d ∼ 106 ). Il modello g(θ) inoltre non è generalmente noto, e va
stimato dai dati stessi.
Vogliamo dunque trovare un algoritmo che, partendo da un punto a caso
sulla ipersuperficie generata dalla cost function su questo dominio a N dimensioni, permetta mediante un certo numero finito di “passi” di giungere al
minimo della funzione (possibilmente quello globale). Graficamente, si vuole
un processo di questo tipo:
l’algoritmo tipicamente utilizzato per fare ciò è il cosiddetto gradient descent. L’algoritmo funziona in questo modo:
1. Si inizializza il vettore dei parametri θ con dei valori casuali θ0
59
2. Allo step t-esimo, si calcola la quantità:
ν t = ηt ∇θ [E (θ t )]
(3.14)
cioè il gradiente, moltiplicato per un fattore ηt noto come learning
rate, che definisce di quanto sia “grande” il passo da compiere tra t e
t+1
3. Si aggiornano i parametri effettuando il passo t → t + 1, mediante la
formula:
θ t+1 = θ t − ν t
(3.15)
dunque ci si sposta di un passo il cui modulo è dato da ηt e lungo la
direzione opposta in segno al gradiente di E(θ) (dunque lungo la direzione di discesa più veloce, ricordando che il campo vettoriale gradiente
indica punto per punto la direzione di massima pendenza in salita di
una funzione multidimensionale, quindi il negativo del gradiente indica
punto per punto la direzione di massima pendenza in discesa).
Si noti che, se ηt è troppo piccolo, si assicura la convergenza ad un minimo
locale, però il costo computazionale è molto alto. Se invece ηt è troppo grande
il costo computazionale è basso, ma si rischia di non giungere mai al minimo
locale.
Per vedere quale sia il rate ottimale ηopt , consideriamo il caso semplice di un
solo parametro θ e di una funzione di costo del tipo parabolico3 :
E (θ) = (θ − θmin )2
(3.16)
con punto di minimo dato da θmin . Si avranno in generale le 4 situazioni
rappresentate nella figura seguente, a seconda del valore di η:
3
Si sceglie tale situazione come esempio in quanto è il prototipo di ogni regione intorno
di un minimo locale, per tutte le funzioni di costo localmente di classe C 2 .
60
Sviluppiamo quindi E(θ) in serie di Taylor attorno a θ0 , supponendo di aver
effettuato un certo passo ν:
∂E (θ)
∂θ
1 ∂ 2 E (θ)
2 ∂θ2
ν2 + o ν2
(3.17)
E (θ0 + ν) u (θ0 − θmin )2 + 2 (θ0 − θmin ) ν + ν 2 = (θ0 − θmin + ν)2
(3.18)
E (θ0 + ν) = E (θ0 ) +
ν+
θ=θ0
θ=θ0
che nel nostro caso particolare diventerà:
da cui, se θ0 + ν = θmin , si ha E (θ0 + ν) = 0, che è il minimo globale della
funzione quadratica raggiunto in un solo step del processo.
Questo vuol dire che, in un intorno del minimo, dobbiamo imporre θ0 + ν =
θmin per ottenere ηopt , cioè per raggiungere il minimo in un solo step.
Imponiamo in (3.17) θ0 + ν = θmin , cosa che come abbiamo visto annulla
E (θ0 + ν):
E (θmin ) u 0 ⇒ E (θ0 ) +
∂E (θ)
∂θ
ν+
θ0
61
1 ∂ 2 E (θ)
2 ∂θ2
ν2 = 0
θ0
(3.19)
deriviamo rispetto a ν:
∂E (θ)
∂θ
+
θ0
2 ∂ 2 E (θ)
2 ∂θ2
ν=0
(3.20)
θ0
risolvo per ν per trovare la condizione cercata:
ν=−
∂ 2 E (θ)
∂θ2
!−1
θ0
∂E (θ)
∂θ
(3.21)
considerando che in una dimensione la derivata prima è il gradiente, si ha
quindi:
!−1
∂ 2 E (θ)
−ν =
∇θ (E)
(3.22)
∂θ2 θ0
ma ricordiamo che, a parte il segno negativo di ν che compare nel passaggio
θt+1 = θt − ν, e che ci ricorda che lo step va preso in direzione opposta a
quella del gradiente, la definizione di νt nell’algoritmo di gradient descent
era:
νt = ηt ∇θ (E)
(3.23)
quindi, uguagliando i fattori uguali, si ha ηopt :
ηopt =
∂ 2 E (θ)
∂θ2
!−1
(3.24)
θ0
ripetendo il ragionamento in N dimensioni, e ricordando che l’hessiano di una
funzione multidimensionale è la matrice delle derivate seconde della funzione,
abbiamo anche il learning rate ottimale in N dimensioni:
ηopt = H−1 (θ)
θ0
(3.25)
dove H−1 è l’inversa della matrice hessiana associata ad E (θ), calcolata nel
punto θ0 . Seppur analiticamente il problema è risolto, numericamente non
lo è, in quanto seppur con questo approccio η si aggiusta diversamente per
ogni singolo parametro (quindi ηt non è costante lungo ogni direzione, ma si
adatta in base ai “pesi” assegnati alle diverse direzioni) si hanno comunque
i seguenti problemi:
62
• Calcolare l’hessiano in un punto è computazionalmente molto costoso
se la dimensionalità è alta.
• Invertire una matrice ad alta dimensione è computazionalmente molto
costoso.
• Il processo è perfettamente valido solo nell’ intorno di un minimo di
una funzione di classe C 2 .
3.6.1
Miglioramento dell’algoritmo di gradient descent
Il gradient descent “classico” descritto finora è molto limitato, in quanto ci
sono i seguenti problemi:
• Il rate ηt rimane fissato e anche se si definisce una procedura che accresce il learning rate per ogni ciclo d’iterazione, esso sarà sempre uniforme rispetto a tutte le direzioni, a differenza del caso in cui si usa
η = H−1 (θ0 ).
• A seconda della grandezza di ηt , ci sono vari regimi, e se ηt è troppo
grande si rischia di non arrivare mai al minimo
• Se E (θ) ha molti minimi locali la performance dell’algoritmo risulterà
scarsa
• L’algoritmo è sensibile alla scelta del parametro iniziale θ0 : se si inizia
in un punto “sfortunato” l’algoritmo sarà molto meno performante
• Il gradiente è a sua volta computazionalmente costoso da calcolare
• Se si finisce in un punto di sella, ci vuole un tempo esponenziale per
uscire dalla zona
A causa di tutte queste limitazioni, esso è raramente utilizzato. Un primo
miglioramento è il cosiddetto stochastic gradient descent (SGD), in cui si
suddividono le N osservazioni in dei minibatch, ciascuno con M osservazioni
distinte. Si considerano poi le funzioni di costo E MB (θ), calcolate con i dati
associati solamente ai suddetti minibatch, che cambieranno a ogni iterazione
dell’algoritmo. A questo punto si utilizza lo stesso algoritmo già visto, ma
con E MB invece che con E:
63
1. Inizializza i parametri a θ0
2. Aggiornare iteramente i parametri secondo le equazioni seguenti:

ν t
θ
= ηt ∇θ E MB (θ t )
h
t+1
i
= θt − ν t
(3.26)
il vantaggio dello scegliere casualmente un minibatch per ogni iterazione riduce la probabilità di trovare dei minimi locali isolati. Facilita inoltre il calcolo
del gradiente, che viene calcolato solo su un sottoinsieme di dati, e previene
l’overfitting in minimi isolati troppo profondi.
A causa del fatto che l’ipersuperficie descritta dalla funzione E (θ) può essere piatta in alcune direzioni e molto ripida in altre (ad es. punti di sella
molto schiacciati), lo SGD viene generalmente modificato con un termine
di momento:

h
i
ν t = γν t−1 + ηt ∇θ E MB (θ t )
(3.27)
θ
t+1 = θ t − ν t
in questo caso, ν t svolgerà il ruolo di una media a runtime del gradiente,
con un tempo caratteristico di conservazione dei dati di (1 − γ)−1 . Il termine
di momento γν t−1 funge infatti da sorta di “memoria” dell’algoritmo, in
quanto tiene traccia delle direzioni in cui E (θ) è più ripida anche in presenza
della stocasticità.
Il nome “momento” del termine viene dal considerare per esempio il moto di
una particella di massa m in un mezzo viscoso, con viscosità µ e sottoposto
ad un potenziale E(x). La legge del moto infatti sarà:
dx
d2 x
+µ
= −∇x (E)
(3.28)
2
dt
dt
discretizzo, ponendo d2 x → (xt+∆t − xt ) − (xt − xt−∆t ) = ∆xt+∆t − ∆xt e
dx = xt+∆t − xt = ∆xt+∆t :
m
∆xt+∆t − ∆xt
∆xt+∆t
+
µ
= −∇x (E)
∆t2
∆t
manipolando l’equazione, si arriva a:
m
∆xt+∆t =
(3.29)
m
∆t2
∆xt −
∇x (E) ⇒
m + µ∆t
m + µ∆t
|
{z
γ
}
|
{z
η
}
⇒ ∆xt = γ∆xt−1 − η∇x E (x)
64
(3.30)
dunque γ è proporzionale alla massa m, e il termine γ∆xt−1 rappresenta
effettivamente un termine d’inerzia. Si noti che il learning rate svolge invece
il ruolo di una sorta di inverso della viscosità: se µ 0, η 1 e si è in
regime di “alta viscosità”. Sotto tali condizioni, il tempo caratteristico sarà:
(1 − γ)−1 =
m + µ∆t
≈1
µ∆t
(3.31)
Possiamo ulteriormente migliorare la performance dell’algoritmo, calcolando
il gradiente tenendo conto anche del termine di momento:

ν t
θ
= γν t−1 + ηt ∇θ E MB (θ t + γν t−1 )
t+1
h
i
(3.32)
= θt − ν t
questo algoritmo è noto come Nesterov Accelerated Gradient Descent.
Con l’aggiunta del termine di momento, si sono ottenuti i seguenti miglioramenti:
• Se E (θ) presenta molti minimi locali, la performance non sarà più
scarsa
• A causa della stocasticità intrinseca, non c’è più elevata sensibilità della
performance a seconda della scelta del punto iniziale θ0
• Il gradiente stocastico è computazionalmente meno costoso da calcolare
• Non si impiega più un tempo esponenziale per uscire dai punti di sella
Tuttavia:
• Il learning rate è ancora fissato per tutte le direzioni
• Si è ancora sensibili alla scelta del learning rate, in quanto la procedura
non rimuove i vari “regimi” a seconda di quanto η disti da ηopt .
Per risolvere tale problema, si può utilizzare la quantità st := E ∇θ E MB (θ t )2 ,
cioè il momento secondo del gradiente, per approssimare l’hessiano. all’iterazione t-esima quindi, definisco il gradiente come:
h
g t := ∇θ E MB (θ t )
h
65
i
h
ii
(3.33)
e quindi:
st = βst−1 + (1 − β) g 2t
(3.34)
gt
st + ε
(3.35)
da cui si esegue lo step:
θ t+1 = θ t − ηt √
in definitiva:
= ∇θ E MB (θ t )



gt




h
i
st = βst−1 + (1 − β) |g t |2
(3.36)


gt



θ t+1 = θ t − ηt √
st + ε
dove β è un parametro che permette di mediare il momento secondo del
gradiente nel tempo, ed ε è una piccola regolarizzazione che impedisce divergenze per st → 0. In tal modo, il learning rate non è più costante per
tutte
in quanto viene ridotto nelle direzioni in cui la norma di
h le direzioni,
√ i
MB
gt / st è piccola. Questo assicura una convergenza più veloce.
∇θ E
Tale metodo è detto RMS prop.
L’algoritmo è ulteriormente migliorabile introducendo il momento primo del
gradiente:
h
i
mt = E ∇θ E MB (θ t )
(3.37)
e le quantità “normalizzate”:
mt
(1 − β1 )
st
ŝt :=
(1 − β2 )
(3.38)
m̂t :=
(3.39)
dove β1 e β2 sono tempi caratteristici di memoria del momento primo e secondo del gradiente, rispettivamente. L’algoritmo, detto ADAMS, si riassume
quindi come segue:
h
i

MB

g
=
∇
E
(θ
)

t
θ
t






mt
= β1 mt−1 + (1 − β1 ) g t
2
st = β2 st−1 + (1 − β2 ) |g t |






m̂t


θ t+1 = θ t − ηt √
(3.40)
ŝt + ε
ADAMS ed RMS prop sono gli algoritmi più performanti: essi giungono al
minimo molto più velocemente degli altri algoritmi.
66
Capitolo 4
Test d’ipotesi
4.1
Introduzione
Un test d’ipotesi è una verifica dell’attendibilità o meno di una data ipotesi
fisica, come ad esempio la consistenza tra un valore ottenuto sperimentalmente ed un valore atteso, che sia effettuato sulla base di criteri scientifici e
statistici razionali. Un esperimento fisico è solitamente formato da 3 fasi:
1. Ottenimento dei dati sperimentali
2. stima dei parametri legati al modello che cerca di descrivere il fenomeno, sulla base dei dati sperimentali ottenuti
3. test d’ipotesi per verificare se i parametri stimati sono compatibili o
meno con quelli previsti dalla teoria
Supponiamo per semplicità di avere solo due ipotesi, completamente specificate da due diversi valori di un parametro θ: la cosiddetta ipotesi nulla H0
sarà quella di assumere che θ = θ0 , mentre l’ipotesi alternativa sarà quella
che θ = θ1 .
In questo caso, si può procedere considerando vera a priori l’ipotesi nulla, e
considerando la densità di probabilità f (x|θ0 ) per una certa variabile aleatoria x legata a θ0 (solitamente f è una gaussiana). Si considera poi un certo
valore critico xc , che divida l’area sottostante f (x|θ0 ), indicata con W , in
due parti: la cosiddetta regione critica R per l’ipotesi nulla H0 , tale che
se un valore xobs cade proprio all’interno della regione R allora c’è motivo di
rigettare H0 , e la regione di accettazione per H0 , pari alla parte di area
67
rimanente W − R. Poiché in questo esempio xc caratterizza completamente
tali regioni, possiamo dire che:
• Se xobs < xc , allora sarà ritenuta vera l’ipotesi nulla H0
• Se xobs > xc , allora sarà ritenuta vera l’ipotesi H1
Figura 4.1: Regione critica R e regione di accettazione W − R associati ad
una certa densità di probabilità f (x|θ0 ).
La probabilità, assegnata a priori, che xobs > xc è detta significatività del
test d’ipotesi.
Se indichiamo tale probabilità con α, allora α sarà anche la probabilità che
l’osservazione xobs cada in R seppur H0 è vera. Questo significa che, nel
100α% delle volte, l’ipotesi nulla verrà rigettata anche quando essa è vera.
Chiameremo questo tipo di errore nel giudizio di quale ipotesi sia vera errore di prima specie. Questo significa che, per commettere quanto meno
possibile questo tipo di errore, α deve essere scelto il più piccolo possibile.
C’è un altro tipo di errore possibile, cioè quello in cui viene accettata l’ipotesi
nulla quando in realtà è falsa. Questo errore è noto come errore di seconda specie: la probabilità che esso accada verrà indicata con β, e dipende
dall’ipotesi alternativa H1 . Considerando la densità di probabilità f (x|θ0 )
e la sua alternativa f (x|θ1 ), possiamo definire queste probabilità mediante i
68
loro integrali:
ˆ
α :=
ˆ
f (x|θ0 ) dx =
f (x|θ0 ) dx
(4.1)
xc
ˆ
ˆ
R
f (x|θ1 ) dx =
β :=
+∞
xc
f (x|θ1 ) dx
(4.2)
−∞
W −R
Figura 4.2: Illustrazione che mostra graficamente le probabilità α e β di
commettere rispettivamente un errore di prima specie o un errore di seconda
specie.
si definisce potenza di un test d’ipotesi la probabilità di rigettare un’ipotesi
quando è falsa. Essa può essere definita in termini di integrali come:
ˆ
ˆ +∞
P := 1 − β = f (x|θ1 ) dx =
f (x|θ1 ) dx
(4.3)
xc
R
ovviamente, per migliorare i risultati di un esperimento, conviene scegliere
la regione critica R in modo tale che, per una certa significatività, la potenza
69
sia quanto più alta possibile.
Facciamo come esempio quello di determinare se una misura associata ad una
grandezza fisica avente distribuzione gaussiana abbia, a parità di varianza σ 2 ,
un valore atteso pari a µ0 oppure a µ1 . In questo caso, si avrà:
• H0 : il valor vero è µ0
• H1 : il valor vero è in realtà non µ0 , ma µ1
Si rigetterà dunque l’ipotesi nulla H0 per un esperimento che produce un
certo valore osservato xobs se xobs cade al di fuori di nσ dal valor medio µ0 .
Il valore n è detto livello di significatività dell’esperimento.
La significatività dell’esempio considerato sarà pari a:
ˆ µ0 + nσ
(x − µ0 )2
1
√
α=1−
dx
exp −
2σ 2
2πσ
µ0 − nσ
!
(4.4)
mentre la potenza sarà pari a:
ˆ µ1 + nσ
1
(x − µ1 )2
√
dx
1−β =
exp −
2σ 2
2πσ
µ1 − nσ
4.2
!
(4.5)
Test χ2
Date n variabili aleatorie indipendenti che abbiano ciascuna distribuzione
gaussiana xi (µi , σi ), la quantità:
2
χ :=
N
X
i=1
"
(xi − µi )2
σi2
#
(4.6)
è ancora una variabile aleatoria, detta variabile chi quadrato avente una
distribuzione di densità di probabilità associata data da:
fn (χ2 ) =
1
2n/2
Γ
e−
n
2
χ2
2
· χ2
dove Γ è la funzione gamma, definita come:
ˆ ∞
Γ(x) :=
tx−1 e−t dt
0
70
n −1
2
(4.7)
(4.8)
tale che:
n
n
−1 !
Γ
=
2
2
n
n
1
n
Γ
−1
− 2 ···
=
π
2
2
2
2
se n pari
se n dispari
(4.9)
(4.10)
ed n sono i gradi di libertà, cioè il numero di variabili indipendenti. Il
valore atteso di χ2 e la sua varianza sono rispettivamente:
E χ2 = n
(4.11)
σχ2 2 = 2n
(4.12)
per n > 30 gradi di libertà, la distribuzione associata a χ2 risulta ben descritta da una distribuzione gaussiana.
Supponiamo di aver effettuato N misure di una grandezza fisica, e di voler
verificare (ipotesi nulla H0 ) se questa variabile segue o meno una certa distribuzione f (x) ipotizzata a priori. Si effettua allora il cosiddetto binning della
variabile aleatoria x, cioè si considerano degli intervalli ∆x arbitrariamente
scelti e si conteggia per ogni intervallo il numero di volte che si è osservato
. Per ciascun generico intervallo i-esimo si dovrebbe avere
il valore xi ± ∆x
2
allora, se f è la distribuzione associata a x:
pi = f (xi ) ∆x
ni := Neventi in i
N =
r
X
ni = N
(4.13)
(4.14)
(4.15)
i=1
dove r è il numero di intervalli con cui si è scelto di binnare la variabile x.
Innanzitutto, si noti che ni avrà una distribuzione binomiale, dunque:
µi = N pi
σi2 = N pi (1 − pi )
(4.16)
(4.17)
dato che per il teorema del limite centrale la binomiale tende ad una distribuzione gaussiana per N → +∞, possiamo dire che la variabile:
r
X
χ2 =
r
X
(ni − µi )2
i=1
σi2
=
71
(ni − N pi )2
i=1
N pi (1 − pi )
(4.18)
ha come funzione di distribuzione quella associata al chi-quadrato con r − 1
gradi di libertà, in quanto sussiste il vincolo (4.15) e dunque uno degli ni non
è indipendente.
Utilizzeremo come statistica di controllo proprio la variabile χ2 appena
definita. Fisseremo allora a priori la significatività del test, e la indicheremo
con α. Fissato α (solitamente α = 0.05), è possibile ottenere il valore critico
χ2c dalla relazione integrale:
ˆ ∞
fr−1 χ2 dχ2 = α
(4.19)
χ2c
che si può risolvere per χ2c in quanto è nota la distribuzione fr−1 (χ2 ) della
statistica di controllo. A questo punto si può dire che:
• Se χ2mis ≤ χ2c , allora si accetta l’ipotesi nulla H0 .
• Se χ2mis > χ2c , allora si rigetta l’ipotesi nulla H0 .
Si noti però che:
1. Il test è valido se ni è una variabile aleatoria a distribuzione gaussiana,
dunque se µi ≥ 10 per ogni bin
2. C’è un’arbitrarietà intrinseca nel test, in quanto bisogna scegliere arbitrariamente gli intervalli ∆x nel processo di binning
3. La statistica di controllo χ2 opera sui quadrati dei valori, dunque non
si possono evidenziare discrepanze sistematiche del segno.
Il test del χ2 permette anche di testare un fit ai minimi quadrati. Supponiamo
di avere N variabili aleatorie xi (ritenute convenzionalmente senza incertezza)
ed N variabili aleatorie associate in output yi ± σi , dove σi è solitamente
data dalla risoluzione1 dello strumento (e che DOVREBBE coincidere con
la σ ottenibile mediante la regressione lineare, se le incertezze su yi non
dipendono a loro volta dal valore xi in input). Il test χ2 procede allora allo
1
Si ricordi che si definisce risoluzione (o riproducibilità) di uno strumento la varianza della distribuzione gaussiana associata alle misure effettuate dallo strumento; si
definisce invece accuratezza l’errore sistematico che ha intrinsecamente uno strumento
rispetto al valore vero che dovrebbe misurare.
72
stesso identico modo visto prima per il fit rispetto ad una data distribuzione
f (x), con la differenza che adesso il valore da calcolare per χ2 è:
χ2Np−2
=
P
i
[yi − (Bxi + A)]2
σi2
(4.20)
è infine possibile effettuare un test di compatibilità per N istogrammi sperimentali di una stessa grandezza fisica, della quale si ignora però la distribuzione, calcolando come χ2 :
χ2 =
N X
r
X
j=1 i=1
"
(nij − p̂i Nj )2
p̂i Nj
#
(4.21)
dove:
• r è il numero di intervalli con cui si è effettuato il binning
• nij è il numero di eventi associati all’intervallo i, dell’istogramma j
• Nj è il numero totale di eventi associato all’istogramma j
PN
• p̂i := Pj=1
N
(nij )
j=1
4.3
(Nj )
Test di Kolmogorov-Smirnov
il test di Kolmogorov-Smirnov è un metodo di analisi statistica che permette di confrontare tra loro due campioni di dati, o un campione di dati
con una distribuzione teorica attesa, allo scopo di verificare che essi siano
compatibili. La differenza con il test χ2 è che in questo caso non è richiesto il
binning, in quanto il test si basa sulla frequenza cumulativa relativa dei
dati in esame (cioè l’integrale della distribuzione di probabilità sperimentale).
Per effettuare il test di confronto tra un campione di dati e la distribuzione teorica attesa, bisogna confrontare la frequenza cumulativa relativa F (x)
del campione di dati a disposizione con quella associata alla distribuzione di
probabilità cumulativa Φ(x) attesa, in modo da ricavare il valore assoluto del
massimo scarto tra di esse:
δ := max (|F (x) − Φ(x)|)
73
(4.22)
si può dimostrare che, se l’ipotesi da testare è vera, allora la probabilità di
ottenere casualmente un certo valore di δ maggiore o uguale ad un certo
valore δ0 prefissato è data da:
P (δ ≥ δ0 ) = FKS (δ00 )
(4.23)
dove FKS è la serie di Kolmogorov-Smirnov:
FKS (x) = 2
∞
X
(−1)k−1 e−2k
2 x2
(4.24)
k=1
e:
√
0.11
=
δ0
(4.25)
N + 0.12 + √
N
dove N è il numero di misure. Nel caso invece in cui si vogliono confrontare
due campioni indipendenti per verificare se essi sono compatibili, bisogna ricavare il massimo scarto tra le due frequenze cumulative relative δ, e ricavare
a questo punto la probabilità che questo valore sia avvenuto, ammessa vera
l’ipotesi di compatibilità, per motivi puramente casuali. Il procedimento è
analogo a quello visto prima, con la differenza che l’N che compare nella
definizione di δ00 sarà pari a:
!
δ00
N1 N2
(4.26)
N1 + N2
dove N1 è il numero di misure del primo campione ed N2 è il numero di
misure del secondo campione.
Lo svantaggio di questo metodo risiede nel fatto che, per valori molto piccoli
o molto grandi della variabile aleatoria usata, le distribuzioni di probabilità
cumulative vanno a plateau o verso 0, o verso 1 rispettivamente. Questo
significa che il test di Kolmogorov-Smirnov è efficace solo per analizzare valori
centrali, mentre non è affatto efficace per determinare discrepanze tra due
distribuzioni che differiscono significativamente solo nella zona delle code.
N=
4.4
Confidence belt e intervallo di confidenza
per segnali poissoniani con background
comparabile col segnale
Si definisce confidence belt un’area del piano µx (dove µ è un parametro
da stimare, come ad esempio la media di una distribuzione gaussiana e x la
74
variabile aleatoria associata) che permette di stimare l’intervallo di confidenza
associato a µ per qualsiasi valore di x ottenibile da un esperimento. Per
costruire la confidence belt, si sceglie per ogni valore di µ un intervallo di
accettazione [x1 , x2 ] arbitrario tale che la probabilità che la misura x cada
nell’intervallo [x1 , x2 ] sia pari alla significatività α scelta:
P (x ∈ [x1 , x2 ]|µ) = α
(4.27)
alternativamente, si sceglie un certo valore critico xc tale che:
P (x > xc |µ) = α
(4.28)
a questo punto, si può determinare l’intervallo di confidenza per µ associato
ad un certo esperimento che fornisce il risultato x0 tracciando una retta
verticale e vedendo quali sono i valori di µ tali che la retta x = x0 intercetta
la confidence belt.
Figura 4.3: Confidence belt. La retta tratteggiata è quella x = x0 .
Per valori di µ molto grandi, tale procedimento funziona, ma se µ è molto
piccolo ci sono dei dubbi.
I fisici Feldman e Cousins, in un loro paper pubblicato recentemente, hanno
fornito in particolare un procedimento che permette di determinare quale sia
75
l’intervallo di confidenza associato a valori di medie poissoniane per le quali
gli esperimenti hanno conteggi che sono paragonabili con quelli dati dal rumore di fondo.
Supponiamo di avere una distribuzione poissoniana a cui è soggetta la variabile di conteggio n:
e−(µ+b)
(4.29)
P (n|µ) = (µ + b)n ·
n!
dove b è la media associata ai conteggi del rumore di fondo, e µ quella associata al segnale atteso, entrambe supposte note. I conteggi n misurabili in
laboratorio saranno ovviamente un misto tra entrambi. Il procedimento per
determinare l’intervallo di confidenza [n1 , n2 ] associati ad un dato µ procede
come segue:
1. Dato un certo valore di conteggio n, si calcola P (n|µ).
2. Si calcola µbest := max (0, n − b), che è il valore di µ che ci si aspetterebbe, dato un certo conteggio n, se non si sapesse a priori che µ ha un
certo valore noto
3. Si calcola P (n|µbest )
4. Si effettua il rapporto:
R=
P (n|µ)
P (n|µbest )
(4.30)
a questo punto si costruisce l’intervallo di confidenza sulla base di quanto sia
grande R: si inseriscono i valori di n associati ad un R grande nell’intervallo
di confidenza in ordine decrescente, finché la somma dei P (n|µ) non soddisfa
o supera il livello di confidenza desiderato.
76
Capitolo 5
Metodi montecarlo
I metodi montecarlo sono una classe di metodi computazionali che cercano
di risolvere problemi mediante algoritmi incentrati sul campionamento casuale. Secondo la definizione di Halton (1970), mediante i metodi montecarlo
si può ottenere la soluzione di un problema considerandola come se fosse un
particolare parametro associato ad una certa popolazione, della quale si considera un campione estratto aleatoriamente. Ottenuto un campione casuale
della popolazione da analizzare, si può effettuare una stima del parametro
mediante metodi statistici.
I metodi montecarlo sono tanto più efficaci quanto più la macchina su cui gira
il programma è capace di effettuare un gran numero di operazioni al secondo,
in quanto è necessario un gran numero di prove per ottenere una buona convergenza della stima al valor vero. Le tecniche montecarlo si usano per risolvere sia problemi intrinsecamente statistici, come simulazioni di processi fisici
aleatori (ad es. decadimento radiattivo, interazione radiazione-materia), sia
per risolvere problemi in linea di principio risolubili in modo analitico o numerico deterministico, ma i cui algoritmi diventano velocemente inefficienti
(ad es. integrazioni multidimensionali).
5.1
Integrazione montecarlo
Formalmente, tutti i metodi montecarlo possono essere visti come applicazioni dell’integrazione montecarlo. L’integrazione montecarlo stima un
77
integrale N -dimensionale del tipo:
˙
I=
f (x1 , x2 , . . . , xN ) dx1 dx2 . . . dxN
(5.1)
[0,1]N
mediante una funzione F (r1 , . . . , rn ) di n numeri casuali distribuiti in maniera
uniforme sul dominio [0, 1]N , tale che F sia uno stimatore unbiased di I:
E (F ) = I
(5.2)
si noti che F , cioè il risultato dell’integrazione montecarlo, sarà a sua volta
una variabile aleatoria, il cui valore atteso è I e la cui varianza si desidera sia
molto piccola. A tal fine, sono stati sviluppati diversi metodi per ottenere
una stima montecarlo dell’integrale I, che mostreremo di seguito.
5.1.1
Metodo “Crude” montecarlo
Supponiamo di voler valutare l’integrale unidimensionale (per semplicità):
ˆ
b
I=
f (x) dx
(5.3)
a
un metodo numerico non-montecarlo per stimare I è quello di usare la regola
del punto medio:
N
b−aX
f (xi )
(5.4)
Istima =
N i=1
dove:
b−a
i
(5.5)
N
graficamente, questo significa dividere l’intervallo [a, b] in N sottointervalli
uguali, valutando la funzione f in ogni punto medio xi del singolo sottointervallo e calcolando la somma delle aree rettangolari infinitesime f (xi ) · δxi . La
regola del punto medio integra esattamente il termine costante dello sviluppo
in serie di Taylor di f attorno ad xi per ogni sottointervallo.
L’errore commesso in questa stima numerica va, sottointervallo per sottointervallo, come la derivata prima di f (x) calcolata in xi , cioè come N −1 .
xi = a +
La stima “crude” montecarlo dello stesso integrale invece si basa sulla
78
stima del valor medio di f (x). Ricordiamo che, per il teorema di Lagrange, si ha la seguente relazione tra il valor medio di f (x) ed un suo integrale
definito:
ˆ b
ˆ b
1
f (x) dx →
f (x) dx = (b − a) hf i
(5.6)
hf i =
b−a a
a
il metodo consiste dunque nel valutare la funzione in N punti xi scelti
casualmente, mediante la regola:
xi = a + (b − a) ri
(5.7)
dove ri è un numero estratto casualmente nell’intervallo [0, 1], e calcolando:
F =
N
b−aX
f (xi ) = (b − a) f (x)
N i=1
(5.8)
Se in particolare a = 0 e b = 1, allora la stima “crude” montecarlo dell’integrale:
ˆ 1
f (x) dx
(5.9)
I=
0
sarà:
N
1 X
F =
f (xi )
N i=1
(5.10)
cioè F sarà esattamente il valor medio delle variabili aleatorie f (xi ). Dalla
legge dei grandi numeri quindi, si avrà:
ˆ 1
lim (F ) = E (f ) =
f (x) dx
(5.11)
N →+∞
0
dunque F è una stima consistente dell’integrale I. La varianza di F al limite
per N → +∞ sarà invece:
σf
(5.12)
σF =
N
dove:
ˆ 1
σf :=
[f (x) − E (f )]2 dx
(5.13)
0
la cui stima montecarlo per N finito sarà:
σf (xi ) :=
N n
o
1 X
[f (xi ) − F ]2
N − 1 i=1
79
(5.14)
−1
lo stimatore montecarlo F ha quindi una varianza che va come
√ N . La
deviazione standard associata alla stima andrà quindi come 1/ N . Dal teorema del limite centrale quindi, qualsiasi sia la distribuzione di probabilità
associata a F , per N grande
√ essa tenderà ad una gaussiana con µ = I e deviazione standard s ∝ 1/ N → 0. Questo significa che per N molto grande
la stima montecarlo converge al valor vero dell’integrale in modo esatto.
In definitiva, l’estimatore mediante metodo montecarlo è solitamente non
distorto e consistente. La distribuzione di probabilità associata è asintoticamente gaussiana per
√ N sufficientemente grande, ed ha una deviazione
standard che va come 1/ N ∀N .
5.1.1.1
Confronto tra metodo “Crude” montecarlo e altre tecniche
d’integrazione numerica
In generale, tutte le formule d’integrazione numerica approssimano l’integrale
con una quantità del tipo:
Iq =
N
X
f (xi ) · wi
(5.15)
i=1
i diversi metodi variano nella definizione dei valori f (xi ), dei punti xi o dei
pesi wi . Abbiamo già visto la regola del punto medio, ma altre possibilità
standard sono:
• Regola del trapezoide: sul sottointervallo [xi−1 , xi ] si sostituisce f (x)
con il segmento di retta ∆f i avente estremi (xi−1 , f (xi−1 )) e (xi , f (xi )),
e si calcola la somma dei valori ∆f i · δxi . Il metodo del trapezoide
integra perfettamente il termine costante + il termine lineare dell’espansione in serie di Taylor della funzione f attorno ai valori xi di ogni
subintervallo considerato. L’errore sulla stima dell’integrale va come la
derivata seconda della funzione calcolata nel punto medio di δxi , cioè
come la sagitta1 di f (x), cioè come N −2 .
1
Si definisce sagitta di un arco di circonferenza la distanza tra il punto medio dell’arco
e il punto medio della corda sottesa a tale arco. Il nome è dato dal fatto che, nella figura
geometrica associata a tale costruzione, la sagitta corrisponde alla freccia inserita in un
arco. Essendo l’altezza del segmento circolare rispetto alla corda sottesa, essa vale:
r
c2
h = R · (1 − cos (θ/2)) = R − R2 −
4
80
• Regola di Cavalieri-Simpson: definito zi := 12 (xi−1 + xi ), si sod che passa per i tre punti
stituisce f (x) con l’arco di parabola ∆f
i
(xi−1 , f (xi−1 )) , (zi , f (zi )) , (xi , f (xi )) e si calcola la somma dei valori
d · δx . L’errore va come N −4 .
∆f
i
i
• Regola di Gauss: come la regola di Cavalieri-Simpson, ma si calcola
g · δx , dove ∆f
g è la curva che passa per m
la somma dei valori ∆f
i
i
i
punti in ogni sottointervallo δxi . L’errore va come N −2m+1 .
All’aumentare della dimensione, aumentano le valutazioni della funzione, e
dunque diminuisce la velocità di convergenza.
Confrontiamo ora l’andamento degli errori nei principali metodi:
metodo
1 dim.
√
Crude m.c.
1/ N
Rettangoli
N −1
Trapezi
N −2
Cav-Simpson
N −4
−(2m−1)
Gauss
N
d dim.
√
1/ N
N −1/d
N −2/d
N −4/d
−(2m−1)/d
N
da cui si può capire che, qualsiasi sia la dimensionalità d, l’errore associato
alla stima montecarlo rimane sempre lo stesso (ad N fissato), mentre il più
semplice metodo numerico deterministico cresce (ad N fissato) al crescere
di d. Per controbilanciare questa crescita bisogna utilizzare l’algoritmo di
Gauss con m elevato, ma anche in questo caso la difficoltà computazionale
del metodo aumenta al crescere di m. In definitiva, il metodo montecarlo
è l’unico metodo che aumenta in efficienza all’aumentare della dimensione
del dominio d’integrazione. Il metodo montecarlo inoltre fornisce stime di
I distribuite aleatoriamente (in quanto F è variabile aleatoria), dunque si
presta bene alle situazioni fisiche, in cui il processo sottostante è a sua volta
aleatorio.
5.1.2
Metodo montecarlo “hit or miss”
Il metodo hit or miss è il più noto tra i metodi montecarlo per stimare
numericamente il valore di un integrale definito. Supposto che f (x) sia lidove R è il raggio del cerchio osculatore e θ è l’angolo al centro che sottende la corda di
lunghezza c.
81
mitata nell’intervallo ]0, c[ del codominio e che sia continua a tratti in [a, b],
vogliamo stimare quanto vale:
ˆ b
I=
f (x) dx
(5.16)
a
se il metodo “crude” montecarlo si basava sullo stimare il valor medio di f
e approssimare I = E(f ), il metodo hit or miss si basa invece sulla stima
campionaria dell’area sottesa a f (x).
Consideriamo la regione Ω rettangolare dei punti (x, y) del piano tali che
x ∈ [a, b] e y ∈ [0, c], e supponiamo di “sparare” con un proiettile un punto
a caso in Ω. La probabilità di colpire l’area sottesa dalla funzione f (x) nella
regione Ω sarà pari a:
Area sottesa da f (x)
Area totale di Ω
ma la regione Ω è un rettangolo, quindi:
p=
Area totale di Ω = (b − a) · c
(5.17)
(5.18)
mentre l’area sottesa da f (x) è proprio l’integrale I che stiamo cercando.
Quindi:
I
→ I = p · (b − a) c
(5.19)
p=
c (b − a)
il prodotto (b − a) c è noto, in quanto è l’area di Ω complessiva. Ciò che va
stimato è quindi la probabilità p che un colpo sparato a caso finisca nell’area
sottostante ad f (x).
Invece di usare p, possiamo stimare aleatoriamente p considerando il suo
estimatore: la frequenza relativa del campione p̂, cioè:
p̂ =
# di punti estratti a sorte che cadono sotto f (x)
# di punti totali estratti a sorte
(5.20)
si estraggono dunque N volte due coordinate xi e yi a caso nella regione Ω, e
si verifica se yi ≤ f (xi ) per ciascun xi associato ad yi . Se ciò è vero, si incrementa di uno il valore del denominatore di p̂ e di uno il valore del numeratore
di p̂, mentre se è falso si incrementa solo di 1 il valore del denominatore. In tal
modo, stimando aleatoriamente p̂ si può stimare aleatoriamente l’integrale
montecarlo:
F = p̂ · (b − a) c
(5.21)
che è l’approssimazione hit or miss cercata.
82
5.1.3
Campionamento stratificato
Per ridurre la varianza della stima montecarlo di un integrale o si aumenta il
numero N di sampling, o si riduce la varianza σf . Sono dunque state messe
a punto una serie di metodi che cercano di ridurre la varianza σf a parità di
N.
La prima di queste è il metodo del campionamento stratificato. Alla
base di questa tecnica c’è la proprietà degli integrali di Riemann di poter
suddividere l’intervallo d’integrazione in sottointervalli scelti a piacimento,
come ad esempio:
ˆ 1
ˆ a
ˆ 1
f (x) dx =
f (x) dx +
f (x) dx
(5.22)
I=
0
0
a
per un qualsiasi valore di a. Per applicare il metodo del campionamento
stratificato quindi, si suddivide l’intervallo d’integrazione in N sottointervalli
(eventualmente diseguali) e si effettua una stima montecarlo con i metodi
appena discussi. Le stime montecarlo su ciascun sottointervallo vengono
quindi sommate:
Ftot =
N
X
Fj
(5.23)
σFj
(5.24)
j=1
in modo tale che:
σFtot =
N
X
j=1
ciò conduce generalmente ad una riduzione della varianza rispetto al metodo
crude montecarlo applicato su un solo intervallo. I sottointervalli vanno tuttavia scelti accuratamente attraverso qualche informazione nota a priori sulla
funzione per ottenere una riduzione valida di σFtot . Il caso più semplice di
campionamento stratificato è con una suddivisione in due sottoregioni uguali,
con ugual numero di punti di campionamento n1 ed n2 nelle due sottoregioni.
Versioni modificate di questo caso prevedono la suddivisione in due regioni
diseguali, oppure una suddivisione in due regioni uguali ma con numero di
punti di campionamento maggiore dove la funzione varia più rapidamente.
83
perché?
la somma
di
varianze
non aumenta la
varianza
totale?
5.1.4
Campionamento a importanza
La tecnia del campionamento a importanza consiste nel trasformare
l’integranda f (x) mediante la seguente trasformazione:
f (x) dx →
dove:
f (x)
dG(x)
g(x)
(5.25)
ˆ
G(x) :=
g(x) dx
(5.26)
con g(x) funzione arbitraria scelta in modo tale che la nuova funzione da
integrare abbia variazioni più piccole. In tal modo, la varianza σf diventa
σf /g e può essere resa piccola a piacere se g(x) è scelta opportunamente.
Tale metodo presenta alcuni problemi: innanzitutto, la g(x) deve essere una
funzione integrabile, e G(x) deve essere invertibile. Se g(x) ∼ 0 inoltre,
f /g ∼ ∞ e questo non solo aumenta di molto il valore della varianza, ma
rischia anche di generare problemi di overflow numerico. Questo significa che
bisogna escludere funzioni g(x) che possiedono zeri o che vanno a zero molto
rapidamente (ad es. rette e parabole in un intorno dell’origine, gaussiane
molto piccate etc...).
Si noti che, se g(x) ≡ f (x), allora la varianza σf si annulla. Facendo così
però G(x) diventa l’integrale di f (x), e quindi si entra in un circolo vizioso
in quanto bisogna conoscere l’integrale analitico di f (x) per procedere col
metodo. Nonostante tutti i problemi però, questo metodo è solitamente il
più conveniente da utilizzare.
5.1.5
Metodo delle variabili di controllo
Nel metodo delle variabili di controllo, si sottrae ad f (x) una funzione
g(x) opportuna, in modo che, sommando e sottraendo g(x) nell’integrale, si
abbia:
ˆ
ˆ
ˆ
f (x) dx = [f (x) − g(x)] dx + g(x) dx
(5.27)
´
se g(x) dx è noto, allora la varianza σf −g sarà automaticamente minore di
σf .
84
5.1.6
Metodo delle variabili antitetiche
Nel metodo delle variabili antitetiche, si utilizza la proprietà che, se due
variabili aleatorie sono negativamente correlate tra loro, allora la varianza
della variabile somma è minore della somma delle varianze associate alle due
variabili prese singolarmente, in quanto:
σf1 +f2 = σf1 + σf2 + 2 cov (f1 , f2 ) ,
con cov (f1 , f2 ) < 0
(5.28)
data una funzione f (x) con variabile x ad esempio, consideriamo anche la
variabile x0 = 1 − x. L’integrale sarà:
F ∝
N
1 X
[f (x) + f (1 − x)]
2N i=1
(5.29)
che ha varianza più piccola di σf /N .
5.1.7
Metodi adattivi
I metodi adattivi sono una classe di metodi montecarlo che hanno la proprietà di modificarsi a run-time (cioè durante l’esecuzione del programma),
sulla base delle informazioni ottenute dalle integrazioni precedenti. Alcuni
esempi sono:
• Programma RIWIAD: Si suddivide il volume d’integrazione in sottovolumi, e per ciascuno di essi viene stimato l’integrale (e la sua varianza) con il metodo “crude” montecarlo. Successivamente, sulla base
delle informazioni ottenute dall’integrazione, si procede a ulteriori suddivisioni a run-time, in modo da ridurre la varianza per ciascun sottovolume.
Tale processo di suddivisione è spesso non soddisfacente, in quanto avviene solitamente parallelamente alle direzioni iniziali, oppure in casi
in cui non è necessario effettuare ulteriori suddivisioni.
• Programma DIVONNEA: L’algoritmo si basa su due fasi. Nella prima fase, si esegue in modo ricorsivo una partizione del dominio, scelta
in modo che la funzione vari il meno possibile all’interno delle partizioni
eseguite (per far ciò si usano anche tecniche di minimizzazione di funzioni). Nella seconda fase avviene invece la valutazione dell’integrale
mediante la tecnica del campionamento stratificato.
85
5.2
Generazione di variabili aleatorie che seguono una certa distribuzione di probabilità
Una seconda applicazione possibile delle tecniche montecarlo è quella di generare istanze (“eventi”, “misure”) di una variabile aleatoria x che segue una
certa distribuzione di probabilità f (x).
Nel caso di variabili aleatorie discrete, la distribuzione di probabilità
associata sarà descrivibile mediante una tabella del tipo:
x1
x2
x3
..
.
p1
p2
p3
..
.
xn
pn
dove xi sono i possibili valori assumibili dalla variabile aleatoria x, ciascuno
P
associato ad una sua probabilità pi con la proprietà che i pi = 1.
Per procedere con l’algoritmo quindi, si suddivide l’intervallo [0, 1] in n + 1
punti yi (con i che va da 0 ad n), in modo tale che ogni segmento ∆yi := yi+1 −
yi generato dalla suddivisione sia proprio pari alla probabilità pi (∆yi ≡ pi )
che descrive la distribuzione di probabilità discreta associata alla variabile
aleatoria che si vuole simulare2 . A questo punto, per simulare un evento
si genera un numero casuale r (con distribuzione di probabilità uniforme)
nell’intervallo [0,1]. Tale numero cadrà in un certo ∆yi , che a sua volta sarà
associato ad un pi . In definitiva, estraendo a sorte r si sceglie a caso un certo
pi , dal quale indice si può risalire al valore xi misurato nell’ “esperimento”.
Nel caso di variabili aleatorie continue invece, consideriamo l’intervallo
]a, b[ continuo (associato a tutti gli infiniti valori assumibili dalla variabile
aleatoria x) su cui è definita la densità di probabilità associata f (x). Si può
procedere quindi mediante il metodo del cambiamento di variabile: sia
β una variabile aleatoria a distribuzione uniforme con dominio [0, 1]. Sia
inoltre G(x) la distribuzione di probabilità cumulativa associata a x, cioè
2
Si noti che i valori pi sono noti a priori, perché stiamo “costruendo” la variabile
aleatoria sapendo che essa segue una certa distribuzione, ad esempio gaussiana, poissoniana
etc...
86
l’integrale della densità di probabilità f (x) tale che G(a) = 0 e G(b) = 1.
Poiché f (x) è una distribuzione di probabilità, essa sarà sempre maggiore di
zero, quindi G(x) è una funzione monotòna crescente, nel senso che:
G(x1 ) < G(x2 ) se x1 < x2
(5.30)
possiamo a questo punto utilizzare G(x) (che è nota perché conosciamo la
f (x) che vogliamo simulare) a sua volta come variabile aleatoria da cui ottenere, invertendo G(x), un valore x che segua f (x). Per fare ciò, si estrarre a
sorte un certo valore di β, che essendo compreso tra 0 e 1 può essere associato
ad un certo valore di G(x):
ˆ x
f (z) dz ⇒ dβ = f (x) dx
(5.31)
β |= G(x) =
a
dove con |= si indica il fatto che una certa istanza della variabile aleatoria
β “fa le veci” di un certo valore G(x) estratto a sorte. Estratto a sorte un
particolare valore di β quindi, possiamo trovare un particolare valore della
variabile aleatoria x mediante l’inversa di G(x):
β |= G(x) ⇒ x = G−1 (β)
(5.32)
in definitiva, si estrae a sorte un certo valore di G(x) mediante una variabile
aleatoria fantoccia β che ha distribuzione perfettamente uniforme tra 0 e 1,
dal quale è possibile ricavare una particolare istanza di x mediante la funzione inversa della distribuzione di probabilità cumulativa.
Dobbiamo però dimostrare che, estraendo un certo β particolare e associandolo automaticamente ad uno stesso valore di G(x), otteniamo una particolare
istanza di x tale che essa sia ancora descritta dalla densità di probabilità
f (x). Per fare ciò, notiamo che β |= G(x) ha un solo valore. Scelto un
sottointervallo [c, d] ⊆ [a, b], si ha per monotonia che:
G(c) < G(x) < G(d) se x ∈ [c, d]
(5.33)
P (x ∈ [c, d]) = P (β ∈ [G(c), G(d)])
(5.34)
questo vuol dire che:
poiché β ha distribuzione di probabilità uniforme su [0, 1], segue che:
ˆ d
P (β ∈ [G(c), G(d)]) = G(d) − G(c) =
f (x) dx
(5.35)
c
87
quindi:
ˆ
d
f (x) dx
P (x ∈ [c, d]) =
(5.36)
c
quindi la probabilità di avere x che cade in un certo sottointervallo è pari
all’integrale della densità di probabilità sul sottointervallo stesso, che è ciò che
volevamo dimostrare (perché significa che la probabilità infinitesima che un x
estratto cada in un intervallo dx è ancora descritta da f (x) dx, quindi il valore
generato con questo metodo è ancora distribuito secondo la distribuzione di
probabilità f (x)).
5.3
Generatori di numeri casuali con distribuzione di probabilità uniforme
Come abbiamo visto, praticamente tutte le tecniche montecarlo necessitano
di numeri estraibili a sorte con probabilità che siano uguali per ogni possibile
valore estraibile, quindi necessitano di un generatore di variabili aleatorie
che abbiano distribuzione di probabilità perfettamente uniforme.
Nella realtà però, è molto complesso ottenere generatori di numeri casuali
che si comportino sulla base di una distribuzione di probabilità uniforme. In
generale, esistono 3 tipi di numeri casuali generabili realmente:
1. Numeri “veramente” casuali: Questi tipi di numeri casuali hanno
la proprietà di essere impredicibili e irriproducibili con qualsiasi tipo di
algoritmo. In quanto tali, un generatore di numeri “veramente” casuali
che sia “comodo” da utilizzare è molto ricercato in crittografia.
Questo tipo di numeri casuali purtroppo non sono producibili da nessun
programma, ma è noto che possono essere prodotti dalla natura come
risultato di processi fisici intrinsecamente casuali, come decadimenti
radioattivi o interazioni di particelle con la materia.
In particolare, un esperimento di Frigeric e Clark (1978) ha dimostrato
per la prima volta come si possano generare numeri casuali a partire
dal decadimento di una sorgente di radiazioni α. Per fare ciò, si è
posto un rivelatore di particelle α vicino alla sorgente, conteggiando
quante volte è stato rivelato un segnale ogni 20 ms. A questo punto,
se n conteggiato è risultato essere pari, si produce un bit pari ad 1,
altrimenti un bit pari a 0. Si crea in questo modo una successione di
88
31 bit prodotti in modo completamente casuale, a cui sarà associato
un numero “veramente” casuale.
2. Numeri pseudocasuali: sono generati al computer attraverso degli
algoritmi, e simulano un generatore di numeri “veramente” casuali mediante algoritmi che provano a modellizzare un fenomeno casuale, pur
essendo in realtà deterministici.
Poiché sono i più facili da produrre, sono i generatori più utilizzati nelle simulazioni montecarlo, ma non sono “veramente” casuali in
quanto seppur la distribuzione di probabilità associata risultante è uniforme, conoscendo l’algoritmo è possibile prevedere il prossimo numero
estratto e anche riprodurre l’intera serie di numeri estratti precedentemente. I numeri pseudocasuali hanno quindi all’apparenza lo stesso
comportamento di un numero “veramente” casuale, finché non si conosce l’algoritmo deterministico che li produce. Una volta compreso tale
algoritmo, l’apparente casualità cade e si possono prevedere le sequenze
di numeri prodotte in questo modo. Per tale motivo, non sono adatti
per avere una crittografia sicura.
I numeri pseudocasuali hanno in particolare la seguente caratteristica:
non c’è quasi correlazione fra elementi successivi di una sequenza di
numeri pseudocasuali estratti a sorte, dunque è complicato estrarre tot
numeri pseudocasuali e distribuirli uniformemente nell’intero dominio
di definizione.
Questo significa che, se si cerca ad esempio di riempire un piano con
punti generati pseudocasualmente, è complesso produrli in modo “ordinato” (ma sempre casuale).
3. Numeri quasicasuali: sono generati al computer attraverso semplici
algoritmi, e sono in natura molto simili ai numeri pseudocasuali, con
la differenza che c’è forte correlazione tra elementi successivi di una
sequenza di numeri quasicasuali estratti a sorte. I numeri quasicasuali
hanno quindi il vantaggio di potersi distribuire uniformemente nell’intero dominio di definizione.
Questo significa che, se si cerca di riempire un piano con punti generati quasicasualmente, è facile produrli in modo “ordinato” (ma sempre
casuale).
89
Figura 5.1: 100 punti prodotti in modo quasicasuale confrontati con 100
punti prodotti in modo pseudocasuale. Si noti che nel secondo caso si ha
la formazione di “cluster”, cioè gruppi di punti molto ravvicinati tra loro,
mentre nel primo caso ciò non avviene.
Si noti tuttavia che, usando numeri quasicasuali o pseudocasuali nei metodi
montecarlo,
la deviazione standard associata alla stima non va più come
√
1/ N , ma come N −1 .
Il più famoso generatore di numeri quasicasuali è il generatore di Van Der
Corput. Si sceglie un certo sistema di numerazione in base p, e si converte
una sequenza di interi dalla base 10 alla base p. Si invertono poi le cifre, e si
antepone “0.”, riconvertendo poi tutto in base 10. In questo modo si ha una
serie di numeri prodotti quasicasualmente compresi tra 0 e 1.
Esempio. Generatore di Van Der Corput in base 2
base 10
1
2
3
4
5
6
7
8
base 2
1
10
11
100
101
110
111
1000
base 2 inv.
0.1
0.01
0.11
0.001
0.101
0.011
0.111
0.0001
90
numero quasicasuale
0.5
0.25
0.75
0.125
0.625
0.375
0.875
0.0625
si è dunque prodotta la sequenza {0.5,0.25,0.75,0.125,0.625,0.375,0.875,0.0625},
apparentemente casuale se non fosse che è stata prodotta mediante un metodo deterministico. Se io conosco in anticipo che sto producendo numeri in
modo casuale usando il generatore di Van Der Corput in base due con numeri che vanno da 1 in poi, posso prevedere facilmente che il prossimo numero
della sequenza sarà 0.5625, anche se la distribuzione di probabilità associata
a questi numeri è uniforme.
91
Parte II
Apparati scientifici
92
Capitolo 6
Proprietà dei materiali e
strumenti da lavoro
6.1
Metalli e leghe metalliche
Uno dei materiali più utilizzati nella costruzione degli apparati scientifici è il
metallo. I metalli puri vengono ritrovati nei silicati in miniera, e per essere
purificati devono subire prima un processo di raffinazione, cioè un processo
di eliminazione delle sostanze estranee appartenenti al composto in cui risiede il metallo: il materiale viene riscaldato ad alte temperature, filtrato e
successivamente raffreddato lentamente. Se il raffreddamento è sufficientemente lento, gli atomi del metallo si riarrangiano in modo da formare reticoli
cristallini.
Invece di un solo cristallo gigante di metallo, solitamente il materiale tende
a formarsi come un insieme di domìni cristallini. I reticoli cristallini più
stabili sono quelli a massimo impacchettamento, come il reticolo esagonale compatto e il reticolo cubico a facce centrate. Reticoli meno ideali
sono invece quelli come il reticolo cubico a corpo centrato. Di queste
3 possibilità, i metalli che cristallizzano nel primo modo sono i più fragili,
quelli che cristallizzano nel secondo modo sono duttili e malleabili, mentre
quelli che cristallizzano nel terzo modo sono caratterizzati da elevata durezza
e bassa duttilità.
Oltre ai metalli puri è possibile considerare delle leghe metalliche, cioè
miscele tra più metalli diversi. Come in tutte le soluzioni, il metallo presente
in percentuale maggiore è detto solvente, mentre quello presente in percen93
tuale minore è detto soluto.
I 3 possibili tipi di leghe metalliche sono:
1. Miscuglio semplice: si portano a fusione i due metalli e li si miscela
ad alte temperature. Il miscuglio è solitamente non omogeneo, nel
senso che alcuni dei domini cristallini che si formeranno saranno relativi
solo al primo elemento, mentre altri saranno relativi solo al secondo
elemento. Anche al microscopio ottico, è possibile distinguere i due
domini.
2. Combinazioni chimiche: i due metalli vengono legati assieme mediante reazioni chimiche, che generano un nuovo metallo completamente diverso da quelli di partenza. Tale miscela è omogenea, in quanto
non è possibile distinguere i due metalli diversi nella soluzione.
3. Soluzione solida: se i due metalli sono molto simili tra loro, può avvenire il cosiddetto fenomeno della vicarianza, in cui gli atomi del soluto
sostituiscono alcuni atomi del solvente, in certe posizioni del reticolo
molecolare. Un’altra possibilità è che essi si infilino negli interstizi lasciati liberi dal solvente. In entrambi i casi si ha una miscela omogenea,
indistinguibile a occhio nudo.
Solitamente si utilizzano le leghe del ferro. Quelle più diffuse sono la ghisa,
prodotta dagli altiforni, formata da ferro + carbonio con titolo di carbonio
superiore al 2.05%, e l’acciaio, simile alla ghisa ma con titolo di carbonio inferiore al 2.05%. La ghisa è un materiale molto duro, difficilmente lavorabile,
che però può essere utilizzata per la fabbricazione di componenti meccanici
ad alta resistenza termica.
Per quanto riguarda l’acciaio invece, esso si può ricoprire mediante uno strato
superficiale di ossido di cromo (mediante un processo detto di cromatura).
Mediante questo processo, si ha come risultato che l’acciaio risulta protetto
da questa barriera rispetto all’ambiente esterno, impedendo le reazioni con
l’ossigeno e quindi l’ossidazione dell’acciaio: questa tipologia di lega è nota
come acciaio inossidabile (inox).
Altre leghe metalliche note sono quelle del rame, come l’ottone (rame +
zinco) ed il bronzo (rame + stagno). Il primo è un materiale molto malleabile, sia in fogli che in forme più complesse, che tuttavia tende a scurirsi
nel tempo. Il secondo invece è caratterizzato da un’elevata durezza ma allo
stesso tempo elevata malleabilità, la qual cosa lo ha reso il materiale principe
delle ere arcaiche (come nell’età del bronzo).
94
6.2
Proprietà dei materiali
I materiali da lavorazione hanno molte proprietà fisiche che li caratterizzano:
• Densità
• Calore specifico (o la capacità termica, moltiplicando per la massa)
• Fusibilità: essa è riferita ai valori di temperatura che assume l’intervallo
di fusione del metallo (a differenza degli altri materiali, che solitamente
hanno una singola temperatura di fusione costante). Le leghe ad alta
fusibilità hanno un intervallo di fusione a temperature abbastanza basse. Se il punto di fusione della lega metallica è più basso dei punti di
fusione associati agli elementi componenti la lega, il materiale è detto
eutettico. Se la temperatura di fusione è in particolare più bassa dei
1000 °C, il materiale è detto fusibile.
• Dilatazione termica: i metalli si dilatano mediante le seguenti leggi di
dilatazione:
l = l0 (1 + α∆T )
S = S0 (1 + β∆T )
V = V0 (1 + γ∆T )
(6.1)
(6.2)
(6.3)
i coefficienti α, β e γ vengono utilizzati per caratterizzare questa proprietà rispettivamente nel caso di dilatazione lineare, superficiale e
volumica.
• Conducibilità termica: parametro k che interviene nella legge di Fourier
per la conduzione del calore in un singolo materiale:
S
dQ
= k (T − T0 )
dt
l
(6.4)
esiste anche un coefficiente di conducibilità esterna ke che interviene nella legge di conduzione del calore “esterna”, cioè tra due materiali
diversi:
dQ
= ke S (T − T0 )
(6.5)
dt
tale coefficiente caratterizza le sensazioni di caldo e di freddo umane.
95
• Conducibilità elettrica: parametro ρ che compare nella seconda legge di Ohm, la quale caratterizza quanto gli elettroni fluiscono senza
impedimento all’interno di un conduttore:
R=
l
ρ
S
(6.6)
i materiali con più bassa conducibilità elettrica sono l’argento, l’oro
e il rame, in ordine decrescente. Tenendo in conto anche la densità
del mezzo tuttavia, l’alluminio è a parità di dimensioni geometriche il
mezzo che ha la conducibilità per unità di volume più bassa.
• Elasticità: parametro che caratterizza le deformazioni plastiche, solitamente associato al modulo di Young:
E=
l0 F
S0 ∆l
(6.7)
• Durezza: parametro che caratterizza la resistenza di un materiale alla
scalfitura.
• Resilienza: parametro che caratterizza l’energia necessaria per rompere
di un materiale.
Oltre alle proprietà fisiche, è importante tenere conto anche delle proprietà
chimiche:
• Corrodibilità: è un parametro associato alle corrosioni sia chimiche che
elettrochimiche, e dipendono dall’interazione del materiale con l’ambiente circostante. La corrosione è un processo che può avvenire sia
per l’interazione chimica con i gas, detta corrosione a secco, sia per
interazione chimica con dei liquidi, detta corrosione a umido.
La corrosione di tipo elettrochimico può avvenire soltanto in quest’ultimo modo. Questo tipo di corrosione avviene nella pratica soprattutto
quando due materiali di natura diversa sono a contatto in presenza di
umidità. A causa della differenza di umidità infatti, si generano delle
correnti elettrochimiche che alla lunga corrodono il materiale. Un modo
per proteggere i materiali dalla corrosione è quello di rivestirli con un
materiale che reagisce scarsamente con l’atmosfera, come nel processo
di cromatura già discusso.
96
E delle proprietà plastiche:
• Malleabilità: capacità di deformazione plastica del materiale
• Duttilità: capacità di un materiale a essere modellato in fili sottili
• Estrudibilità: Capacità di un materiale di assumere determinate forme
mediante compressione attraverso fori modellati
• Immutabilità: capacità di un materiale a essere modellato in forme
prestabilite
Particolari materiali aventi buone proprietà plastiche sono il PET, il PVC, il
Nylon, il Teflon, il Pexiglass e il Kapton.
6.3
Prove di caratterizzazione dei materiali
Vediamo alcune prove per caratterizzare alcune delle grandezze quì sopra
definite. Per quanto riguarda l’elasticità, la prova più nota è la prova di
trazione: si sottopone un provino standard di un certo materiale da analizzare ad un carico monoassiale F che viene incrementato fino ad un valore
massimo che determina la rottura del materiale. La macchina solitamente
fornisce un diagramma, noto come diagramma sforzo-deformazione, che
descrive lo sforzo in funzione delle deformazioni.
Si definisce sforzo la quantità:
σ=
F
S0
(6.8)
dove S0 è la sezione iniziale del provino, e deformazione la quantità:
ε=
∆l
l0
(6.9)
il diagramma sforzo-deformazione tipico ottenuto dalla prova di trazione è il
seguente:
97
Figura 6.1: Prova di trazione.
Identifichiamo i seguenti punti principali del diagramma:
1. Regime di comportamento elastico: corrisponde al comportamento elastico lineare del campione, in cui il materiale obbedisce alla legge di
Hooke:
σ =Eε
(6.10)
dove E è il modulo di Young.
2. Fase di snervamento: in questa fase inizia la deviazione dal comportamento lineare; tale zona corrisponde ad una caduta di resistenza meccanica del mezzo, dovuta alla formazione di micro-cricche all’interno
del materiale.
3. Regime di comportamento plastico: in questa zona le deformazioni sono
plastiche, nel senso che azzerando il carico dopo aver sottoposto il provino a questo tipo di deformazione, esso presenterà delle deformazioni
irreversibili.
4. Fase di strizione: arrivato al punto di massimo della curva, inizia la
cosiddetta strizione, cioè un fenomeno per il quale la sezione del materiale inizia a ridursi rispetto al suo valore originario in modo significativo. Da questo punto in poi la curva sarà decrescente, in quanto
ad una deformazione maggiore sarà associata una resistenza minore del
materiale, che non è più capace di reagire allo stress.
98
5. Carico di rottura: il punto finale è noto come carico di rottura, ed è la
fase in cui la strizione è massima e il materiale si separa in due parti.
Esso corrisponde al massimo valore di deformazione che il provino può
sopportare prima di rompersi.
Altri tipi di prove elastiche importanti sono la prova di flessione, in cui si
prende un campione a forma di trave e si imprime una forza F perpendicolare
all’asse della trave stessa:
Figura 6.2: Prova di flessione.
e la prova di resilienza, che stima l’energia di rottura di un materiale
mediante un pendolo: si pone il provino alla base del pendolo e lo si rompe
con lo stesso. Dalla differenza di altezza necessaria a rompere il provino, si
riesce a stimare l’energia potenziale iniziale del pendolo, e quindi l’energia di
rottura.
Un tipo di prova molto famoso è la prova di durezza, in cui si determina
la resistenza di un materiale alla scalfitura. Esistono vari tipi di prove di
durezza:
• Prova di durezza Brinell: si utilizza una pallina di diamante per indentare un materiale. Il risultato viene fornito in termini di 3 numeri:
diametro della pallina, carico e tempo di attesa per la scalfitura.
99
• Prova di durezza Vickers: si utilizza una piramide a base quadrata di
diamante che incide sul materiale. Il risultato è fornito mediante 2
numeri: carico e tempo di attesa.
• Prova di durezza Rockwell: SSi utilizza una punta di diamante a forma
di cono. In questo caso, si pone prima un materiale di massa standard
(10 kg) sulla base del cono. Si misura la profondità di penetrazione, e si
pone successivamente il carico di prova: dalla differenza di profondità,
si può ricavare la durezza del materiale.
A cui corrisponderanno varie definizioni di durezza. La durezza è anche
misurata, solitamente dai mineralogisti, mediante la scala Mohs: Essa è una
scala basata su vari materiali, che rispettivamente incidono quelli a durezza
inferiore. Il diamante viene posto per convenzione con durezza pari a 10, cioè
il massimo, mentre il talco viene posto per convenzione pari a 1, in quanto
si scalfisce anche solo con un’unghia.
6.4
6.4.1
Strumenti per la lavorazione dei materiali
Trapano a colonna
Il trapano a colonna è uno strumento utilizzabile per effettuare fori di diametro controllato in un materiale. Le punte sono solitamente fatte in acciaio
super rapido (HSS), e sono disponibili in vari diametri: esse vanno da diametri di 1.00 mm a 10.00 mm con passo di 0.10 mm; per diametri successivi,
il passo è di 0.50 mm.
6.4.2
Tornio
Il Tornio è uno strumento utilizzabile per effettuare incisioni a simmetria
cilindrica o conica in un materiale. In un tornio, il materiale da incidere è
fermato mediante un mandrino, posto in rotazione da un motore. Un set
di punte per incidere il materiale sono a quel punto avvicinate all’oggetto da
incidere mediante un carrellino semovente, capace di generare incisioni sia
all’interno che all’esterno del materiale:
100
Figura 6.3: Sezione schematica di un tornio, con le punte che incidono il
mezzo in vari modi.
6.4.3
Fresa
La fresa è uno strumento utilizzabile per tagliare o effettuare incisioni rettilinee in un materiale. In una fresa, il materiale da tagliare è portato in
contatto con una lama rotante:
Figura 6.4: Schema di una fresa.
le frese hanno varie forme, ma in generale permettono di incidere il materiale
a piacimento, per tagliare vari tipi di forme senza una particolare simmetria.
101
6.5
Principi di disegno tecnico
Per chiedere ad un costruttore di creare un oggetto, è necessario prima mostrarne la forma. Le forme dell’oggetto vengono descritte da una proiezione
ortografica, cioè il tipo di proiezione ottenuta quando un oggetto è talmente
lontano dagli occhi da privarlo di qualsiasi tipo di prospettiva apparente.
Per schematizzare l’oggetto, si utilizzano solitamente 6 viste principali
mostrate in Figura 6.5:
Figura 6.5: Viste principali dell’oggetto mostrato in proiezione ortografica
a sinistra. Le figure sbarrate sono quelle che non sono fondamentali alla
descrizione dell’oggetto.
non tutte sono fondamentali però: quelle necessarie alla descrizione completa
di un oggetto sono solitamente solo 3.
Si distinguono due scuole di pensiero sulla descrizione della vista prospettica
laterale di un oggetto: la scuola di pensiero americana e la scuola di
pensiero europea. Nella prima, che è quella adoperata nella Figura 6.5, si
preferisce usare la proiezione a terzo angolo per le proiezioni laterali: la
vista laterale è proiettata sul piano posto dall’altro lato dell’oggetto, come
accadrebbe se si illuminasse con una luce di una torcia il lato dell’oggetto e
si disegnasse l’ombra su uno schermo posto dall’altro lato dell’illuminazione.
Nella seconda, che è quella adoperata nella Figura 6.6, si preferisce usare
la proiezione a prim’angolo: la vista laterale è proiettata sul piano di
102
proiezione concorde al lato dell’oggetto, come accadrebbe se si illuminasse
dall’interno dell’oggetto le pareti dello stesso e si disegnassero le proiezioni
delle ombre sui muri della stanza circostante l’oggetto.
Figura 6.6: Lo stesso oggetto della Figura 6.5, con proiezioni laterali mostrate
mediante la convenzione europea.
I simboli che si utilizzano per specificare quale di queste due convenzioni si
sta adoperando per fare un disegno sono quelle mostrate in Figura 6.7:
Figura 6.7: Pittogrammi utilizzati per identificare quale convenzione si sta
utilizzando, tra quella europea e quella americana.
Per disegnare le parti interne ad un oggetto, si utilizzano delle linee tratteggiate sottili. Per disegnare le parti visibili invece, si usano dei tratti continui
e doppi. Una volta disegnato l’oggetto, è necessario specificare le dimensioni dei segmenti, cioè la distanza (in unità S.I.) tra due punti associati ai
103
segmenti del disegno. Le dimensioni sono indicate con delle frecce, che possono essere messe in serie (cioè una in fila all’altra) o in parallelo (cioè una
sopra l’altra), come in Figura 6.8:
Figura 6.8: (a) dimensioni in serie di un oggetto; (b) dimensioni in parallelo
di un oggetto.
104
Capitolo 7
Pompe a vuoto
7.1
Definizione di vuoto
Si definisce solitamente vuoto un sistema avente pressione interna 1 minore
di 10−3 torr. La corretta definizione di “vuoto” è variabile a seconda del
lavoro che bisogna compiere, ma in generale:
• Se p > 10−3 torr: situazione di vuoto scarso
• Se p ∈ [10−3 , 10−6 ] torr: situazione di vuoto elevato
• Se p ∈ [10−6 , 10−9 ] torr: situazione di vuoto molto elevato
• Se p ∈ [10−9 , 10−12 ] torr: situazione di vuoto ultra elevato
7.2
Teoria cinetica dei gas
Per comprendere il flusso di massa in un sistema a vuoto, è necessario comprendere le variazioni nella libertà di movimento di una molecola di gas al
diminuire della pressione.
Dalla teoria cinetica dei gas, la velocità media di una molecola può essere
dedotta dalla distribuzione di Maxwell Boltzmann:
s
v̄ =
1
8kB T
πm
Ricordiamo che 1 atm = 760 torr = 105 Pa = 1.013 bar.
105
(7.1)
supponendo di avere un’atmosfera composta principalmente da N2 e O2 a
temperatura ambiente:
s
v̄ '
8 · 1.4 · 10−25 · 300
'
3 · 30 · 1.66 · 10−27
s
8 · 10−22
' 5 · 102 m/s
3 · 10−27
(7.2)
che è circa la velocità del suono nell’aria. Ogni secondo, una molecola di
diametro ξ spazza un volume pari a quello di un cilindro con raggio 2ξ e
altezza v̄. La molecola colliderà con qualsiasi altra molecola che ha il centro
di massa interno a questo cilindro in questo intervallo di tempo:
Figura 7.1: Il volume spazzato in un secondo da una molecola di diametro ξ
e velocità media v̄.
il numero di collisioni al secondo Z effettuato da questa molecola sarà pari
al prodotto tra la densità numerica di “centri” delle altre molecole, pari a n,
moltiplicato per il volume spazzato dalla molecola in un secondo:
Z ≈ n · πξ 2 · v̄
(7.3)
tenendo conto anche del moto relativo delle molecole, un valore più accurato
di Z è:
√
Z = 2 nπξ 2 v̄
(7.4)
Il tempo medio che intercorre tra un urto e l’altro sarà allora 1/Z. Si definisce
cammino libero medio la distanza media tra una collisione e l’altra:
v̄
1
λ := = √
(7.5)
Z
2nπξ 2
Nel caso dell’aria, se p = 10−3 torr:
λ ' 1.4 · 3.5 · 1013 · 3 · 9 · 10−16
106
−1
u 6 cm
(7.6)
quindi, se anche la densità è molto elevata in condizioni di scarso vuoto, gli
urti tra le particelle sono improbabili: questo è il motivo per cui si può ritenere che un oggetto è sotto vuoto se anche non è stata eliminata la presenza
di ogni molecola.
7.3
Degassificazione delle pareti e collisioni
superficiali
Uno dei problemi principali nella creazione del vuoto è la degassificazione
delle pareti, cioè la rimozione di quelle molecole che hanno aderito alle superfici della camera tramite interazioni di Van der Waals.
Il numero di collisioni con le pareti del contenitore nell’unità di tempo sarà
dato da:
nv̄
(7.7)
Zs =
4
Assumendo che la probabilità di adesione è pari al 100% e che il diametro
delle molecole di aria sia 3 · 10−8 cm, il tempo che impiega il gas a riempire
completamente la parete di aria (supponendo che le molecole si allineino una
vicina all’altra a formare uno strato monomolecolare) è pari a:
t=
2.5 · 10−6
s
p
(7.8)
dove p è la pressione del gas espressa in torr. Questo significa che, per
mantenere le pareti degassificate a lungo, è necessaria una pressione inferiore
a 10−9 torr, e quindi un vuoto ultra elevato.
7.4
Flusso viscoso e flusso molecolare
La pressione del gas può fluttuare molto mentre il sistema viene portato dalla pressione atmosferica a quella minima ottenibile dalla camera a vuoto. A
pressioni elevate, quando λ V (con V volume del contenitore), il comportamento del gas è determinato dalle interazioni intermolecolari. Queste
interazioni risultano solitamente in forze viscose, e il gas si comporta come
un fluido omogeneo. Il flusso di gas in queste condizioni è detto per questi
motivi flusso viscoso. A pressioni più basse, quando λ V , le molecole
107
iniziano a comportarsi come in un gas perfetto e il comportamento è determinato dal moto casuale delle molecole. In questo caso, il flusso di gas verrà
detto flusso molecolare.
Nel caso di flusso viscoso, il flusso migliora all’aumentare della pressione, e
peggiora a causa della turbolenza e dell’attrito viscoso rispetto alle pareti
dei tubi che cercano di fare il vuoto. Nel caso di flusso molecolare, il gas ha
viscosità quasi nulla, e fluisce spontaneamente da regioni di alta pressione a
regioni di bassa pressione semplicemente a causa delle leggi di conservazione fluidodinamiche: il flusso molecolare si comporta in generale da processo
stocastico.
7.5
Parametri per specificare il flusso di gas
Si definisce velocità di pompaggio la quantità di materia che fluisce attraverso il tubo di pompaggio, cioè il volume di gas che fluisce nell’unità di
tempo:
dV
(7.9)
S :=
dt
uso la legge dei gas perfetti:
d
S=
dt
N kB T
p
!
→ kB T
dN
= pS
dt
(7.10)
definisco portata la quantità:
Q := kB T
da cui si ottiene la relazione:
dN
dt
Q = pS
(7.11)
(7.12)
la portata si misura in Pa m3 s−1 . Definisco inoltre conduttanza la quantità:
C :=
Q
∆p
(7.13)
R−1 =
I
∆V
(7.14)
che è analogo alla legge di Ohm:
108
invero, C si comporta come la conduttanza elettrica. Nel caso di più tubi in
serie infatti, si ha:
N X
1
1
=
(7.15)
Cserie i=1 Ci
nel caso di più tubi in parallelo invece:
Cpar. =
N
X
Ci
(7.16)
i=1
questo permette di applicare le stesse leggi di semplificazione dei circuiti
elettrici ai circuiti idraulici.
7.6
Equazione maestra
Consideriamo la seguente figura:
Figura 7.2: Rappresentazione di un sistema idraulico.
in riferimento alla figura, in cima al tubo si ha:
S=
Q
Q
→ p1 =
p1
S
109
(7.17)
all’ingresso della pompa si ha:
Sp =
e vale la relazione:
Q
Q
→ Sp = p2 =
p2
Sp
Q = C (p1 − p2 )
(7.18)
(7.19)
sostituendo le espressioni per p1 e p2 , si ha:
Q
=C
Q
S
−
Q
Sp
!
⇒
1
1
1
= −
C
S Sp
(7.20)
questa è l’equazione maestra che lega la velocità di pompaggio di un sistema alla conduttanza dei tubi (che in realtà possono essere ridotti ad un
solo tubo equivalente, mediante le leggi di semplificazione già viste) e alla
velocità di pompaggio associata alla pompa, Sp . Si noti che, se anche Sp è
molto elevato, se non si hanno alti valori di S e C non si può generare un
buon vuoto. Questo significa che non ha senso spendere troppi soldi per una
pompa super efficiente se i tubi e il contenitore sono scarsi. Si noti inoltre
che, per conservazione della portata:
Sp1 = Sp p2 ⇒
Sp
p1
=
p2
S
(7.21)
bisogna dunque stare attenti a misurare il vuoto all’ingresso della camera, e
non all’ingresso della pompa, in quanto solitamente:
dunque:
Sp
=6
S
(7.22)
p1 = 6p2
(7.23)
quindi si sottostimerebbe di 6 volte la pressione all’interno della camera.
7.7
Misure di vuoto
Esistono vari strumenti per misurare il vuoto:
110
• Manometro: è un tubo a U riempito con mercurio o particolari oli,
che possono misurare tra 1 e 0.1 torr a seconda del fluido utilizzato.
Un’estremità del manometro è lasciata verso l’atmosfera, mentre l’altra
estremità è in collegamento diretto con l’ambiente di misura. Il liquido
si sposterà verso l’alto in uno dei due rami, di un valore h tale che:
|ρgh| = |∆p|
(7.24)
da cui è possibile misurare ∆p. Lo svantaggio è la scarsa sensibilità dello
strumento ed il fatto che il liquido evapora, la qual cosa impedisce di
effettuare un buon vuoto.
• Trasduttore piezoelettrico: si utilizza un cristallo piezoelettrico che
converte una differenza di pressione tra le due facce in segnali elettrici,
proporzionali a ∆p. Essi funzionano bene nel range di pressione tra
10−1 e 10−3 torr.
• Manometro capacitivo: è un manometro a diaframma, dove la posizione del diaframma è determinata da una misura di capacità elettrica.
Il manometro è diviso in due camere, da un diaframma che funge da
un’armatura di un condensatore; la seconda armatura è invece fissa
in una delle due camere. Una variazione di pressione risulta in una
variazione di capacità, visto che sposta l’armatura da una parte o dall’altra del manometro. Questi strumenti misurano pressioni tra 10−3 e
10−4 torr.
• Gauge a termocoppia: sono misuratori di pressione che si basano sulla variazione di conducibilità termica di un gas. Un filo viene
riscaldato dal passaggio di corrente elettrica, e la temperatura risultante del filamento dipenderà dalla conducibilità termica del gas, che
a sua volta dipende dalla pressione. La pressione è determinabile dalla
forza elettromotrice prodotta da una termocoppia in contatto con il
filamento.
• Gauge pirani: il funzionamento è analogo a quello della termocoppia,
con la differenza che il filamento è posto come un ramo di un ponte di
Wheatstone. una variazione nella temperatura del filamento produce
una variazione di resistività, e quindi una variazione di tensione ai
capi del filo. Questo sbilancia il ponte di wheatstone, e utilizzando un
amperometro è possibile determinare dalla corrente passante nel ponte
111
la differenza di pressione. Questi due tipi di misuratori funzionano in
un range che va dai 10 ai 10−3 torr.
• Misuratori a ionizzazione: sono dispositivi utilizzati per misurare
il vuoto spinto (< 10−3 torr).
In tale regione, il flusso di gas è prevalentemente molecolare. Il misuratore funziona ionizzando le molecole del gas mediante urti con elettroni; gli ioni positivi risultanti vengono raccolti ad un elettrodo caricato
negativamente. Dalla variazione di corrente nell’elettrodo è possibile
determinare la variazione di pressione.
7.8
Pompe a vuoto
Esistono vari tipi di pompe a vuoto:
• Pompa rotatoria ad olio: La pompa più utilizzata per ottenere pressioni fino a qualche mtorr è questo tipo di pompa. Essa è formata da
un disco rotante incastonato in un cilindro; il gas entra nel cilindro
ed è forzato dal disco verso l’uscita della pompa mediante una valvola. L’olio è utilizzato come isolante, ed è solitamente formato da olio
idrocarbonico di alta qualità.
• Pompa molecolare: è una pompa formata da un cilindro rotante incastrato all’interno di un contenitore cilindrico più largo. Il pompaggio
avviene quando la velocità superficiale del cilindro rotante si avvicina
alla velocità delle molecole, in modo tale che le molecole che urtano il
cilindro acquistano una velocità molto elevata tangenzialmente al cilindro: delle scanalature nel cilindro permettono in tal modo di trascinarle
verso la valvola di sfogo della pompa.
• Pompa turbomolecolare: è la versione migliorata della pompa molecolare; esse operano in regimi di flusso molecolare, ed è formato in modo
analogo alle turbine degli aeroplani. Una serie di lame legate ad un rotore cilindrico girano a velocità estremamente elevata (100, 000 rpm).
Una molecola che urta le lame, leggermente incurvate verso il fondo
del contenitore, riceve una componente significativa di velocità tangenziale, in direzione del fondo, su cui è localizzata la valvola di sfogo.
Solitamente questo tipo di pompa viene messa in serie ad una pompa
rotatoria ad olio, per ottenere il massimo dell’efficienza.
112
• Crio-pompa: è una pompa che si basa sulla condensazione del gas
rispetto ad una superficie fredda. Queste pompe utilizzano un circuito
refrigerante a elio raffreddato a temperature al di sotto dei 20 K. Nel
primo stage della pompa, una superficie metallica è mantenuta a 50 K in
modo da intrappolare il valore acqueo, il biossido di carbonio e le principali componenti dell’aria in generale. Nel secondo stage della pompa,
si ha il circuito ad elio mantenuto a 20 K, ricoperto di un materiale
crioassorbente (come carbone attivo) utilizzato per pompare i restanti atomi di neon, idrogeno ed elio. Questi tipi di pompe professionali
riescono a raggiungere vuoti ultra elevati, di circa 10−12 torr.
113
Capitolo 8
Richiami di ottica
8.1
Onde piane
Si definisce onda piana la soluzione più semplice possibile dell’equazione
delle onde, avente fronti d’onda (cioè superfici a fase costante) a forma di
piano. Matematicamente, esse sono soluzioni espresse come:
E(r, t) = E0 cos (k · r − ωt + φ0 )
(8.1)
che si può scrivere in modo analogo anche invertendo i segni all’interno
dell’argomento del coseno:
E(r, t) = E0 cos (ωt − k · r + φ0 )
(8.2)
dove k è il vettore d’onda, che indica la direzione di propagazione e il cui
modulo è pari a:
2π
(8.3)
|k| =
λ
mentre:
2π
ω :=
= 2πν
(8.4)
T
è la frequenza angolare, laddove T è il periodo e ν è la frequenza
intrinseca associata all’onda. Le quantità E0 e φ0 rappresentano infine
rispettivamente l’ampiezza e la fase iniziale dell’onda. La quantità:
Φ := k · r − ωt + φ0
114
(8.5)
è detta fase globale dell’onda.
Ai fronti d’onda di un’onda sarà associata una velocità, detta velocità di
fase. Supponiamo di avere una fase Φ associata ad un’onda piana che si
muove lungo la direzione z. Calcoliamo lo spostamento infinitesimo dz associato ad un intervallo di tempo infinitesimo dt, differenziando membro a
membro Φ = cost:
d (Φ) = d (cost.) → k dz − ω dt = 0 →
ω
dz
=
dt
k
(8.6)
Si ha quindi l’espressione della velocità di fase, definita come vf := dz/dt:
ω
k
vf =
(8.7)
le onde piane non possono esistere nella realtà, in quanto l’integrale della
densità di energia elettromagnetica diverge se integrata su un intero fronte
d’onda. Esse possono però essere considerate approssimazioni locali di altri
tipi di soluzioni fisicamente valide, ad esempio delle onde sferiche. Inoltre le
onde piane possono essere considerate i “costitutenti” dei pacchetti d’onda,
cioè sovrapposizioni di infinite onde piane aventi frequenze diverse.
8.2
Indice di rifrazione
Assumendo che il mezzo sia isotropo, nel senso che la permittività dielettrica
relativa del mezzo εr non è funzione della posizione nel mezzo, e semplice,
nel senso che la relazione tra campi elettromagnetici E e B e campi ausiliari
D e H è di semplice proporzionalità, allora possiamo definire indice di
rifrazione di un mezzo la quantità:
n=
c
vf
(8.8)
in un mezzo, la velocità di fase sarà:
1
vf = √
εµ
dove ε := ε0 εr e µ := µ0 µr . quindi ricordando che c = (ε0 µ0 )−1/2 :
√ √
ε0 µ 0 εr µ r
√
√
n = εµc =
→ n = εr µ r
√ ε0 µ 0
115
(8.9)
(8.10)
Solitamente, µr ∼ 1, quindi:
n'
√
(8.11)
εr
in un mezzo, le relazioni tra kmezzo e k e λmezzo e λ sono date come proporzionalità rispettivamente diretta e inversa tramite l’indice di rifrazione:
kmezzo = nk, λmezzo =
1
λ
n
(8.12)
la relazione di dispersione, cioè la relazione che lega k a ω, nei mezzi
isotropi e semplici viene a sua volta modificata dall’indice di rifrazione:
ω mezzi
ω
k(ω) =
⇒ k(ω) = n
(8.13)
c
c
8.3
Velocità di gruppo e pacchetti d’onda
si definisce pacchetto d’onda una serie infinita di onde piane monocromatiche, su tutte le possibili frequenze e lunghezze d’onda dell’onda, ciascuna
pesata in base ad una certa funzione. Non analizzeremo nel dettaglio i pacchetti d’onda, ma ci limiteremo a mostrarne delle semplici proprietà sulla
base dell’interferenza tra solamente due onde piane monocromatiche aventi
frequenze leggermente diverse tra loro. Consideriamo due onde piane del
tipo:
E1 (x, t) = E0 cos [(ω + δω) t − (k + δk) x]
E2 (x, t) = E0 cos [(ω − δω) t − (k − δk) x]
(8.14)
(8.15)
facciamo propagare contemporaneamente queste due onde. Esse effettueranno interferenza tra loro, cioè si sommeranno per dare vita ad un’onda
risultante pari a:
Etot (x, t) = E1 + E2 = E0 cos [(ω + δω) t − (k + δk) x] +
+ E0 cos [(ω − δω) t − (k − δk) x]
usando le formule di prostaferesi, cos (A) + cos (B) = 2 cos
Segue quindi:
A−B
2
Etot (x, t) = 2E0 cos [δω t − δk x] cos (ωt − kx)
cos
A+B
2
.
(8.16)
che è un’onda armonica modulata in ampiezza da una sinusoide di frequenza δω e lunghezza d’onda 2π/δk. Il “pacchetto” sarà proprio l’inviluppo,
116
cos [δω t − δk x], che conterrà l’onda e la trasporterà con una certa velocità.
Il picco massimo dell’inviluppo si avrà per:
Φinviluppo = 2πm,
(8.17)
m∈Z
dunque, differenziando ambo i membri:
d (δω t − δk x) = d (2πm) → δω dt − δk dx = 0 →
dx
δω
=
dt
δk
(8.18)
definisco dunque velocità di gruppo questa velocità associata all’inviluppo
del pacchetto d’onda, quindi:
vg :=
dω
dk
(8.19)
Si noti che la velocità di fase e di gruppo non per forza coincidono. Questo
perché vf dipende solo da ω/k = c/n, mentre vg := dω/dk dipende da come
la propagazione cambia nel mezzo al variare della frequenza o della lunghezza
d’onda. Se dunque il mezzo ha un indice di rifrazione che varia al variare
della frequenza (come nei mezzi dispersivi), vg 6= vf .
Possiamo trovare un’espressione alternativa della velocità di gruppo nei mezzi
dispersivi, supponendo quindi che n = n(λv ), dove λv è la lunghezza d’onda
associata ad un’onda piana che si propaga nel vuoto, notando che:
ω = vf k =
2π
c
·
n(λv ) λv
(8.20)
uso la regola di derivazione delle funzioni composte su dω/dk:

dω
∂ω ∂λv 
=
= −
dk
∂λv ∂k
dn
2πc λv dλ
+n
v
λ2v n2

·
2π
− 2 =
k
dn
dn
4π2 c λv dλ
4π 2 c λv dλ
+n 1
+n
λ2v
v
v
=
=
·
=
λ2v n2
k2
4π2
λ2v n2
!
c
dn
= 2 λv
+n
n
dλv
117
dn
, supponendo che tale quantità sia diversa
moltiplico e divido per n − λv dλ
v
da zero. Segue:
c
n2
! 2
2
2 dn
dn
c n − λv dλv
λv
+n ·
= 2
dn
dλv
n n − λv dn
n − λv dλ
dλv
v
dn
n − λv dλ
v
n2
c
u
2
n n − λv
dn
dλv
=
u
trasc. term. 2° ord.
c
n − λv
dn
dλv
definisco indice di gruppo del mezzo la quantità:
dn(λv )
Ng := n(λv ) − λv
(8.21)
dλv
da cui:
c
vg =
(8.22)
Ng
si noti che vg si riduce a c/n = vf solo se dn/dλv = 0. In generale invece,
vg < vf .
8.4
Vettore di Poynting e intensità luminosa
Definisco vettore di Poynting la quantità.
S := E × H
=
mezzi semplici
E×B
µ
(8.23)
definisco intensità luminosa la quantità:
I := h|S|i
(8.24)
da cui si può dimostrare facilmente, nel caso di onde piane, che:
1
I = vε0 εr E02
(8.25)
2
ma v = c/n e εr = n2 , quindi:
1
I = cε0 nE02
(8.26)
2
supponiamo di avere un raggio laser rosso che ha un’intensità pari a I =
1 mW cm−2 . Quanto è l’intensità del campo elettrico risentita da un mezzo
avente indice di rifrazione n = 1.45? Dalla formula appena trovata, si ha:
s
E0 =
2I
=
cε0 n
s
2 (1 · 10−3 · 104 )
u 72 V m−1
3 · 108 · 8.85 · 10−12 · 1.45
118
(8.27)
8.5
Coefficienti di riflessione e trasmissione
Consideriamo un’interfaccia tra due mezzi, il primo avente indice di rifrazione
n1 ed il secondo avente indice di rifrazione n2 < n1 :
Figura 8.1: Raggio di luce passante tra due mezzi ad indice di rifrazione
costante e diverso l’uno dall’altro. Il mezzo superiore ha indice di rifrazione
n2 ed il mezzo inferiore ha indice di rifrazione n1 .
in riferimento alla figura, definisco coefficiente di riflessione la quantità:
q
n2 − sin2 θi
Er,⊥
q
r⊥ :=
=
Ei,⊥
cos (θi ) + n2 − sin2 θi
cos (θi ) −
(8.28)
dove n := n2 /n1 . Definisco invece coefficiente di trasmissione la quantità:
t⊥ :=
Et,⊥
2 cos (θi )
q
=
Ei,⊥
cos (θi ) + n2 − sin2 θi
119
(8.29)
i corrispondenti coefficienti per le componenti Ek del campo elettrico saranno:
q
n2 − sin2 θi − n2 cos θi
Er,k
rk :=
=q
Ei,k
n2 − sin2 θi + n2 cos θi
Et,k
2n cos θi
q
tk :=
=
Ei,k
n2 cos θi + n2 − sin2 θi
(8.30)
(8.31)
A incidenza normale, cioè per θi = 0, si ha:
n1 − n2
n1 + n2
2n1
t⊥ ≡ tk =
n1 + n2
r⊥ ≡ rk =
(8.32)
(8.33)
definiamo inoltre riflettanza le quantità:
|Er,⊥ |2
R⊥ :=
≡ |r⊥ |2
|Ei,⊥ |2
Rk :=
Er,k
Ei,k
2
2
≡ rk
2
(8.34)
(8.35)
nel caso di incidenza normale:
n1 − n2
R=
n1 + n2
2
L’andamento di |r⊥ | ed rk è mostrato in Figura 8.2:
120
(8.36)
Figura 8.2: Andamento dei coefficienti di riflessione per un’interfaccia ariavetro.
Si noti che, per qualsiasi angolo d’incidenza, in riflessione si ottiene prevalentemente un campo elettrico polarizzato in modo perpendicolare al piano
di incidenza. In particolare, per un angolo detto angolo di Brewster (pari
a circa θp = 35◦ ) la componente parallela alla direzione di propagazione si
annulla completamente. La condizione associata all’angolo di Brewsted è:
tan (θp ) :=
n2
n1
(8.37)
per angoli θ > θc (con θc = 44◦ ) detto angolo critico, si ha solo un’onda
evanescente nel secondo mezzo e riflessione totale nel primo mezzo.
I coefficienti di riflessione sono tuttavia quantità intrinsecamente complesse.
Per caratterizzare completamente il loro andamento, dobbiamo controllare
anche le fasi associate:
121
Figura 8.3: Fasi associate ai coefficienti di riflessione.
da cui si può notare che per riflessioni parziali con θi ∈ [θp , θc ] si ha uno
sfasamento della componente parallela all’interfaccia del campo elettrico pari
a −π, mentre per riflessione interna totale si ha un generico sfasamento
del campo elettrico ϕ. Ciò ritornerà utile successivamente nei calcoli sulle
condizioni di interferenze costruttive/distruttive.
8.6
Coating antiriflettenti
Consideriamo un raggio di luce, viaggiante in un mezzo con indice di rifrazione n1 , che incide su un mezzo formato da due strati: uno n2 di spessore
d ed uno più profondo n3 , che può ad esempio essere lo strato interno di un
dispositivo fotovoltaico:
122
tutte le riflessioni all’interno del mezzo n2 successive alla prima saranno trascurabili, e nell’immagine sono mostrate con linee tratteggiate.
Supponiamo preliminariamente che lo strato n2 non ci sia, e che quindi n1 = 1
sia l’indice di rifrazione dell’aria e n3 = 3.5 sia l’indice di rifrazione del Silicio
per un pacchetto d’onda incidente con λ ∈ [600, 800] nm, la riflettanza sarà:
n1 − n3
R=
n1 + n3
2
u 0.309 ≈ 30%
(8.38)
questo significa che il 30% della luce incidente è riflessa con la prima riflessione parziale, e ciò spiega come mai le riflessioni successive alla prima sono
trascurabili: le riflessioni successive alla prima porterano via il 30% di percentuali sempre inferiori associate al 30% del 70% di luce che viene rifratta
la prima volta, percentuali già trascurabili per quanto riguarda la seconda
riflessione parziale.
Se questa fosse la struttura di una cella fotovoltaica inoltre, questo risultato
mostrerebbe che il 30% della luce è riflessa via, e non è più disponibile per la
conversione in energia elettrica. Ciò che si fa è quindi interporre lo strato con
indice di rifrazione n2 , noto come coating antiriflettente, solitamente fatto
da un materiale dielettrico come nitrito di silicone idrogenato amorfo,
per ridurre l’intensità della luce riflessa.
Nell’esempio mostrato, n1 = 1, n2 = 1.9 ed n3 = 3.5. Analizziamo nel dettaglio gli sfasamenti prodotti sui raggi riflessi dal percorso della luce mostrato
in figura. La prima riflessione parziale indicata con A ha uno sfasamento pari
a π rad, in quanto ha subito riflessione parziale. L’onda che viene rifratta in
123
n2 viene poi riflessa nuovamente in modo parziale dallo strato n3 , e questa
riflessione è indicata con B. Questa onda è sfasata anch’essa di π rad, e il
fatto che deve percorrere uno spazio al ritorno pari a d dopo aver percorso
uno spazio all’andata pari a d la sfasa ulteriormente di una differenza di fase
pari a:
2π
(2d)
(8.39)
∆φ = kc · (2d) =
λc
dove λc = λ/n2 è la lunghezza d’onda della luce che si propaga nel mezzo n2 .
Per fare in modo che la luce riflessa sia ridotta al minimo, la prima condizione
da imporrre è che A e B devono interferire distruttivamente, il che significa
che la differenza di fase ∆φ deve essere pari ad un multiplo dispari di π:
∆φ = (2m + 1) π,
m∈N
(8.40)
risolvo per d:
4πn2
(2m + 1) π
2π
(2d) = (2m + 1) π →
λ→
d = (2m + 1) π → d =
λc
λ
4
πn2
λ
→ d = (2m + 1)
4n2
!
m∈N
,
(8.41)
quindi il coating antiriflettente deve avere uno spessore quantizzato, pari
ad un multiplo dispari della lunghezza d’onda divisa per 4 n2 . Una volta
soddisfatta tale condizione, si deve calcolare la riflettanza minima associata
al coating, che si può dimostrare essere pari a:
Rmin =
n22 − n1 n3
n22 + n1 n3
!2
(8.42)
Come seconda condizione quindi, si impone che Rmin = 0:
Rmin = 0 ⇒
n22 − n1 n3
n22+n1 n3
=
c.e.:n2 ∈C
0 → n22 = n1 n3
in tal modo, la seconda condizione per avere il coating antiriflettente è:
n2 =
√
n1 n3
124
(8.43)
8.7
Specchio dielettrico (o di Bragg)
Lo specchio di Bragg è una sovrapposizione di strati dielettrici di indice
di rifrazione n1 ed n2 alternati e poggiati tutti su un substrato di indice di
rifrazione n3 , come mostrato in Figura 8.4:
Figura 8.4: Schema strutturale di uno specchio di Bragg.
Ciascuno strato deve essere profondo λstrato /4, dove λstrato = λ/nstrato è la
lunghezza d’onda della luce che si propaga nello strato considerato. Si può
dimostrare che, sotto questa condizione, tutte le onde riflesse A, B, C e D
interferiscono costruttivamente, generando una riflessione quasi del 100% in
una data banda centrata attorno a λ0 , cioè la lunghezza d’onda della luce
considerata nel vuoto. Il vantaggio rispetto agli specchi metallici tradizionali
consiste nel fatto che gli specchi metallici, a causa dell’effetto pelle, generano
correnti superficiali che riscaldano la superficie se colpiti da laser ad alta
intensità. In questi casi quindi è necessario raffreddare lo specchio, come ad
esempio con una piastra di rame, mentre con gli specchi dielettrici ciò non
è necessario. Il numero di coppie di strati n1 ed n2 è legato alla massima
riflettanza dall’equazione:

RN = 
n2N
1 −
n2N
1
+
n0
n2N
2
n3
n0
n2N
2
n3
2

(8.44)
dove n0 è l’indice di rifrazione dello spazio esterno allo specchio di Bragg.
La larghezza ∆λ della banda in lunghezza d’onda nella quale la riflettanza è
125
praticamente del 100% è legata agli indici di rifrazione dall’equazione:
4
n1 − n2
∆λ ≈ λ0
arcsin
(8.45)
π
n1 + n2
Mediante i coating, giocando sulla riflettanza, è possibile realizzare un cosiddetto beam splitter, cioè una struttura vetrosa formata da 2 prismi retti
incollati tra loro mediante un coating multistrato:
Figura 8.5: Schema di un beam splitter.
tale coating viene realizzato in modo tale che la riflettanza e la trasmittanza siano entrambi del 50%, in modo tale da riuscire a dividere un raggio
incidente in due raggi dalla pari intensità. Questo è utile ad esempio negli
interferometri, per ottenere due raggi di luce identici da utilizzare per controllare differenze di fase su uno schermo dopo aver fatto fare alla luce due
percorsi diversi.
Giocando sempre con la riflettanza, è possibile inoltre generare filtri elettromagnetici che fungono da passa-alto, passa-basso e passa-banda per le onde
elettromagnetiche. Altri filtri, noti come filtri a densità media, discriminano invece per assorbimento sull’intero spettro in frequenza. Essi risultano
essere più o meno scuri a seconda della loro densità ottica, definita come:
1
D = log10
= − log10 (T )
(8.46)
T
126
dove T è la trasmittanza del filtro. Se T = 1, allora D = 0 e il filtro è
semplicemente un pezzo di vetro trasparente. Se invece ad esempio T = 10−5 ,
allora D = 5.
8.8
Reticolo di diffrazione
Si defiisce reticolo di diffrazione un dispositivo ottico avente una serie
periodica di fenditure in un muro opaco. Un raggio di luce monocromatico
incidente sul reticolo viene diffratto dalle fenditure, generando su uno schermo picchi molto intensi a causa dell’interferenza in direzioni predefinite e
quantizzate che dipendono dalla lunghezza d’onda λ incidente e dalle caratteristiche del reticolo. Un esempio di reticolo di diffrazione e del risultato
ottenuto su uno schermo è mostrato in Figura 8.6:
Figura 8.6: reticolo di diffrazione con N slitte di larghezza a e passo d.
ricordiamo che, se la diffrazione avviene alla Fraunhofer, l’interferenza sarà
costruttiva quando vale la condizione di diffrazione di Bragg (anche nota
come equazione del reticolo):
d sin (θ) = mλ,
m∈Z
(8.47)
dove θ è l’angolo di inclinazione rispetto alla perpendicolare allo schermo
e d è il passo del reticolo. Il picco più intenso si ha per m = 0. Se
127
tuttavia il raggio incidente non è perpendicolare al reticolo di diffrazione,
allora l’equazione del reticolo va modificata in:
d (sin θm − sin θi ) = mλ,
m∈Z
(8.48)
con θi angolo d’incidenza e θm angolo di uscita. Oltre ai reticoli di diffrazione
già visti, ne esistono altri due tipi: i reticoli a trasmissione e i reticoli a
riflessione. Il reticolo a trasmissione ha il raggio incidente e i raggi diffratti
dal lato opposto del reticolo, che solitamente è fatto di un materiale trasparente. Un reticolo a riflessione ha invece il raggio incidente e i raggi diffratti
dallo stesso lato del dispositivo, come visibile in Figura 8.7:
Figura 8.7: reticoli a trasmissione e riflessione, rispettivamente.
anche per questi reticoli va bene l’equazione (8.48). Nella pratica, si è soliti
utilizzare prevalentemente i reticoli a riflessione (come tutti i reticoli di diffrazione) per identificare le lunghezze d’onda che compongono un raggio di
luce incidente. Se si utilizza il reticolo a riflessione della Figura 8.7 tuttavia,
il raggio a intensità massima sarà quello per m = 0, in quanto il reticolo a
riflessione segue la legge della riflessione θi = θm . Poiché questo risultato sarà
vero per tutte le lunghezze d’onda, non si può effettuare nessuna spettroscopia e non è possibile discriminare due lunghezze d’onda diverse. Ciò che si fa
è “shiftare” l’intensità massima associata a m = 0 verso ordini superiori (ad
esempio all’ordine m = 1) mediante una procedura nota come blazing all’ordine n del reticolo a riflessione. Questa procedura consiste nel generare
delle scanalature a forma di piano inclinato con angolo γ, con lunghezza di
base di ciascun triangolo rettangolo pari a d, come mostrato in Figura 8.8:
128
Figura 8.8: un reticolo a riflessione blazed al prim’ordine.
In tal modo l’equazione (8.48) vale ancora, ma con angoli misurati rispetto
alla normale della base del reticolo, mentre il prim’ordine verrà riflesso con
legge di riflessione che considera la normale rispetto alla superficie del piano
inclinato con angolo d’inclinazione γ, noto come angolo di blazing. In
tal modo, si è riusciti a spostare la massima intensità sul prim’ordine di
diffrazione.
Per determinare l’angolo di blazing, se l’angolo d’incidenza non è normale
alla base del reticolo come mostrato nella Figura 8.8 ma è pari a θi , allora la
riflessione accade ad un angolo γ + θi rispetto alla normale della faccia del
piano inclinato, come mostrato in Figura 8.9:
Figura 8.9: incidenza di un raggio di luce su un reticolo blazed al prim’ordine
con angolo d’incidenza θi 6= 0.
129
la riflessione del prim’ordine accadrà dunque ad un angolo θm pari a:
θm = 2γ + θi
(8.49)
questo si vede facilmente dalla Figura 8.9.
Solitamente, l’angolo di blazing è scelto per massimizzare l’efficienza del reticolo per una determinata lunghezza d’onda. Se si ruota il reticolo blazed, è possibile portare il raggio riflesso nella stessa direzione del raggio
incidente. Questa configurazione è detta configurazione Littrow. Per la
configurazione Littrow, la legge (8.48) si riscriverà come:
2d sin γ = mλ
(8.50)
da cui si può capire a quale angolo blazare il reticolo per avere configurazione
littrow associata ad una certa lunghezza d’onda λ:
mλ
γλ = arcsin
2d
!
(8.51)
la configurazione Littrow è utilizzata per formare specchi nei cosiddetti laser
accordabili, in modo da riuscire a variare la lunghezza d’onda della luce
emessa utilizzando diversi angoli di inclinazione del reticolo.
130
Capitolo 9
Ottica guidata
9.1
Guida d’onda
La guida d’onda è un sistema dielettrico capace di trasmettere onde elettromagnetiche lungo una certa direzione. La guida d’onda più semplice da
modellizzare è una fetta di dielettrico avente indice di rifrazione n1 circondato
da due fette di dielettrico avente indice di rifrazione n2 < n1 :
Figura 9.1: Una guida d’onda planare dielettrica.
analizziamo le condizioni che consentono alla guida d’onda di funzionare correttamente. Consideriamo una sezione della guida d’onda dielettrica planare,
e supponiamo che il campo elettrico E associato ad un’onda piana incidente
sull’apertura laterale della guida d’onda sia diretto lungo l’asse x, mentre
l’asse z è diretto verso l’interno della guida d’onda:
131
Figura 9.2: Sezione di una guida d’onda con un raggio di luce incidente. Le
linee tratteggiate sono fronti d’onda a fase costante associati ai raggi diretti
verso l’asse y positivo.
Il raggio di luce sarà guidato in modo a zig zag lungo l’asse z da riflessioni
successive all’interfaccia tra i due mezzi.
Si noti che, per avere la propagazione dell’onda, i raggi che partono da A
e da C devono interferire costruttivamente, altrimenti essi si distruggeranno
a vicenda per interferenza distruttiva e l’onda smetterà di propagarsi. Analizziamo quindi le condizioni di interferenza costruttiva. Supponendo che k1
sia inclinato di un angolo θ rispetto alla direzione y, per avere interferenza
costruttiva la differenza di fase ∆φAC deve essere un multiplo di 2π:
∆φAC = m (2π) ,
m∈N
(9.1)
notando che la differenza di fase tra i punti A e C corrisponde all’aver percorso un cammino geometrico AB + BC, tolte due variazioni φ dovute alle
riflessioni interne in B e in C, questa condizione si riscrive come:
k1 AB + BC − 2φ = m (2π)
(9.2)
usiamo la trigonometria per determinare AB + BC. Se d è la larghezza dello
strato n1 , si ha:
AB = BC cos (2θ)
d
d
cos θ =
→ BC =
cos θ
BC
132
(9.3)
(9.4)
questo significa che:
d
[cos (2θ) + 1]
cos θ
i
d
d h
2d cos2 θ
d
+
⇒
=
2 cos2 θ − 1 + 1 =
−
cos θ
cos θ cos θ cos θ
⇒ AB + BC = 2d cos θ
AB + BC = BC cos (2θ) + BC = BC [cos (2θ) + 1] =
quindi la condizione (9.2) si riscrive come:
k1 2d cos θ − 2φ = 2mπ,
m∈N
(9.5)
si ha dunque una quantizzazione dei θm possibili per l’interferenza costruttiva
di un’onda che si propaga in una guida d’onda, a cui sarà associato uno
sfasamento per riflessione interna φm . Ricordando che k1 = (2π/λ) n1 , e
considerando a := d/2, possiamo riscrivere la condizione di interferenza
costruttiva come:
4π
n1 (2 a) cos θm − 2 φm = 2 mπ →
λ
4πn1 a
cos θm − φm = mπ
λ
(9.6)
dove φm sarà funzione di θm e dello stato di polarizzazione dell’onda elettromagnetica incidente.
Possiamo scomporre il vettore d’onda k1 in due costanti di propagazione
β e κ, rispettivamente lungo l’asse z e lungo l’asse y. Poiché θ soddisfa la
quantizzazione data dalla condizione (9.6), anche β e κ saranno a loro volta
quantizzati se si vuole avere interferenza costruttiva, in quanto:
βm = k1 sin (θm )
κm = k1 cos (θm )
(9.7)
(9.8)
Nel caso in cui si hanno onde incidenti con k1 diretto verso la direzione
negativa dell’asse y, il ragionamento è perfettamente analogo, con −κ invece
che +κ. Consideriamo ora il caso mostrato in Figura 9.3, con due onde che
incidono nella guida d’onda: una diretta “verso il basso” e una diretta “verso
l’alto”:
133
Figura 9.3: Onde incidenti nella guida d’onda verso l’alto e verso il basso
interferiscono per generare un’onda stazionaria nella guida d’onda rispetto
all’asse y.
in questo caso, avremo due onde identiche che viaggiano parzialmente in direzioni opposte e che effettuano interferenza tra loro, la qual cosa genera onde
stazionarie rispetto all’asse in cui avviene la propagazione opposta. Poiché
le componenti βm sono dirette lungo la stessa direzione per entrambi i vettori d’onda e le componenti opposte sono quelle ±κm , l’onda stazionaria si
genererà rispetto all’asse y. Possiamo calcolare il profilo di campo elettrico
risultante considerando la sovrapposizione dei campi elettrici associati ai due
raggi in un generico punto P ad altezza y rispetto al centro della guida. Si
può dimostrare che il campo elettrico risultante ammesso nel caso di propagazione nella guida d’onda di due onde piane viaggianti lungo direzioni
opposte rispetto all’asse y e comunemente verso l’asse z si scrive come:
dove:
E(y, z, t) = Em (y) cos (ωt − βm z + δ)
(9.9)
Em (y) = 2E0 cos (κm y + δ)
(9.10)
questo significa che i possibili risultati per il campo elettrico, detti modi di
propagazione, sono quantizzati rispetto ad un numero m, detto numero
di modo, e in generale il campo può essere scomposto come un’onda piana
viaggiante lungo la direzione z con vettore d’onda βm modulata in ampiezza
da una funzione Em (y) pari a quella che descrive onde stazionarie presenti
134
in una cavità con condizioni al bordo di Dirichlet 1 . Alcuni possibili modi di
propagazione sono mostrati in Figura 9.4:
Figura 9.4: Modulazione in ampiezza del campo elettrico viaggiante in una
guida d’onda rispetto all’asse y, per i modi m = 0, 1, 2.
9.2
Guide d’onda monomodali e multimodali
Seppur la condizione (9.6) specifica i possibili θm permessi, tale angolo deve
soddisfare anche la condizione di riflessione interna totale, cioè:
θm > θc ⇒ sin (θm ) ≥ sin (θc )
(9.11)
a partire da questa condizione, si può dimostrare che si ha un valore massimo
possibile per m, in quanto deve sussistere la disuguaglianza:
m≤
la quantità:
2V − φm
π
(9.12)
2πa q 2
n1 − n22
(9.13)
λ
è detta V-number della guida d’onda, ed è un parametro caratteristico della
guida ad una data lunghezza d’onda.
Si vuol sapere adesso se esiste un valore di V che rende la guida monomodale, nel senso che l’unico numero di modo ammesso sia m = 0. Supponiamo
V :=
1
cfr. particella quantistica nella scatola a bordi infiniti in M.Q.
135
che la propagazione sia dovuta ad un’onda che incide con θm ∼ 90◦ , e supponiamo che all’inizio della propagazione si abbia solo m = 0. Questo significa
che φ ∼ π, e dal vincolo (9.12) si ottiene come estremo superiore2 :
0=
2V
π
2V − π
→
=1→ V =
π
π
2
(9.14)
questo significa che se V ≤ π/2, allora l’unica possibilità è che si propaghi
solamente il modo fondamentale m = 0. Tale struttura si chiama guida
d’onda planare monomodale. La lunghezza d’onda λc tale che mediante
la (9.13) si abbia V = π/2 è detta lunghezza d’onda di cutoff. Per ogni
lunghezza d’onda λ > λc , si avrà una guida d’onda monomodale, invece di
una multimodale in cui si propagano modi m > 0 oltre a quello fondamentale.
9.3
Modi TE e TM
Finora, abbiamo considerato la situazione in cui il campo elettrico E è diretto
lungo l’asse x, mentre il campo magnetico giace sul piano yz. Questo tipo
di onde si dicono onde TE. Il caso contrario, in cui è il campo magnetico
B ad essere diretto lungo l’asse x, è quello delle onde TM. A ciascuna di
queste possibilità saranno associati diversi modi per il campo elettrico, detti
rispettivamente modi TEm e modi TMm .
È interessante notare che, nel caso di onde TE e TM, si può avere rispettivamente una componente del campo magnetico/campo elettrico che è diretto
lungo la direzione del vettore d’onda, come mostrato in Figura 9.5:
2
N.d.R. Tuttavia, usando la disuguaglianza invece dell’uguaglianza, mi trovo:
0≤
2V − π
2V
π
→0≤
− 1 → π ≤ 2V → V ≥
π
π
2
dunque non capisco come mai il risultato è V ≤ π/2.
136
Figura 9.5: Onde TE e onde TM. Si noti che Bk e Ek hanno una componente
Bz ed Ez non nulla, cosa impossibile nello spazio libero.
questo fenomeno è caratteristico delle onde vincolate a percorrere una guida
d’onda, e non può accadere nello spazio vuoto.
9.4
Relazione di dispersione per una guida
d’onda
Abbiamo visto che la velocità di gruppo di un’onda elettromagnetica è data
da dω/dk. In questo caso, ciò che ci interessa è la velocità di gruppo lungo
l’asse z, dunque siamo interessati a dω/dβ. Per ciascun modo m, si avrà un
certo θm determinato dalla condizione (9.6), condizione che tuttavia dipende
dalla lunghezza d’onda considerata, e quindi dalla frequenza ω. Questo significa che θm = θm (ω), e quindi anche βm = k1 sin (θm ) sarà una funzione
βm (ω). Ha quindi senso chiedersi quale sia la sua funzione inversa, detta
relazione di dispersione ω(βm ) per ciascun modo m. Un grafico di questa
relazione è mostrato in Figura 9.6:
137
Figura 9.6: Relazione di dispersione ω(βm ) per vari modi TEm . La velocità
di gruppo dell’onda lungo l’asse z sarà dato dal coefficiente angolare della
retta tangente a queste curve.
Le curve mostrate portano a due conseguenze immediate.
9.4.1
Dispersione intermodale
Se ci si trova in una guida d’onda multimodale, il modo m = 0 si vede dalla
Figura 9.6 avere la più bassa velocità di gruppo, mentre il modo più elevato
ha la maggior velocità di gruppo. Il motivo di ciò è dato dal fatto che, per
modi elevati, la maggior parte del campo si muove all’interno del mezzo con
n2 , che è un indice di rifrazione più basso. Questo significa che i diversi modi
coesistenti nella guida d’onda impiegheranno tempi differenti per viaggiare
lungo un certo tratto della guida. Questo fenomeno è noto come dispersione
intermodale.
Una diretta conseguenza è che, se si invia un impulso di luce nella guida
d’onda, questo impulso sarà composto da un numero infinitamente grande di
onde piane associate a infinite frequenze (per le proprietà della trasformata di
Fourier). Poiché ciascuna di queste componenti viaggerà a velocità di gruppo
differenti, il segnale finale risulterà allargato.
Il motivo per cui si cerca una guida d’onda monomodale è dunque per impedire
che avvenga il fenomeno della dispersione intermodale.
138
9.4.2
Dispersione intramodale
Oltre che al variare del modo considerato, la velocità di gruppo varia anche
considerando un singolo modo, in quanto la pendenza della curva associata
solo a TE0 varia al variare di ω. Poiché tutte le onde creabili in natura
non sono onde piane perfettamente monocromatiche ma pacchetti d’onda
formati da più onde piane monocromatiche, anche nel caso di una guida
d’onda monomodale si avrà un fenomeno di dispersione dovuto alle differenti
velocità di gruppo associati alle differenti componenti della sorgente, noto
come dispersione intramodale. La maggior parte dell’energia trasportata
dal segnale luminoso sarà allora in ogni caso dissipata dal rivestimento, nel
quale tendono a viaggiare le componenti a più bassa frequenza (che penetrano
maggiormente nel mezzo). Questo tipo di dispersione non è risolvibile, in
quanto è una caratteristica intrinseca alla natura del segnale e dei materiali
formanti la guida d’onda.
9.5
Fibra ottica con indice a gradino
La fibra ottica con indice a gradino è una guida d’onda dielettrica cilindrica il cui nucleo ha un indice di rifrazione n1 maggiore dell’indice di
rifrazione n2 del dielettrico più esterno, noto come rivestimento:
Figura 9.7: Una fibra ottica con indice a gradino.
Solitamente, il rivestimento è ricoperto di un polimero di protezione. Tutti i
ragionamenti per la guida d’onda planare sono simili al caso della fibra, con
la differenza che in questo caso la simmetria cilindrica genererà interferenze
139
rispetto a due dimensioni invece che una sola, e quindi le condizioni di interferenza costruttiva saranno due, descritte da due numeri di modo diversi m
ed l. Nel caso di fibre debolmente guidanti, cioè quelle fibre ottiche che
rispettano la condizione:
n1 − n2
1
(9.15)
n1
i campi elettromagnetici generati dalle onde che percorrono la fibra sono ortogonali tra loro e alla direzione di propagazione, ma non hanno un’ ampiezza
costante per un certo fronte d’onda. Questo tipo di onde sono dette linearmente polarizzate (LP), e possono essere rappresentate con la seguente
espressione:
ELP = El,m (r, φ) e(ωt−βl,m z)i
(9.16)
dove El,m è la distribuzione del campo elettrico assunta su un piano ortogonale all’asse z che è propagato lungo la fibra con vettore d’onda lungo z
pari a βl,m mediante un’onda piana. Un’immagine di E0,1 (anche detto modo fondamentale) e dell’intensità dei modi di propagazione LP0,1 , LP1,1 ed
LP2,1 su un certo piano perpendicolare all’asse della fibra ottica è mostrata
in Figura 9.8:
Figura 9.8: (a) Distribuzione del campo elettrico su un fronte d’onda nella
fibra ottica per il modo fondamentale.
(b) Distribuzione dell’intensità del campo elettrico su un fronte d’onda per
il modo LP0,1 .
(c) Distribuzione dell’intensità per il modo LP1,1 (si notino le due diverse
possibilità).
(d) Distribuzione dell’intensità per il modo LP2,1 .
140
l’indice l è solitamente noto come numero di modo radiale, e descrive
quanto è il contributo della propagazione “fuori asse” dell’onda elettromagnetica (cioè, nella visione “a raggio di luce” del fenomeno, quanti raggi di
luce si propagano in modo elicoidale attorno all’asse z senza intersecarlo) per
un certo modo di propagazione.
Anche per una fibra ottica con indice a gradino è possibile definire un Vnumber, che sarà pari a:
V =
2πa q 2
n1 − n22
λ
(9.17)
dove a è il raggio del nucleo della fibra ottica e λ è la lunghezza d’onda
dell’onda viaggiante nella fibra. Quando il V-number è inferiore a 2.405 la
fibra diventa monomodale, con solo il modo fondamentale ammissibile nella
fibra ottica. Questo tipo di fibre sono dette fibre ottiche monomodali.
9.5.1
Fibra ottica a indice graduato
Oltre alla fibra ottica con indice a gradino, esiste anche la fibra ottica con
indice graduato, nella quale l’indice di rifrazione viene variato con continuità
rispetto alla distanza dall’asse di simmetria del cilindro. In questo modo,
la propagazione dei raggi ottici all’interno della fibra non sarà più quella a
zig-zag dovuta alle riflessioni totali tra n1 ed n2 , ma sarà un moto similsinusoidale attorno a z:
Figura 9.9: Mezzo a indice di rifrazione graduato in cui la traiettoria del
raggio di luce è continuamente piegata.
il vantaggio della fibra ottica a indice graduato è quello di avere una maggiore apertura numerica (vedi Sezione 9.6), la qual cosa permette non solo
un maggior accoppiamento con la luce incidente, ma anche la possibilità di
veicolare più potenza tramite il segnale luminoso. Tale tipo di fibra riesce
141
anche a ridurre al minimo la dispersione intermodale, in quanto la velocità
dei raggi luminosi non è costante (c/n con n variabile lungo il percorso del
raggio), e aumenta quanto più il raggio si allontana dal centro della fibra.
Questo significa che i raggi aventi un percorso più lungo viaggiano a velocità
maggiore, la qual cosa permette a tutti i raggi di arrivare in un dato punto
dell’asse z praticamente allo stesso tempo se la scelta dell’indice di rifrazione
graduato è fatta in modo accurato.
9.6
Apertura numerica di una fibra ottica
Supponiamo di inviare dei raggi di luce da un mezzo a indice di rifrazione n0
verso l’ingresso di una fibra ottica il cui nucleo ha indice di rifrazione n1 , a
diversi angoli α d’incidenza, come in Figura 9.10:
Figura 9.10: Figura che mostra il percorso di due diversi raggi di luce, inviati rispettivamente ad un angolo d’incidenza minore del massimo angolo
d’accettazione e ad un angolo superiore allo stesso.
Non tutti questi raggi potranno essere trasportati all’interno della fibra ottica. In particolare, solamente i raggi che rientrano nel volume di un cono
con vertice posto sul punto dell’asse z che giace all’ingresso della fibra ottica
potranno subire riflessione totale all’interfaccia tra n1 ed n2 . Gli altri raggi
avranno un angolo θ rispetto alla verticale dell’interfaccia più piccolo dell’angolo di Brewsted, e dunque subiranno rifrazione attraverso il rivestimento.
142
Il massimo angolo d’incidenza αmax che permette al raggio di propagarsi all’interno della fibra ottica sarà quello per il quale si ha esattamente θ ≡ θc .
Dalla legge di Snell applicata all’interfaccia tra l’esterno ed il nucleo della
fibra ottica, si ha:
n1
sin (α)
n1
sin (i)
=
=
⇒
π
sin (r)
n0
n0
sin 2 − θ
(9.18)
Impongo la condizione di angolo d’incidenza massimo:
sin (αmax )
sin
π
2
− θc
=
n1
n0
(9.19)
ma:
sin (θc ) =
n2
⇒ cos(θc ) =
n1
q
1 − sin2 (θc ) =
v
u
u
t1 −
n22
n21
(9.20)
quindi:
sin (αmax )
sin
π
π
cos
(θ
)
sin (θc )
−
cos
c
2
2
=
n1
n1
sin (αmax )
=
→
→
n0
cos (θc )
n0
cos(π/2)=0
→ sin (αmax ) =
v
u
n1 u
t1 −
n0
n22
n21
1
→ sin (αmax ) =
n0
v
u
u 2 n21 − n22
tn
1 n2
1
q
=
n21 − n22
n0
in definitiva, definendo apertura numerica di una fibra ottica la quantità:
NA :=
q
n21 − n22
(9.21)
il massimo angolo d’accettazione sarà dato da:
αmax
NA
= arcsin
n0
!
(9.22)
l’apertura angolare del cono d’accettazione sarà 2αmax . Questa quantità è
detta angolo totale di accettazione e dipende dall’indice di rifrazione n0
dell’ambiente esterno alla fibra ottica e dall’apertura numerica NA, che è
143
una funzione del materiale della fibra ottica3 . Poiché NA compare anche
all’interno della definizione del V-number, possiamo collegare NA con V :
V =
9.7
2πa
NA
λ
(9.23)
Attenuazione del segnale in una fibra ottica
In generale, quando un raggio di luce si propaga in un mezzo, esso si attenua
nella direzione di propagazione a causa di un certo numero di processi diversi che dipendono dalla lunghezza d’onda della luce incidente. Supponiamo
di avere un pezzo di fibra ottica di lunghezza L che all’ingresso riceve una
potenza Pin e all’uscita ne emette una certa frazione Pout < Pin . Per un qualsiasi punto z lungo l’asse di simmetria della fibra, si definisce coefficiente
di attenuazione la quantità:
α=−
1 dP
P dz
(9.24)
integriamo quindi per ottenere una versione di α dipendente dal ∆P :
ˆ L
ˆ Pout
dP
Pout
dP
→α
dz = −
→ αL = − log
α dz = −
→
P
P
Pin
Pin
0
Pin
1
→ α = log
(9.25)
L
Pout
Integrando invece da 0 ad una generica coordinata z e da Pin ad una generica
perdita di potenza P < Pin , vediamo che:
P = Pin e−αz
(9.26)
dunque α indica proprio quanto velocemente decresce la potenza trasmessa
all’interno della fibra ottica.
3
Si noti che questo ragionamento vale rigorosamente solo per i cosiddetti raggi meridionali, cioè quelli che passano esattamente per l’asse di simmetria della fibra ottica.
I raggi storti, cioè quelli che non passano per l’asse di simmetria, hanno un angolo di
accettazione massimo più ampio.
144
Seppur α viene misurato in m−1 , il coefficiente di attenuazione viene per
comodità espresso solitamente in dB km−1 , mediante la relazione:
α=
Pin
10
log10
L
Pout
(9.27)
Vediamo ora alcune tipologie di attenuazione che contribuiscono al valore del
coefficiente di attenuazione in una fibra ottica.
9.7.1
Attenuazione intrinseca
Il primo fenomeno di attenuazione possibile è intrinseco al materiale, ed è
causato generalmente da due fenomeni: lo scattering Rayleigh a lunghezze
d’onda più basse e l’assorbimento da parte delle molecole del cristallo a lunghezze d’onda più elevate. Nel caso dell’assorbimento da parte del cristallo,
ciò che accade è che l’energia elettromagnetica viene convertita in vibrazioni
del reticolo crisallino dovute all’elasticità dei legami tra silicio e ossigeno, o
tra germanio e ossigeno a lunghezze d’onda elevate (> 1.6 µm), mentre l’onda subisce scattering Rayleigh a causa delle variazioni locali dell’indice di
rifrazione per colpa delle impurità del cristallo a lunghezze d’onda più basse
(< 1.1 µm). A lunghezze d’onda ancora più basse (∼ 500 nm) si ha inoltre
un picco di assorbimento dovuto all’assorbimento di fotoni da parte degli
elettroni nella banda di valenza del cristallo, che vengono eccitati a livelli
energetici superiori. A parte quest’ultimo picco, l’andamento di α con λ è
mostrato in Figura 9.11:
145
Figura 9.11: Andamento di α in funzione di λ, per una regione che va tra i
0.6 e i 2.0 µm. Il picco di assorbimento per λ ∼ 500 nm non è mostrato.
dalla figura, si notano due picchi di assorbimento per 1.38 µm e 1.24 µm.
Questi sono dovuti a causa della presenza di ioni OH− nella struttura del
vetro, che subiscono risonanza vibrazionale a queste lunghezze d’onda. In
particolare, la seconda armonica ha una lunghezza d’onda caratteristica pari
a 1.38 µm che generano il picco più alto, mentre la combinazione di questa
con la terza armonica a 0.94 µm (che nelle fibre ottiche buone è trascurabile)
generano il picco leggermente più basso a 1.24 µm. Per eliminare questi picchi
sarebbe necessario rimuovere le tracce di molecole OH− , che compaiono sia
a causa del fatto che nel processo di produzione delle fibre ottiche si utilizza
l’acqua, sia a causa del fatto che gli atomi d’idrogeno possono diffondere
nella struttura vetrosa ad alte temperature durante la produzione, il che
forma legami tra H e Si lasciando un ossidrile OH− libero nella fibra ottica.
La rimozione di questi elementi è possibile, ma la loro rimozione completa
risulta essere molto difficile.
9.7.2
Perdite per piegatura
Ai fattori intrinseci si aggiungono fattori estrinseci che attenuano il segnale. Il
più tipico è il cosiddetto bending loss, cioè quei tipi di perdite che accadono
quando la fibra ottica viene piegata eccessivamente:
146
Figura 9.12: Forti piegature della fibra ottica variano la geometria locale,
generando perdite per piegatura.
Quando una fibra ottica viene piegata, la geometria della guida d’onda e
il profilo dell’indice di rifrazione variano localmente attorno alla piegatura.
Quando un raggio di luce giunge in un luogo di bending, all’improvviso si ritrova ad un angolo d’incidenza θ0 più stretto del normale angolo di riflessione
interna θ > θc la qual cosa può generare un’onda rifratta all’interno del rivestimento, che porta via energia all’onda che si propaga nella fibra. Se inoltre
la fibra è piegata ad un punto tale che θ0 < θc , allora la riflessione interna
totale non avviene e si ha una sostanziale quantità di energia che penetra
all’interno del rivestimento, che viene poi dissipata a causa del passaggio nel
rivestimento polimerico esterno. Poiché i modi superiori a quello fondamentale sono quelli che tipicamente viaggiano più vicini al rivestimento, le fibre
multimodali sono quelle che vengono più afflitte da perdite per bending.
9.8
Fabbricazione della fibra ottica
Solitamente la fibra ottica viene fabbricata mediante la tecnica OVD (Outside Vapor Deposition). Il primo passo è quello di preparare una preforma,
che è un’asta di vetro che ha il giusto indice di rifrazione (o profilo di indice
di rifrazione, nel caso di una fibra a indice graduato) e il minimo quantitativo di impurità possibile. Per fare ciò, si utilizza un’asta di ceramica come
147
struttura portante, che viene costantemente ruotato. Il materiale vetroso richiesto per creare la fibra ottica viene fatto crescere sulla superficie dell’asta
depositando mano a mano le particelle di vetro sull’asta rotante. La deposizione avviene bruciando vari gas mediante una torcia a metano, e il vetro si
forma direttamente sull’asta come prodotti di reazione, così come mostrato
nella seguente figura:
Figura 9.13: Formazione della preforma.
La fibra ottica è estratta da questa preforma utilizzando il seguente strumento:
148
Figura 9.14: Schema per uno strumento di estrazione per la fibra ottica.
la preforma viene spinta verso una fornace, nella quale il vetro inizia a diventare filiforme. Si estrae quindi la punta di questo filo, il cui diametro viene
controllato, lo si riveste con il polimero di copertura e lo si avvolge su un
rullo di cattura, che raccoglie il prodotto finale.
149
Capitolo 10
Fotorivelatori
10.1
Principi di funzionamento di base dei
fotodiodi
si definisce fotorivelatore uno strumento che converte la radiazione incidente in un segnale elettrico (tensione o corrente). Il processo mediante
cui avviene tale conversione è solitamente quello della creazione di coppie
elettrone-lacuna ad opera di un fotone incidente nel mezzo, che eccita un
elettrone del materiale formante il fotodiodo (solitamente silicio o germanio)
dalla banda di valenza alla banda di conduzione. I fotorivelatori più utilizzati
nelle applicazioni di elettronica sono quelli formati a partire da un diodo a
giunzione pn, con opportune modifiche per aumentare le prestazioni nell’uso come fotorivelatore invece che come elemento circuitale.
La struttura tipica di un diodo a giunzione pn è schematizzata in modo
semplificato in Figura 10.1:
150
Figura 10.1: (a) Diagramma schematico di un diodo a giunzione pn polarizzato inversamente.
(b) Andamento della densità di carica all’interno della giunzione pn.
(c) Andamento del campo elettrico all’interno della giunzione pn.
solitamente, si droga in modo molto forte la zona p (che viene indicata con
p+ ), in modo che dalla conservazione della carica totale e considerando che
il materiale è neutro si abbia:
Na
Wn
− e− Na Wp + e− Nd Wn = 0 ⇒
=
(10.1)
Nd
Wp
151
se dunque Na è molto alto, Wp → 0 e la zona di svuotamento del diodo
risulta essere fortemente allargata all’interno della zona n. Il lato che dovrà
essere esposto ai fotoni è solitamente dotato anche di un’apertura, circondata da un elettrodo anulare, in modo da permettere ai fotoni di entrare nel
dispositivo. Si ricopre inoltre il fotorivelatore di un coating antiriflettente,
in modo da ridurre le riflessioni della luce e garantire l’assorbimento dei fotoni da parte del mezzo. Il fotodiodo generalmente opera in polarizzazione
inversa. La tensione inversa Vr alza la barriera di potenziale a Vo + Vr , dove
Vo è la barriera di potenziale intrinseca presente nel diodo che si instaura
per contrastare la diffusione dei portatori maggioritari all’interno del diodo,
la qual cosa rende più intenso il campo elettrico che si instaura all’interno
della zona di svuotamento del diodo e abbatte la corrente diretta del diodo,
lasciando solo quella di diffusione inversa che solitamente è molto bassa.
Quando un fotone con un’energia Eγ = hν più elevata del salto energetico
Eg necessario per promuovere un elettrone alla banda di conduzione incide
sul fotodiodo, esso viene assorbito per generare una coppia elettrone-lacuna,
solitamente nella zona di svuotamento. Il campo elettrico E(x) che si instaura all’interno della zona di svuotamento quindi farà driftare la coppia
elettrone-lacuna in direzioni opposte, finché non raggiungono le zone neutre
esterne alla zona di svuotamento. Questi portatori di carica così generati
indurranno una corrente, chiamata fotocorrente (indicata con Iph ), nel circuito esterno collegato alla giunzione, che fornisce il segnale elettrico cercato.
Tale fotocorrente dura il tempo necessario alla coppia per raggiungere le zone
esterne alla zona di svuotamento, dove poi si ricombineranno con i portatori
indotti nel circuito esterno dallo sbilanciamento di carica nel diodo causato
dalla creazione di coppie elettrone-lacuna.
10.2
Efficienza quantica e responsività
Essendo l’interazione radiazione-materia un processo intrinsecamente stocastico, non tutti i fotoni che incidono nel fotodiodo verranno assorbiti dal mezzo per creare le coppie elettrone-lacuna che generano la fotocorrente. L’efficienza intrinseca del mezzo nel convertire fotoni incidenti in coppie elettronelacuna è quantificata dalla cosiddetta efficienza quantica esterna del
rivelatore, definita come:
ηe :=
Ne− ,raccolti
Nγ,incidenti
152
(10.2)
il numero di elettroni raccolti è legato alla fotocorrente dalla relazione1 :
Iph '
|Qtot |
Ne− |e− |
=
t
t
(10.3)
nell’unità di tempo (1 s) quindi, si avrà la relazione:
Iph = Ne− ,raccolti e− → Ne− ,raccolti =
Iph
|e− |
(10.4)
analogamente, se P0 è la potenza ottica del fascio di fotoni incidente, il
numero di fotoni incidenti è legato alla potenza ottica dalla relazione:
Nγ,incidenti · Eγ
Etot,fascio
=
t
t
dunque, per t = 1 s si ha la relazione:
P0 '
Nγ,incidenti =
P0
P0
=
Eγ
hν
(10.5)
(10.6)
da cui si può legare l’efficienza quantica esterna alle caratteristiche misurabili
del fotodiodo:
Iph hν
ηe =
(10.7)
P0 |e− |
si noti che, anche i fotoni vengono assorbiti e riescono a generare coppie
elettrone-lacuna, non tutte riescono a essere raccolte dagli elettrodi. Alcune
coppie scompaiono prima per ricombinazione senza riuscire a generare una
fotocorrente, o vengono intrappolate dalle impurità/discontinuità del mezzo.
L’efficienza quantica sarà quindi sempre minore di 1, e dipenderà dal coefficiente di assorbimento del fotodiodo.
Definiamo inoltre responsività del fotodiodo la quantità:
R=
Iph
P0
(10.8)
essa caratterizza le performance del fotodiodo in termini di fotocorrente e
potenza ottica del fascio incidente. Dalla definizione di efficienza quantica,
si ha:
hν
|e− |
|e− | λ
ηe = R − → R = ηe
= ηe
(10.9)
|e |
hν
hcSi
1
Si noti che non si deve tenere conto della carica delle lacune, in quanto non sono
veramente cariche elettriche, quanto “mancanza” di carica elettrica di cui tiene già conto
l’elettrone della coppia.
153
dove cSi è la velocità della luce nel mezzo semiconduttore (solitamente silicio).
La responsività dunque dipende dalla lunghezza d’onda del fotone incidente.
Un grafico di R in funzione di λ è mostrato in Figura 10.2:
Figura 10.2: Responsività di un fotodiodo in funzione della lunghezza d’onda.
per un fotodiodo perfetto avente efficienza quantica ηe = 1, R(λ) ha un andamento rettilineo fino a λg , oltre il quale l’energia del fotone non è sufficiente a
promuovere l’elettrone nella banda di conduzione. Nella pratica, l’efficienza
quantica limita la responsività a rimanere al di sotto dell’andamento lineare.
Il punto X mostrato in figura, punto in cui la curva R(λ) reale è tangente
ad una retta passante per l’origine del grafico, si può dimostrare essere proprio il punto per il quale il fotodiodo lavora ad efficienza quantica massima.
L’andamento di R(λ) reale dipende da molti fattori, i più importanti dei
quale sono la struttura del dispositivo, il coefficiente di assorbimento α del
semiconduttore e l’efficienza quantica del fotodiodo.
Per migliorare ulteriormente le prestazioni dei fotodiodi, sono state create
varie sottotipologie specializzate. Ne vedremo adesso alcuni tipi.
154
10.3
Fotodiodo PIN
Il fotodiodo pn normale ha due problemi principali: il primo è che la capacità
equivalente della zona di svuotamento2 di un fotodiodo pn non è sufficientemente piccola da permettere fotorivelazioni ad alte frequenze di rivelazione;
il secondo è che la zona di svuotamento è larga circa 1 µm. Questo significa
che per fotoni ad alta lunghezza d’onda, per i quali la profondità di penetrazione è maggiore della larghezza della zona di svuotamento, l’assorbimento
avviene al di fuori della zona di svuotamento, la qual cosa abbassa drasticamente l’efficienza quantica del dispositivo a queste lunghezze d’onda.
Questi problemi sono ridotti dal fotodiodo a giunzione pin. La struttura
di un fotodiodo pin è schematizzata in Figura 10.3:
2
Si ricordi che la zona di svuotamento si comporta come un condensatore dalle facce
piane e parallele, con capacità associata pari a:
C=ε
S
w
(10.10)
con S sezione di taglio del diodo e w larghezza della zona di svuotamento. Tipicamente,
C ≈ 10 pF nei diodi a giunzione pn. Capacità di questo tipo generano tempi di risposta
del dispositivo pari a circa 100 ns.
155
Figura 10.3: (a) Struttura di un fotodiodo pin. (b) Densità di carica di
un fotodiodo pin. (c) Campo elettrico all’interno di un fotodiodo pin. (d)
Fotodiodo pin in modalità di fotorivelazione (polarizzazione inversa).
La differenza principale risiede in uno strato intrinseco interposto tra la
zona p+ e la zona n del diodo, a bassissimo drogaggio e dalla larghezza wpin
molto ampia (5-50 µm), che allarga di molto la zona di svuotamento del dio156
do, e quindi la zona in cui il campo elettrico necessario per la migrazione delle
coppie elettrone-lacuna risiede. Avendo allargato la zona di svuotamento, la
capacità della zona di svuotamento associata al fotodiodo pin diminuisce, il
che abbatte i tempi di reazione del dispositivo e aumenta la possibilità di
catturare fotoni ad alta lunghezza d’onda nella zona di svuotamento, invece
che nella zona neutra.
Si noti tuttavia che è comunque necessario del tempo affinché le coppie
elettrone-lacuna escano dalla zona di svuotamento, tempo che aumenta all’aumentare di wpin . Per diminuire il tempo, è necessario aumentare la
velocità di drift, che per gli elettroni e le lacune è data da:
ve− = µe− E
vl = µl E
(10.11)
(10.12)
dove µe− è la motilità elettronica e µl quella delle lacune (solitamente,
µe− > µl ). Questo significa che è necessario avere campi elettrici molto intensi, il che significa che bisogna spingere il diodo in forte polarizzazione
inversa, avvicinandosi molto alla sua zona di breakdown. In ogni caso tuttavia, non è possibile eccedere la velocità di 105 m/s, il che limita il guadagno
in tempo di risposta del dispositivo.
10.4
Fotodiodo a valanga
Lo schema di un fotodiodo a valanga (APD, Avalanche PhotoDiode) è
mostrato in Figura 10.4:
157
Figura 10.4: (a) Schema della struttura di un APD in polarizzazione inversa.
(b) Densità di carica nell’APD. (c) Campo elettrico all’interno dell’APD.
A differenza delle giunzioni pn, in questo caso si hanno tre strati di tipo p,
ciascuno con differente livello di drogaggio, affiancati ad un singolo strato
n++ ad altissimo drogaggio. Ciò è fatto in modo da modificare la struttura
del campo elettrico all’interno del fotodiodo quando esso è posto in condizioni di forte polarizzazione inversa, in modo da differenziare le zone operative
del fotodiodo. L’interno del fotodiodo consisterà principalmente in due zone:
la prima sarà una zona π ampia con un campo elettrico relativamente basso
e costante, associata ad un drogaggio tipo p molto basso, nota come zona
158
di assorbimento. Tale zona si occuperà principalmente di generare singole coppie elettrone-lacuna. Gli elettroni fotogenerati in tale zona vengono
poi driftati dal campo elettrico verso la zona n+ (su cui giacciono cariche
localizzate positive dopo la ricombinazione dei maggioritari), attraversando
necessariamente una zona p con campo elettrico avente elevata intensità, nota
come zona di moltiplicazione a valanga. L’aumento del campo elettrico nella zona di moltiplicazione incrementa di molto l’energia cinetica degli
elettroni che passano al suo interno, al punto tale da ionizzare alcuni degli
atomi di silicio e produrre altre coppie elettrone-lacuna, gli elettroni delle
quali a loro volta verranno accelerati generando a cascata un’enorme quantità di coppie elettrone-lacuna. Da un singolo elettrone quindi è possibile
generare un gran numero di coppie elettrone-lacuna, le quali contribuiranno
alla fotocorrente osservata.
Esistono particolari fotodiodi a valanga, noti come SAM APD (Separate
Absorption and Multiplication Avalanche PhotoDiode), nei quali le zone di
assorbimento e di moltiplicazione a valanga sono completamente separate
con materiali diversi, come mostrato schematicamente in Figura 10.5:
Figura 10.5: Schema di un SAM APD utilizzante una eterostruttura basata
sull’arsenuro di indio e gallio e fosfuro di indio.
159
La separazione avviene mediante le cosiddette eterogiunzioni tra zone di
materiale differente, solitamente formate da arsenuro di indio e gallio e fosfuro
di indio. In tal modo, i fotoni incidenti sul fotodiodo attraversano lo strato
di InP senza essere proprio assorbiti, in quanto l’energia dei fotoni è minore
dell’energia di gap dell’InP, venendo invece assorbiti dallo strato di InGaAs.
10.5
Rumore associato a un fotodiodo
I fotodiodi sono dispositivi afflitti da rumore abbastanza elevato. Il segnale
che un fotorivelatore può rivelare è limitato inferiormente dalle fluttuazioni stocastiche della corrente causate da vari processi casuali all’interno del
dispositivo. Per quanto riguarda i fotodiodi a giunzione pn in particolare,
anche se ci si trova in polarizzazione inversa continua a esistere una corrente
di buio Id causata fondamentalmente dalle coppie elettrone-lacuna generate
nella zona di svuotamento per fluttuazioni termiche.
Se tuttavia la corrente di buio fosse sempre costante, non ci sarebbero problemi, in quanto basterebbe stimare questo valore e sottrarlo all’output del
dispositivo. Ciò che impedisce questo processo è la formazione dei cosiddetti
shot noise, cioè fluttuazioni stocastiche rispetto ad Id causate dal fatto che
la conduzione della corrente di buio all’interno del fotodiodo è causata da un
numero ristretto di cariche discrete. Poiché le cariche sono relativamente poche infatti, ci sarà una distribuzione statistica associata a quando i portatori
di carica riescono a raggiungere gli elettrodi, in quanto i portatori di carica
discreti arriveranno non in modo continuo, ma discretamente e in tempi casuali3 .
Il valore quadratico medio delle fluttuazioni rispetto alla corrente di buio è
detto shot noise current, ed è dato da:
in,buio =
q
2 |e− | B Id
(10.13)
dove B è la banda in frequenza del fotorivelatore. Per essere rivelato, il segnale deve essere maggiore di in,buio .
Un altro tipo di rumore è causato dal fatto che il flusso di luce incidente sul
fotorivelatore è formato a sua volta da particelle discrete, che interagiscono
3
Se si considera l’analogia della corrente con un flusso idraulico, in questo caso invece
di un flusso liquido continuo attraverso un tubo si ha un flusso discreto di molecole che
attraversano il tubo a tempi casuali.
160
stocasticamente con gli elettroni di valenza per produrre coppie elettronelacuna. Questo significa che c’è un’inevitabile fluttuazione nel processo di fotogenerazione di coppie elettrone-lacuna, che si ripercuote su una fluttuazione
nella fotocorrente associata al segnale, generando un ulteriore contributo al
rumore noto come quantum noise. Tale tipo di rumore è fenomenologicamente equivalente allo shot noise, in quanto anche in questo caso la causa
è associabile a particelle discrete; se Iph è la fotocorrente media associata al
segnale, il valore quadratico medio delle fluttuazioni rispetto a tale corrente
è detto shot quantum noise current, ed è dato da:
in,quantum =
q
2 |e− | B Iph
(10.14)
questi due tipi di rumore sono i contributi principali al rumore totale delle
giunzioni pn e pin. Poiché questi due processi sono indipendenti e casuali, il
valore quadratico medio della shot noise current totale sarà dato dalla somma
in quadratura dei due valori quadratici medi:
in =
q
i2n,buio + i2n,quantum =
q
2 |e− | B (Id + Iph )
(10.15)
associato ad un fotorivelatore, si ha solitamente un circuito amplificatore,
sorgente anch’esso di rumore. I rumori tipici del circuito amplificatore sono il
cosiddetto Johnson noise, causato da fluttuazioni stocastiche della tensione
ai capi di un conduttore ad opera dell’agitazione casuale degli elettroni di
conduzione, e lo shot noise del segnale rivelato che abbiamo già discusso. I
valori quadratici medi del rumore Johnson e dello shot noise sono dati da:
s
vJ =
q
4kB T B Rs , iJ =
in =
q
2 |e− | B (Id + Iph )
4kB T B
Rs
(10.16)
(10.17)
dove Rs è la resistenza (o la resistenza equivalente) del conduttore considerato. Questi rumori sono detti rumori bianchi, in quanto agiscono su tutto
lo spettro in frequenza, mentre un esempio di rumore associato al circuito
amplificatore che agisce solo sulle basse frequenze (rumore rosa) è il cosiddetto flicker noise, cioè una tipologia di rumore ancora non ben compreso
presente solo a basse frequenze, causato probabilmente da fluttuazioni termiche che modulano la resistività del conduttore. il valore quadratico medio del
flicker noise è dato da:
s
KB α
hii
(10.18)
if =
νn
161
dove K è una costante che dipende dal dispositivo, hii è il valor medio della
corrente che attraversa il dispositivo, α ∈ [0.5, 2] e n ∼ 1.
Nella realizzazione di circuiti con rivelatori, si definisce rapporto segnale/rumore il rapporto tra la potenza del segnale e la potenza del rumore:
SNR :=
Ps
Pn
(10.19)
nel caso di un fotorivelatore, si avrà semplicemente:
SNR =
2
Iph
i2n
(10.20)
dove in è dato dalla (10.15). Si definisce inoltre noise equivalent power la
potenza ottica del segnale incidente sul fotorivelatore necessaria per produrre
una fotocorrente pari a in ad una certa lunghezza d’onda e per una larghezza
di banda in frequenza pari a 1 Hz. Se B è la larghezza di banda effettiva del
rivelatore e P1 è la potenza ottica incidente tale che si abbia SNR = 1, allora
per definizione:
P1
(10.21)
NEP := √
B
un valore basso di NEP è associato ad una migliore fotorivelazione.
Il reciproco del NEP è detto invece detectivity. Si definisce infine noise
figure di un amplificatore la quantità (misurata in decibel):
NF (dB) := 10 log10
SNRin
SNRout
consideriamo come esempio il seguente circuito:
162
!
(10.22)
Figura 10.6: circuito equivalente a quello di un fotorivelatore che fornisce un
segnale vs in output verso un amplificatore reale. Il rumore è modellizzato
da una resistenza equivalente Rs , un generatore di corrente di noise in ed un
generatore di tensione di noise vn .
il SNR del circuito sarà:
SNR =
vs
q
B 4kB T Rs + vn2 + (Rs in )2
se si riesce a trasformare Rs nella resistenza ottimale:
vn
Rs,o =
in
allora si può dimostrare che NF verrà minimizzato al valore:
NFmin = 10 log10
vn2
1+
2kB T Rs,o
(10.23)
(10.24)
!
(10.25)
per trasformare Rs in Rs,o si utilizza solitamente un trasformatore, in quanto
si può dimostrare che se α è il rapporto tra il numero di avvolgimenti del
secondario ed il numero di avvolgimenti del primario, allora:
α2 Rs = Rs,o
10.6
(10.26)
Metodi di abbattimento del rumore
A causa della presenza del flicker noise, si preferisce solitamente lavorare a
frequenze abbastanza elevate affinché il rumore dominante sia quello bianco4 .
4
Bisogna tuttavia fare attenzione a non trasformare il segnale ad una frequenza che sia
vicina a quella della linea elettrica, o a quella di sorgenti di rumore note.
163
A questo punto, è possibile utilizzare un certo numero di tecniche per migliorare il segnale ed estrarlo dal mare di rumore tipico dei fotorivelatori. Queste
tecniche sono principalmente basate sulla riduzione della larghezza di banda.
Poiché la potenza del white noise per unità di larghezza di banda è costante
infatti, ridurre la banda ridurrà proporzionalmente la potenza associata al
rumore. Vedremo principalmente due tipi di tecniche: l’amplificatore lock-in
e l’integratore boxcar.
10.6.1
Lock-in
Un tipico sistema di rivelazione ha la forma mostrata in Figura 10.7:
Figura 10.7: Tipico sistema di rivelazione e miglioramento del segnale.
l’amplificatore lock-in funziona agganciando in fase (da cui il nome) il segnale vs (t) in ingresso con un segnale di riferimento vref (t), solitamente pari
ad un’onda quadra con frequenza associata a quella del chopper. Si estraggono poi le componenti di Fourier corrispondenti alle rispettive frequenze
fondamentali, e le si inviano ad un primo amplificatore operazionale che ne
svolge la moltiplicazione. L’output sarà un prodotto di seni del tipo:
vn,1 (t) = V0,ref V0,s sin (ωref t + θref ) sin (ωs t + θs ) =
1
(ω
−ωs ) t + θref − θs +
= V0,ref V0,s cos ref
2
0
(
"
)
(((
(
(
(
(s(
−cos [(ω
) t + θref + θs ]
(ω
ref(+
((((
0
1
= V0,ref V0,s cos [θref − θs ]
2
164
#
=
(10.27)
dove la parentesi tonda nel primo coseno è nulla perché ωref ≡ ωs , mentre il
secondo coseno è nullo perché si può utilizzare un filtro passa-basso per fare
una media temporale del segnale. Si ha in definitiva:
1
vn,1 (t) = V0,ref V0,s cos (θref − θs )
2
(10.28)
contemporaneamente, si invia la prima armonica fondamentale del segnale
vs (t) ad un secondo amplificatore operazionale che fa il prodotto di questa
armonica fondamentale con quella del riferimento sfasata di 90◦ . All’uscita
dell’operazionale si avrà allora:
1
vn,2 (t) = V0,ref V0,s sin (θref − θs )
2
(10.29)
a questo punto, operando sui segnali vn,1 e vn,2 è possibile ricostruire il segnale
dal mare di rumore. Si portano innanzitutto i due segnali in un circuito
operazionale che li eleva al quadrato e li somma, ottenendo così:
2
2
h
i
((
· V0,s
V0,ref
1 2
2((((
2
2
2
(
(
sin2 (θref − (
θs(
)+
cos
(θ
−
θ
)
=
vn,1
+ vn,2
V0,s
= V0,ref
(
ref
s
4
4
((
1
((((
(10.30)
da cui, conoscendo V0,ref , è possibile determinare V0,s . Si portano inoltre i
due segnali anche in un circuito in grado di farne il rapporto, in quanto:
1
V0,sV0,ref sin (θref − θs )
2 1
V
0,s
0,ref cos (θref − θs )
V
= tan (θref − θs )
(10.31)
2
da cui è anche possibile determinare θs , essendo noto θref . La diminuzione
della banda avviene dal fatto che è stato utilizzato un filtro passa-basso per
fare la media temporale. se τ := RC è la costante di tempo del circuito,
allora:
1
B=
(10.32)
4τ
per un singolo passa-basso, e:
B=
1
4nτ
(10.33)
per n passa-basso concatenati con la stessa costante di tempo. Con tale
sistema, scegliendo adeguatamente τ è possibile ottenere valori molto piccoli
di B. La limitazione del sistema è che, dovendo scegliere τ grandi, il tempo
necessario per effettuare la misura aumenta come all’incirca B −1 .
165
10.6.2
Boxcar
Quando il segnale da rivelare è un treno di impulsi periodico a basso valore
di duty cycle5 , l’informazione associata al segnale è disponibile solo per una
frazione infinitesima del tempo totale, mentre il rumore è sempre presente. È
tuttavia possibile, mediante circuiti di timing e di gating, connettere il segnale
ad un circuito integratore RC solo in quei periodi di tempo in cui il segnale
è supposto essere presente. Questo tipo di circuito descrive la struttura
generale di un integratore boxcar, cioè uno strumento che permette di
integrare il segnale di input solo in certe finestre di integrazione specificate
da un impulso di trigger a forma di onda quadra (che somigliano ai vagoni
di un treno, da cui il nome “boxcar”).
Il principio di funzionamento è basato su due step fondamentali: integrazione
del segnale in una certa finestra di tempo e operazione di media del segnale
su un certo numero di eventi:
1. Si programma l’interruttore a chiudersi automaticamente per un tempo
di gate scelto in modo tale da far passare solo la parte del treno di
inpulsi che trasmette l’informazione.
2. Ai capi di C si ha il segnale di carica del condensatore durante tgate , e la
tensione tende asintoticamente ad S raggiungendo a t = tgate un certo
valore Si vicino ad S. Quando finisce il tempo di gate, il condensatore
si scarica e il processo ricomincia.
In tal modo si hanno varie “stime” di Si che permettono di determinare il
picco degli impulsi, anche se il segnale è immerso nel rumore. Supponendo
che τ = RC del circuito sia sufficientemente ampio rispetto al periodo del
treno d’onda, la tensione in uscita sarà l’integrale del segnale in ingresso con
larghezza di banda pari a:
1
(10.34)
B=
4RC
l’integrazione del segnale non solo funge da prima operazione di media, ma
sopprime anche fortemente il rumore a frequenze pari o superiori al reciproco
della larghezza di banda. Si selezionano poi le parti del segnale che effettivamente trasportano l’informazione, e si trascurano tutte le parti del segnale
5
Il duty cycle è definito come la frazione di tempo associata ad un periodo per il quale
il segnale di un treno ad impulsi è “alto” (nel senso booleiano del termine).
166
dove è ancora presente il rumore. A questo punto si effettua la media su un
certo numero di periodi, in modo tale che il rapporto segnale/rumore sia:
S1 + S2 + · · · + Sn
SNRn = q
N12 + N22 + · · · + Nn2
(10.35)
con Ni i-esima istanza del rumore. Dunque:
√ hSi
nhSi
SNRn = q
= nq
nhN 2 i
hN 2 i
(10.36)
Ma per un singolo impulso, il SNR è:
hSi
SNR1 = q
hN 2 i
(10.37)
quindi:
SNRn √
= n
SNR1
ergo all’aumentare di n il SNR migliora.
167
(10.38)
Capitolo 11
Dispositivi fotovoltaici
11.1
Principi di base e caratteristica IV del
fotovoltaico
I fotovoltaici, o celle solari, sono dispositivi che convertono l’energia elettromagnetica irraggiata dal Sole in energia elettrica. Se possiamo approssimativamente modellizzare lo spettro elettromagnetico della radiazione emessa dal Sole con quello di un corpo nero, la radianza spettrale in termini di
lunghezza d’onda seguirà il seguente andamento:
Bλ (T ) =
1
8πhc
5
λ exp hc − 1
kB T
il massimo λmax è a circa 500 nm per lo spettro solare.
spostamento di Wien:
λmax Teff. = cost.
(11.1)
Dalla legge di
(11.2)
si ha una temperatura efficace di circa Teff. = 6000 K. Effettuando una cosiddetta misura ad airmass 0, cioè al di fuori dell’atmosfera terrestre e
con il Sole a incidenza perpendicolare sul fotovoltaico, si dovrebbe misurare
idealmente una luminosità solare pari a:
L = 1353 W/m2
(11.3)
La radiazione emessa dal Sole tuttavia viene assorbita in piccola parte dal
mezzo interstellare e in gran parte dall’atmosfera terrestre. Si definisce quindi
168
airmass la quantità:
AM :=
1
cos ξ
(11.4)
dove ξ è l’angolo di elevazione solare, cioè l’angolo compreso tra la congiungente rivelatore-sole (linea solare) e il piano equatoriale locale. Se la
linea solare è ortogonale al piano equatoriale locale, allora ξ = 0 e la misura
di luminosità si dice effettuata ad airmass 1, in quanto:
AM =
1
=1
cos (0)
(11.5)
La potenza misurata ad airmass 1 è solitamente inferiore a L , e all’aumentare dell’airmass diminuisce sempre di più. Per questo motivo, si utilizza
nei fotovoltaici un inseguitore solare, in modo da mantenere il pannello
fotovoltaico ad AM = 1.
Esistono vari tipi di fotovoltaici: alcuni tipi contengono dell’acqua all’interno
del pannello, che viene riscaldata mediante effetto serra e utilizzata per generare corrente. Altri tipi invece sfruttano gli specchi parabolici per focalizzare
i raggi solari verso un cilindro dalla superficie annerita, contenente dei sali la
cui temperatura di fusione è di circa 100 ◦ C. L’intensità luminosa risulterà
tale da provocare un rapido aumento di temperatura all’interno della ceramica, che fa fondere il sale. Esso verrà quindi convogliato ad un impianto di
circolazione, generando corrente elettrica. Esistono anche impianti fotovoltaici a forma di torre, contenente degli specchi alla loro base. La radiazione
solare viene convogliata dagli specchi verso la cima della torre, su cui si trova
un ricevitore.
Tutti questi modelli di fotovoltaico funzionano trasformando l’energia elettromagnetica proveniente dal Sole in energia termica. È tuttavia possibile
utilizzare anche rivelatori a semiconduttore per svolgere la conversione, solitamente convertendo la radiazione incidente in coppie elettrone-lacuna, che
successivamente passeranno attraverso un circuito di carico per generare lavoro elettrico.
Un modello schematizzato della cella fotovoltaica a semiconduttore è mostrato in Figura 11.1:
169
Figura 11.1: Tipica cella fotovoltaica a giunzione pn.
Gli elettrodi posizionati sulla zona n devono permettere l’ingresso dei fotoni,
e allo stesso tempo fungere da resistenza in serie abbastanza piccola da non
dissipare troppa energia: essi vengono dunque strutturati a forma di “spina di
pesce”. Lo strato viene quindi ricoperto da 2 strati di coating antiriflettente,
in modo da ridurre significativamente la riflettanza associata all’interfaccia
aria-semiconduttore.
Solitamente, la zona n della giunzione è molto stretta, in modo da permettere
alla maggior parte dei fotoni di essere assorbiti nella zona di svuotamento
e nella zona tipo p sottostante. La fotogenerazione delle coppie elettronelacuna avverrà quindi in queste due zone principalmente, e il campo elettrico
creato dalla zona di svuotamento sposterà rispettivamente gli elettroni verso
la zona n e le lacune verso la zona p.
Se la cella fotovoltaica è a circuito aperto, allora semplicemente le coppie
elettrone-lacuna migrate ai bordi del fotovoltaico genereranno una tensione di circuito aperto Voc che si opporrà alla migrazione di altre coppie
elettrone-lacuna, controbilanciando la fotocorrente Iph mediante un campo
elettrico che si oppone a quello prodotto dalla zona di svuotamento. La cella
a questo punto si troverà in equilibrio e non passerà più corrente.
Se invece si effettua un corto circuito del fotovoltaico, allora V = 0 ma la
fotogenerazione di coppie elettrone-lacuna ad opera della radiazione solare
continua, producendo una fotocorrente di corto circuito |Iph | creata dal moto
di elettroni che, migrando verso la zona n, passano nel corto circuito e si
170
ricombinano con le lacune in eccesso nella zona p. Essendo la corrente convenzionale opposta al moto degli elettroni, si ha −Iph diretta quindi in modo
opposto al segno convenzionale del diodo a giunzione pn.
Se infine si collega un carico R alla cella fotovoltaica, si avranno due correnti:
la fotocorrente Iph che si muove sempre in modo opposto al segno del diodo,
e una corrente di diodo Idiodo che si viene a creare in quanto l’eccesso di elettroni nella zona n e l’eccesso di lacune nella zona p creano una differenza di
potenziale V che polarizza il diodo in modo diretto. Le 3 differenti possibilità
sono mostrate in Figura 11.2:
Figura 11.2: (a) Circuito equivalente ad una cella fotovoltaica a circuito
aperto. (b) Circuito equivalente ad una cella fotovoltaica in corto circuito.
(c) Circuito equivalente ad una cella fotovoltaica collegata ad un carico R.
A questo punto possiamo analizzare le caratteristiche IV del fotovoltaico.
Se la cella fotovoltaica è oscurata dalla radiazione incidente, si avrà una
caratteristica amperovoltmetrica di buio data semplicemente dalla caratteristica I/V del diodo normale:
|e− | V
exp
ηkB T
"
Icella ≡ Idiodo = Is
!
#
−1
(11.6)
dove Is è la corrente inversa di saturazione del diodo ed η è il fattore di
merito del diodo, compreso solitamente tra 1 e 2. Se invece si espone la
cella fotovoltaica alla corrente, si avrà uno shift della caratteristica I/V del
diodo verso il basso, di una quantità pari a |Iph |. Infatti:
|e− | V
exp
ηkB T
"
Icella = Idiodo − Iph = −Iph + I0
171
!
#
−1
(11.7)
Si noti che Iph varia a seconda di quanto vale la luminosità L ricevuta dalla
cella fotovoltaica, mediante la relazione:
Iph = KL
(11.8)
dove K è una costante specifica del dispositivo. Questo significa che, al
variare della luminosità, si avrà un fascio di caratteristiche I/V della cella
solare che dipenderanno dalla corrente Iph , come mostrato in Figura 11.3:
Figura 11.3: Caratteristiche I/V della cella solare per diversi valori di luminosità. La prima curva è la curva di buio, la seconda è quella corrispondente
a L = 400 W m−2 e la terza è quella corrispondente a L = 800 W m−2 .
11.2
Retta di carico e fill factor
Trovata la caratteristica amperovoltmetrica, vogliamo capire una volta connesso un carico R a che tensione e a che corrente si stabilizza il circuito,
cioè trovare il cosiddetto punto di lavoro. Riferendoci al circuito (c) della
Figura 11.2, è evidente che per trovare i valori I 0 e V 0 che effettivamente si
instaurano nel circuito bisogna risolvere simultaneamente le equazioni:
|e− | V
exp
ηkB T
"




I
= −Iph + Is



I
V
=−
R
172
!
#
−1
(11.9)
dove il segno nella legge di Ohm è negativo in quanto nel circuito la corrente totale sta scorrendo da una zona a potenziale più basso verso una zona
a potenziale più alto. Per fare ciò solitamente si procede per via grafica,
costruendo una retta di carico come quella mostrata in Figura 11.4:
Figura 11.4: Retta di carico per trovare il punto di lavoro in un circuito con
cella fotovoltaica connessa ad un carico R da 15 Ω.
Dalla figura, si vede che la retta di carico è una retta passante per l’origine e
con pendenza pari a −1/R. il punto di lavoro sarà l’intersezione della retta di
carico con la caratteristica I/V del fotovoltaico, cioè il punto P della figura.
Una volta trovato il punto di lavoro, la potenza trasferita al carico dal
fotovoltaico sarà pari a:
Pout = I 0 V 0
(11.10)
la potenza massima si ottiene quando si massimizza tale prodotto, che corrisponde graficamente al massimizzare l’area rettangolare compresa tra le
linee tratteggiate della Figura 11.4, cambiando la resistenza R o l’intensità
dell’illuminazione che giunge sul fotovoltaico. la potenza massima si ha per:
Pmax = Isc Voc
(11.11)
dove Isc = Iph è la corrente di cortocircuito nel circuito (cioè quella che si ha
per V = 0) mentre Voc è la tensione a circuito aperto che si ha ai capi della
cella solare. Ha senso quindi comparare Pout con Pmax mediante la quantità
nota come fill factor:
I 0V 0
Pout
=
(11.12)
FF :=
Pmax
Isc Voc
173
il fill factor è una misura di quanto sia vicina la caratteristica I/V della cella
solare al caso ideale. Valori tipici del fattore di fill sono compresi tra il 70%
e l’85%, e dipendono dalla struttura del dispositivo. Solitamente, si ha Pout
massimizzato quando il punto di lavoro si trova attorno al “ginocchio” della
caratteristica I/V del fotovoltaico.
11.3
Circuiti equivalenti del fotovoltaico
Le celle fotovoltaiche reali possono deviare sostanzialmente dal modello ideale
studiato finora. Innanzitutto, il trasporto di elettroni all’interno dello strato
n per raggiungere l’elettrodo non avviene senza impedenza nel mezzo: questo
introduce una resistenza in serie effettiva Rs di cui bisogna tenere conto
quando si modellizza il fotovoltaico1 . Una piccola frazione dei portatori di
carica fotogenerati inoltre possono fluire attraverso le superfici del cristallo
(cioè i bordi del dispositivo) o essere intrappolati nelle impurità del materiale, invece di procedere attraverso il circuito. Questi effetti possono essere
tenuti in conto inserendo nel modello anche una resistenza di shunt Rp .
In definitiva, un modello più realistico di cella fotovoltaica è rappresentata
in Figura 11.5:
1
Ci dovrebbe teoricamente essere anche una resistenza in serie dovuta alla zona p, ma
solitamente questa è piccola e si trascura.
174
Figura 11.5: Un modello equivalente della cella fotovoltaica, mostrata nel
riquadro tratteggiato, in serie ad una resistenza di carico RL . Il circuito nel riquadro grigio è il modello ideale di fotovoltaico visto nella sezione
precedente.
Il risultato di tutto ciò è una modifica della caratteristica I/V del fotovoltaico,
che diventerà:
(
I = −Iph + Is
V
|e− |
(V − Rs I) − 1 +
exp
ηkB T
Rp
#
"
)
(11.13)
nella pratica, ciò che cambia è che la resistenza Rs sposta il ginocchio della
curva verso l’origine del piano I/V, riducendo la potenza emessa dal dispositivo e quindi limitandone le prestazioni. La resistenza di shunt inoltre,
se bassa, riduce il valore di Voc , che a sua volta inficia le prestazioni del
dispositivo.
11.4
caratteristiche costruttive dei fotovoltaici
Solitamente, per creare le celle solari si utilizza il cosiddetto silicio amorfo, cioè silicio avente un reticolo cristallino fortemente disordinato. Seppur
175
questo tipo di materiale fa crollare l’efficienza del fotovoltaico, essa rimane
comunque attorno al 13%, in quanto la scelta del silicio amorfo aumenta il
numero di fotoni che generano coppie elettrone-lacuna, perché questo tipo
di materiale ha la capacità di catturare fotoni principalmente associati alle
lunghezze d’onda del visibile. Un’altra scelta è il silicio policristallino, che
produce efficienze tra il 13 ed il 30%.
Ci sono due possibilità per aumentare ancora di più l’efficienza. La prima
è quella di utilizzare il cosiddetto fotovoltaico a convergenza, in cui si
utilizza una lente convergente per focalizzare la luce sulla cella fotovoltaica
direttamente. Questo approccio però ha come svantaggio il fatto che la cella
viene posta sotto fortissimo stress termico, il che rischia di rompere il dispositivo.
La ricerca in anni recenti ha portato allo sviluppo delle cosiddette celle
tandem, anche note come celle solari a eterogiunzione. Questi tipi di
fotovoltaici utilizzano due o più celle solari “in tandem” (cioè una in cascata
ad un’altra), per aumentare la probabilità di assorbire fotoni incidenti sul
dispositivo. La prima cella è caratterizzata da una certa energia di gap tra
banda di valenza e banda di conduzione pari a Eg,1 , mentre la seconda cella
ha un’energia di gap più piccola e pari a Eg,2 . La prima cella assorbirà solo
fotoni con Eγ > Eg,1 , mentre la seconda cella assorbirà tutti i fotoni che sfuggono alla prima cella, e aventi energie Eγ > Eg,2 . Le due celle devono inoltre
essere connesse, in modo da permettere il passaggio dei portatori di carica.
Ciò si realizza utilizzando una sottilissima giunzione pn tra le due celle, che
funge da “giunzione di tunnel” tra le due celle, attraverso cui i portatori di
carica possono passare. La migliore efficienza è stata prodotta con un fotovoltaico a celle tandem formato da 3 giunzioni, mostrato schematicamente
in Figura 11.6:
176
Figura 11.6: Cella solare tandem.
la prima cella è formata da fosfuro di indio e gallio, avente Eg,1 ≈ 1.95 eV.
La seconda è formata da arsenuro di gallio, con Eg,2 ≈ 1.42 eV. La terza è
infine formata da germanio puro, con Eg,3 ≈ 0.66 eV. L’efficienza raggiunta
da questo dispositivo nella pratica è pari al 29.5%.
177
Capitolo 12
Rivelatori termici
I rivelatori termici sono particolari tipi di fotorivelatori basati sulla rivelazione di variazioni di temperatura indotte dall’assorbimento di radiazione elettromagnetica. I rivelatori termici hanno in principio una detectivity
(D := 1/NEP) che è indipendente dalla lunghezza d’onda della luce incidente,
anche se alcune proprietà assorbenti delle superfici del rivelatore mostreranno leggere dipendenze funzionali di D da λ. La necessità di avere finestre
protettive su alcuni elementi del rivelatore inoltre limita la banda di risposta
di questi tipi di rivelatori; in ogni caso, la maggior parte dei rivelatori termici mostra risposte anche per lunghezze d’onda nell’infrarosso spinto, perfino
operando a temperatura ambiente. Le funzioni D(λ) per i tipi di rivelatori
termici che studieremo sono mostrate in Figura 12.1:
178
Figura 12.1: Detectivity in funzione della lunghezza d’onda per vari tipi di
rivelatori termici. Sono mostrate anche in parentesi la temperatura operativa
e la frequenza di modulazione. Dal dominio di queste curve è possibile capire
la banda di funzionamento in lunghezza d’onda dei rispettivi strumenti.
Vediamo ora alcuni tipi di rivelatori termici.
179
12.1
Bolometri
In generale, la resistenza di un solido varia con la temperatura mediante una
relazione del tipo:
R(T ) = R0 [1 + γ (T − T0 )]
(12.1)
in quanto nei metalli, all’aumentare della temperatura, aumenta anche la
resistività (mentre nei semiconduttori è il contrario). Un bolometro è uno
strumento costruito da un materiale con un valore molto elevato di γ. La
radiazione incidente riscalda il bolometro, e ne varia la resistenza. Il tempo
di risposta di questi strumenti è abbastanza lungo (più di 1 ms), ma possono
operare a lunghezze d’onda fino addirittura a 1000 µm.
Esistono anche bolometri a semiconduttore, chiamati termistori, che fungono da elementi circuitali e che ormai hanno sostituito quasi completamente
i bolometri a metallo. Per funzionare hanno bisogno di un circuito di bias,
in quanto la loro caratteristica voltamperometrica mostra pendenza negativa
per valori di I che superano una certa soglia (vedi Figura 12.2), il che può resistenza
portare il termistore a generare processi di autoriscaldamento distruttivo se negatila corrente che fluisce al suo interno è troppo elevata.
va?
Figura 12.2: Caratteristiche voltamperometriche di alcuni termistori.
180
12.2
Rivelatori piroelettrici
i rivelatori piroelettrici sfruttano la proprietà di particolari cristalli asimmetrici (quelli che posseggono un dipolo elettrico intrinseco) di mostrare variazioni della carica superficiale in risposta ad un gradiente di temperatura.
I materiali cristallini vengono posti come dielettrico all’interno di un condensatore, e la variazione di carica superficiale viene misurata come variazione
di tensione ai capi del condensatore quando il cristallo viene irraggiato dalla
radiazione elettromagnetica. A causa del fatto che le variazioni avvengono
solo con i gradienti di temperatura, questi dispositivi sono inerenti rivelatori
in corrente alternata. Per una risposta ottimale, bisogna inserire il rivelatore
piroelettrico come elemento circuitale in ingresso ad un amplificatore a bassa
impedenza di ingresso e bassa impedenza di uscita. Operando sui transienti,
questi strumenti hanno solitamente brevissimi tempi di risposta, operando
con frequenze da pochi Hz fino a 100 GHz.
12.3
Cella di Golay
La cella di Golay è un rivelatore termico avente la struttura mostrata in
Figura 12.3. La radiazione incidente viene assorbita da una sottile pellicola di metallo che forma un lato di una camera sigillata contenente xenon
(utilizzato a causa della bassa conducibilità termica), che inizia a riscaldarsi
in risposta all’assorbimento della radiazione. Un’altra parete della camera
è formata da una membrana flessibile, che si muove al riscaldarsi dello xenon. La variazione della tensione della membrana è utilizzata per variare
la quantità di luce che, inviata da un led verso la membrana, viene riflessa
verso un fotorivelatore. La variazione di intensità luminosa raccolta dal fotorivelatore sarà convertita in un segnale V (t, T ) che rivelerà la radiazione
elettromagnetica incidente.
181
Figura 12.3: Struttura tipica di una cella di Golay.
Seppur questo tipo di rivelatore è molto fragile, esso risulta essere anche
molto sensibile ed è utilizzato solitamente per la spettroscopia nell’infrarosso
spinto.
12.4
Termocoppie e termopile
Le termocoppie, sono rivelatori termici che sfruttano l’effetto Seeback1 ,
per il quale una differenza di temperatura ai capi di una giunzione formata
da due metalli dissimili induce una differenza di potenziale elettrico attraverso la giunzione stessa. Solitamente, oltre alla termocoppia “illuminata” si
aggiunge una termocoppia “al buio” di riferimento, in modo da compensare
per variazioni della temperatura ambientale circostante il circuito. Più termocoppie in parallelo formano le cosiddette termopile.
Poiché la termopila ha un’impedenza di uscita molto bassa, il segnale in uscita è solitamente una variazione di tensione ∆V (associata alla variazione di
1
L’opposto dell’effetto Seeback è l’effetto Peltier, mediante il quale è possibile generare
una differenza di temperatura ponendo due metalli diversi connessi tra loro a tensione
diversa. Questo effetto si usa per costruire le cosiddette celle Peltier, che vengono usate
per raffreddare limitatamente alcuni oggetti.
Il problema principale delle celle Peltier è che all’aumentare di ∆T e delle dimensioni
dell’oggetto da raffreddare aumentano i contributi associati al riscaldamento per effetto
Joule ed al calore trasmesso per conduzione, il che rende il raffreddamento mediante cella
peltier molto inefficiente per grossi oggetti.
182
temperatura ∆T ) molto piccola. Ciò che si fa è quindi usare dei trasformatori e degli amplificatori operazionali per migliorare il segnale in uscita. Un
esempio di tale circuito è mostrato in Figura 12.4.
Figura 12.4: Circuito operativo per una termopila.
183