Esempi di Applicazioni Parallele
e di Metodologie di parallelizzazione
Esempi Applicazioni Parallele
• Applicazioni embarassing parallel
Metodo di parallelizzazione
Es.. Calcolo del π
Task farm statico
• Applicazioni con computazioni regolari su ciascun elemento del dominio
Es., Prodotto di matrici dense
Decomposizione geometrica
Es., Metodi delle differenze finite per la soluzione di PDE
• Applicazioni con computazioni non regolari sugli elementi del dominio
Es., Fattorizzazione LU (domini densi)
Decomposizione a grana fine
Es., Simulazione di modelli oceanografici
• Applicazioni intrinsecamente dinamiche
Es. N-queen problem, problemi di ottimizzazione
Task farm dinamico
Es. Problemi di dinamica molecolare, N-body
Riconfigurazione dinamica
Michele Colajanni – Esempi programmi paralleli
2/51
1
Task farm statico: Calcolo del π
f(x) =
4
1+ x2
4
ð = ∫ f(x) dx
1
f
0
π = area under f(x)
π= a r e a s o t t e s a d a f ( x )
n
Rn(f) = h∑ f(xi )
i =1
h = 1/n
Regola del rettangolo
0
0
Ampiezza dell’intervallo
xi = h(i − 0.5 )
Punti intermedi
Michele Colajanni – Esempi programmi paralleli
3/51
Regola dei rettangoli
Michele Colajanni – Esempi programmi paralleli
4/51
2
Decomposizione per la regola dei rettangoli
In verde, i domini assegnati
al processo 0
0
1
2
3
0
1
2
3
0
1
2
3
0
1
2
3
0
1
2
3
5/51
Michele Colajanni – Esempi programmi paralleli
Calcolo del
π (versione sequenziale)
#include <math
<math.h>
.h>
main()
main()
{int n, i;
double PI25DT = 3.141592653598793238462643;
double h, sum,
sum, pi;
while (1)
{printf(“
printf(“Enter
Enter the number of intervals”);
intervals”);
scanf(“%d,
scanf(“%d, &n”);
if (n == 0) break;
else
{ h=1.0/(double) n;
sum=0.0;
for (i=1; i<=n; i++)
{ x=h*((double) ii-0.5);
sum=sum+(4.0/(1.0+x*x));
}
pi=h*sum;
printf(“pi
printf(“pi is approximately %.16f”, pi);
}
}
}
Michele Colajanni – Esempi programmi paralleli
6/51
3
Funzioni MPI utilizzate nel “Calcolo
π”
int M P I _ I n i t (int * argc, char**a r g v )
int M P I _ C o m m _ s i z e ( M P I _ C o m m c o m m , int *size)
int M P I _ C o m m _ r a n k ( M P I _ C o m m c o m m , int *rank)
int M P I _ B c a s t ( void * buf, int count, M P I _ D a t a t y p e d a t a t y p e , M P I _ O p o p , int root, MPI_C o m m c o m m )
int M P I _ F i n a l i z e ( void)
Funzioni di temporizzazione
double M P I _ W t i m e ( void) ~ secondi
double M P I _ W t i c k ( void) ~ tempo in secondi tra due tick del clock
Uso:
• Una chiamata all’inizio della parte computazionale
• Una chiamata alla fine della parte c o m p u t a z i o n a l e
• Evitare di considerare l’INPUT iniziale e l’OUTPUT finale per il calcolo dello SPEEDUP
Michele Colajanni – Esempi programmi paralleli
Calcolo del
7/51
π (versione parallela - MPI)
#include “mpi
“mpi.h”
.h”
#include <math
<math.h>
.h>
char *argc[];
argc[];
{int n, myid,
myid, numprocs,
numprocs, i, rc;
rc;
double PI25DT= 3.141592653598793238462643;
Task farm implementato come
double mypi,
mypi, pi, h, sum,
sum, x, a;
MPI_Init
MPI_Init(&
(&argc
argc,
, &argv
&argv);
);
Programma SPMD
MPI_Comm
MPI_Comm_
_size(MPI_COMM_WORLD,
size(MPI_COMM_WORLD, &numprocs
&numprocs);
);
MPI_Comm
MPI_Comm_
_rank(MPI_COMM_WORLD,
rank(MPI_COMM_WORLD, &myid
&myid);
);
while (1)
{if (myid == 0)
{printf(“
printf(“Enter
Enter the number of intervals:
intervals: (0 quits)
quits) “);
scanf(“%d”,
scanf(“%d”, &n);
}
MPI_Bcast
MPI_Bcast(&n,
(&n, 1, MPI_INT, 0, MPI_COMM_WORLD);
if (n == 0) break;
else
{ h=1.0/(double
h=1.0/(double)
) n;
sum=0.0;
sum=0.0;
for (i=myid
(i=myid+1;
+1; i<=n; i+=numprocs
i+=numprocs)
)
{ x=h*((double
x=h*((double)
) ii-0.5);
sum+=(0.4/(1.0+x*x));
sum+=(0.4/(1.0+x*x));
}
mypi=h*
mypi=h*sum
sum;
;
MPI_Reduce(&myip
MPI_Reduce(&myip,
, &pi, 1, MPI_DOUBLE, MPI_SUM, 0, MPI_COMM_WORLD);
if (myip == 0)
printf(“pi
printf(“pi is approximately %.16f, Error is %.16f\
%.16f\n”, pi, fabs(pi
fabs(pi-PI25DT));
}
}
MPI_Finalize
MPI_Finalize();
();
}
Michele Colajanni – Esempi programmi paralleli
8/51
4
D e c o m p o s i z i o n e a g r a n a f i n e : Fattorizzazione LU
Versione sequenziale
for k = 1 to n- 1 do
for s = k + 1 to n do
ls k = a s k / a kk
/*calcolo dei
moltiplicatori*/
f o r j = k + 1 t o n do
f o r i = k + 1 t o n do /*Aggiornamento della
a i j = a i j -l i k a kj
sottosotto-matrice Ak */
(k,k)
Ak
1 ° p r o b l e m a d e l l a parallelizzazione S P M D : C o m e d e c o m p o r r e l a m a t r i c e ?
9/51
Michele Colajanni – Esempi programmi paralleli
Decomposizione del dominio (row oriented)
Ak
Ak
BLOCK MAPPING
WRAP MAPPING
(CYCLIC)
Ak
REFLECTION MAPPING
Michele Colajanni – Esempi programmi paralleli
10/51
5
Fattorizzazione LU parallela (c o l u m n o r i e n t e d )
Ak
Algoritmo SPMD (column)
WRAP COLUMN MAPPING
for k=1 to n-1 do
if (k in mycolumns)
mycolumns) then
for i=k+1 to n do
lik=aik/akk
broadcast(
broadcast(columnk) ß lik
else
receive(
receive(columnk)
ß lik
for j=k+1 to n do
if (j in mycolumns)
mycolumns) then
for i=k+1 to n do
aij=aij-likakj
11/51
Michele Colajanni – Esempi programmi paralleli
Fattorizzazione LU parallela (r o w oriented)
for k=1 to n-1 do
for i=k+1 to n do
lik=aik/akk /*calcolo dei moltiplicatori*/
for i=k+1 to n do
for j=k+1 to n do
aij=aij-likakj /*aggiornamento elementi di A*/
(k,k)
Ak
La decomposizione a blocchi di righe
ha un problema evidente. Quale?
Algorimo SPMD (row)
for k=1 to n-1 do
if (k in mynode)
mynode)
then broadcast(
broadcast(rowk)
else receive(
receive(rowk)
for all (i>k in mynode)
mynode) do
iik=aik/akk
Si sceglie la decomposizione per
righe ciclica
Michele Colajanni – Esempi programmi paralleli
for all (i>k in mynode)
mynode) do
for j=k+i to n do
aij=aij-likakj
12/51
6
Fattorizzazione con Column Pivoting
for k=1 to n-1 do
/*column
/*column partial pivoting*/
pivoting*/
if (<I own columnk>) then <search for pivotk in mycolumnk>
if (manager=mynode
manager=mynode)
) then < send pivot index>
index>
else receive(pivot
receive(pivot index)
index)
if (k≠
(k≠pivot index)
index) then <swap(
swap(columnk, columnpivot)>
/*LU
/*LU Factorization*/
Factorization*/
if (<I own rowk>) then <send myrowk>
else receive(
receive(myrowk)
if (<I own columnk>) then <compute and send mymultiplyersk>
else receive(
receive(mymultiplyersk)
for all(<i
all(<i≥
≥k+1 in myrowi>) do
for all (<j≥
(<j≥k+1 in mycolumnj>) do
aij=aij-likakj
Michele Colajanni – Esempi programmi paralleli
13/51
Decomposizione geometrica
Dominio di
Ω 2: griglia N*N punti distribuita su griglia L*L:
Ad ogni passo
=
F
D o p o o g n i p a s s o s c a m b i o d i v a l o r i d e l l e a r e e d i overlap
T calc = ( N / L ) 2
T comm = N / L
T comm / T calc ≈ L / N
Michele Colajanni – Esempi programmi paralleli
14/51
7
Algoritmo di Jacobi
Si consideri un’equazione differenziale alle derivate parziali ellittica, per cui si vuole
determinare la soluzione allo stato stabile.
U n a n o t a t e c n i c a r i s o l u t i v a ( i t e r a t i v a ) è quella che utilizza il M e t o d o d i J a c o b i .
Dato come dominio una griglia di N*N punti, a ciascun
passo iterativo, ogni punto della griglia viene aggiornato
con una combinazione lineare dei punti della griglia
adiacenti (calcolati al passo precedente):
k +1
xi
=−
1
an
(
∑a
j ≠i
k
ij x j
− bi )
i =1, … , n
k =0, 1, …
Componente da aggiornare al passo k+1
Componenti aggiornate al passo k con cui si aggiorna l’elemento (i,j)
15/51
Michele Colajanni – Esempi programmi paralleli
Algoritmo JACOBI
int i, j;
Algoritmo sequenziale
double u[n][n], unew[n][n];
unew[n][n];
for (j=0; j++; j<n)
for (i=0; i++; i<n)
unew[i][j]=0.25*(u[i
unew[i][j]=0.25*(u[i-1][j])+u[i][j+1]+u[i][j1][j])+u[i][j+1]+u[i][j-1]+u[i+1][j])1]+u[i+1][j])-h*h*f(i,j)
Processo 2
i,j+1
Decomposizione del
dominio dei dati:
per blocchi di righe
Halo
i-1,j
i+1,j
Processo 1
i,j-1
Processo 0
Michele Colajanni – Esempi programmi paralleli
16/51
8
Jacobi: Algoritmo Parallelo MPI-Fortran
Get a new communicator for a decomposition of the domain and my position in it
call MPI_CART_CREATE(MPI_COMM_WORLD, 1, numprocs, .false., .true., comm1d, ierr)
call MPI_COMM_RANK(cimm1d, myid, ierr)
call MPI_CART_SHIFT(comm1d, 0, 1, nbrbottom, nbrtop, ierr)
compute the actual decomposition
call MPE_DECOMP1D(ny, numprocs, myid, s, e)
initialize the right-hand-side (f) and the initial solution guess (a)
call ONEDINIT(a, b, f, nx, s, e)
actually do the computation. Note the use of a collective operation to check for
convergence, and a do-loop to bound the number of iterations.
do 10 it=1, maxit
get ghost points
call EXCHNG1(a,
EXCHNG1
nx, s, e, comm1d, nbrbottom, nbrtop)
perform one Jacobi “sweep”
call SWEEP1D(a, f, nx, s, e, b)
repeat to get a solution back into array a
call EXCHNG1(b, nx, s, e, comm1d, nbrbottom, nbrtop)
call SWEEP1D(b, f, nx, s, e, a)
check for convergence
call MPI_ALLREDUCE(diffw, diffnorm, 1, MPI_DOUBLE_PRECISION, MPI_SUM, comm1d, ierr)
if (diffnorm .lt. 1.0e-5) goto 20
if (myid .eq. 0) print *, 2*it, ‘Difference is ‘, duffnorm
continue
if (myid .eq. 0) print ‘Failed to converge’
continue
if (myid .eq. 0) then
print *, ‘Converged after ‘, 2*it, ‘Iterations’
endif
Michele Colajanni – Esempi programmi paralleli
17/51
(1) Routine per Scambio Messaggi in Jacobi
subroutine exchng1(a, nx,
nx, s, e, comm1d, nbrbottom,
nbrbottom, nbrtop)
nbrtop)
include “mpif.h”
integer nx, s, e
double precision a(0:nx+1, s-1:e+1)
integer comm1d, nbrbottom, nbrtop
integer status(MPI_STATUS_SIZE), ierr
call MPI_SEND (a(1,e), nx, MPI_DOUBLE_PRECISION, nbr, 0, comm1d, ierr)
call MPI_RECV (a(1,s-1), nx, MPI_DOUBLE_PRECISION, nbrbottom,
0, comm1d, status, ierr)
call MPI_SEND (a(1,s), nx, MPI_DOUBLE_PRECISION, nbrbottom,
1, comm1d, ierr)
call MPI_RECV (a(1,e+1), nx, MPI_DOUBLE_PRECISION, nbrtop, 1,
comm1d, status, ierr)
return
end
Michele Colajanni – Esempi programmi paralleli
18/51
9
(2) Routine per Scambio Messaggi in Jacobi
(u s o d i c o p p i e d i S E N D / R E C E I V E )
subroutine exchng1(a, nx,
nx, s, e, comm1d, nbrbottm,
nbrbottm, nbrtop)
nbrtop)
include “mpif.h”
integer nx, s, e
double precision a(0:nx+1,s-1:e+1)
integer comm1d, nbrbottom, nbrtop, rank, coord
integer status(MPI_STATUS_SIZE), ierr
call MPI_COMM_RANK(comm1d, rank, ierr)
call MPI_CART_COORDS(comm1d, rank, 1, coord, ierr)
if (mod(coord, 2) .eq. 0) then
call MPI_SEND(a(1,e), nx, MPI_DOUBLE_PRECISION, nbrtop, 0, comm1d, ierr)
call MPI_RECV(a(1,s-1) nx, MPI_DOUBLE_PRECISION, nbrbottom, 0, comm1d, status, ierr)
call MPI_SEND(a(1,s), nx, MPI_DOUBLE_PRECISION, nbrbottom, 1, comm1d, ierr)
call MPI_RECV(a(1,e+1), nx, MPI_DOUBLE_PRECISION, nbrtop, 1, comm1d, status, ierr)
else
call MPI_RECV(a(1,s-1) nx, MPI_DOUBLE_PRECISION, nbrbottom, 0, comm1d, status, ierr)
call MPI_SEND(a(1,e), nx, MPI_DOUBLE_PRECISION, nbrtop, 0, comm1d, ierr)
call MPI_RECV(a(1,e+1), nx, MPI_DOUBLE_PRECISION, nbrtop, 1, comm1d, status, ierr)
call MPI_SEND(a(1,s), nx, MPI_DOUBLE_PRECISION, nbrbottom, 1, comm1d, ierr)
endif
return
( 3 ) R o u t i n e p e r S c a m b i o M e s s a g g i i n Jacobi
(uso di MPI_SENDRECEIVE)
Michele Colajanni – Esempi programmi paralleli
19/51
(4) Routine per Scambio Messaggi in Jacobi
(C o m u n i c a z i o n i N o n -Bloccanti)
subroutine exchng1(a, nx,
nx, s, e, comm1d, nbrbottom,
nbrbottom, nbrtop)
nbrtop)
include “mpif.h”
integer nx, s, e
double precision a(0:nx+1,s-1:e+1)
integer comm1d, nbrbottom, nbrtop
integer status_array(MPI_STATUS_SIZE, 4), ierr, req(4)
call MPI_IRECV(a(1,s-1), nx, MPI_DOUBLE_PRECISION, nbrbottom,
0, comm1d, req(1), ierr)
call MPI_IRECV(a(1,e+1), nx, MPI_DOUBLE_PRECISION, nbrtop, 1,
comm1d, req(2), ierr)
call MPI_ISEND(a(1,e), nx, MPI_DOUBLE_PRECISION, nbrtop, 0,
comm1d, req(3), ierr)
call MPI_ISEND(a(1,e), nx, MPI_DOUBLE_PRECISION, nbrbottom,
1, comm1d, req(4), ierr)
call MPI_WAITALL(4, req, status_array, ierr)
return
end
Michele Colajanni – Esempi programmi paralleli
20/51
10
M o t i v a z i o n e p e r C o m u n i c a z i o n i N o n -Bloccanti
for(iterations)
update all cells;
send boundary values to neighborours;
receive halo values from neighborours;
boundary
boundary
halo
halo
array
processo
for(iterations)
update boundary cells;
initiate sending o f b o u n d a r y v a l u e s t o n e i g h b o r o u r s ;
initiate receipt of h a l o v e l u e s f r o m n e i g h b o r o u r s ;
update non-boundaru cells;
w a i t f o r c o m p l e t i o n of s e n d i n g o f b o u n d a r y v a l u e s ;
w a i t f o r c o m p l e t i o n of r e c e i p t o f halo values;
Michele Colajanni – Esempi programmi paralleli
21/51
Modalità di Comunicazione Non Bloccanti
SEND
• Il processo mittente esegue la SEND ma non si blocca. Può continuare ad
eseguire tutte le operazioni che non alterano il buffer di SEND.
• Analoghe versioni delle comunicazioni bloccanti
1. M P I _ I S E N D
2. M P I _ I S S E N D
3. M P I _ I B S E N D
4. M P I _ I R S E N D
RECEIVE
• Il processo destinatario esegue la RECEIVE ma non si blocca. Può continuare ad
e s e g u i r e t u t t e l e o p e r a z i o n i c h e n o n a l t e r a n o i l b u f f e r d i R E C E I VE.
• RECEIVE non bloccanti possono anche essere combinate con S END bloccanti e
viceversa.
• MPI_IRECV
• Stessi parametri + uno molto importante: request
(serve per il testing sull’effettiva conclusione della comunicazione)
Michele Colajanni – Esempi programmi paralleli
22/51
11
Routine di testing per Comunicazioni Non Bloccanti
• Test singoli
1. M P I _ T E S T
2. M P I _ W A I T
• Test multipli
1. M P I _ T E S T A L L
2. M P I _ W A I T A L L
3. M P I _ T E S T S O M E
4. M P I _ W A I T S O M E
23/51
Michele Colajanni – Esempi programmi paralleli
Parallelizzazioni più complesse: Algoritmo Gauss-Seidel
L’algoritmo di J a c o b i è u n a t e c n i c a i t e r a t i v a c h e c o n v e r g e p i u t t o s t o l e n t a m e n t e ; p e r t a n t o s u
elaboratori sequenziali si preferiscono utilizzare altri algoritmi quali il m e t o d o d i G a u s s Seidel ed il S u c c e s s i v e O v e r R e l a x a t i o n m e t h o d ( S O R ) , c h e c o n v e r g o n o c o n u n a r a p i d i t à d i
c i r c a d u e v o l t e m a g g i o r e [ H a g e l 81].
I l m e t o d o d i J a c o b i aggiorna il vettore i iterazione utilizzando solo i valori ottenuti al passo
iterativo precedente. Il metodo SOR e di Gauss- Seidel accelerano il tasso di
c o n v e r g e n z a u t i l i z z a n d o , n e l l a v a l u t a z i o n e d i x k + 1 , n o n s o l o x k, m a a l c u n e d e l l e
c o m p o n e n t i a p p e n a c a l c o l a t e d e l l o s t e s s o xk+1.
Componente da aggiornare al passo k+1
Componenti aggiornate al passo k
Componenti aggiornate al passo k+1
Michele Colajanni – Esempi programmi paralleli
24/51
12
Parallelizzazione Algoritmo di Gauss-Seidel
P A R A L L E L I Z Z A Z I O N E : M o d e l l o D a t a - Parallel
= = = = = > Si decompone il dominio in strisce assegnando i punti di ciascuna striscia ad un diverso processore.
0
1
2
3
4
5
6
7
8
9
10
11
= = = = = > S i d e c o m p o n g a n o u l t e r i o r m e n t e i p u n t i d i discretizzazione in due sottoinsiemi disposti
come in una scacchiera: b l a c k / w h i t e (o r e d / b l a c k ).
= = = = = > P e r c i a s c u n p a s s o i t e r a t i v o s i i n d i v i d u a n o d u e s o t t o -livelli di iterazione:
1) nel primo si aggiornano i punti dell’insieme black, utilizzando i valori dell’insieme white;
2) nel secondo, analogamente, i punti white sono aggiunti utilizzando gli elementi
black al passo precedente.
Michele Colajanni – Esempi programmi paralleli
25/51
Simulazione di Modelli Oceanografici
Approccio di parallelizzazione: D e c o m p o s i z i o n e a g r a n a f i n e
d e l d o m i n i o ( + riconfigurazione dinamica)
Decomposizione del Dominio
Michele Colajanni – Esempi programmi paralleli
26/51
13
T a s k f a r m d i n a m i c o : Problema delle N Regine
Problema: Trovare tutte le soluzioni per posizionare N Regine su di una
scacchiera Nx N tale che nessuna Regina sia in grado di attaccarne un’altra.
U n a soluzione
27/51
Michele Colajanni – Esempi programmi paralleli
Problema delle N Regine (esempio N = 4 )
Q = Posizione della Regina (Q u e e n )
Ramo senza soluzioni
Ramo senza soluzioni
2 soluzioni
Michele Colajanni – Esempi programmi paralleli
28/51
14
Algoritmo risolutivo: ricerca esaustiva
• Si ha uno spazio di ricerca irregolare, con un dominio non definibile a priori
• Non è possibile effettuare una decomposizione del dominio
• Necessità di bilanciamento dinamico
Michele Colajanni – Esempi programmi paralleli
29/51
Soluzione parallela al problema delle N Regine
Approccio di parallelizzazione: T a s k f a r m d i n a m i c o
• Manager
- Costruisce e mantiene il livello superiore dell’albero di ricerca
(posizione iniziale della Regina)
- Usa i worker per costruire l’albero e risolve ogni foglia dell’albero
- Tiene traccia del numero totale di soluzioni trovate
• Worker
- Esegue due task principali
1. Suddivide il problema in sottoproblemi
2. Risolve i sottoproblemi
Michele Colajanni – Esempi programmi paralleli
30/51
15
Pattern di Comunicazione (prevalente) tra
processi paralleli
Un richiamo al problema dell’Embedding visto in precedenza
• Master/slave
• Task f a r m statico (es., Integrazione per
π)
• Task f a r m dinamico (es., Problema delle N regine)
• Near-neighbor
(es., Jacobi, metodi alle differenze finite per la soluzione di PDE)
• Multicast
(es., Fattorizzazione LU, Moltiplicazione di matrici)
• Irregolare
(es., Problemi di dinamica molecolare, fluidodinamica)
31/51
Michele Colajanni – Esempi programmi paralleli
Metriche di Valutazione
delle Prestazioni
nel Calcolo Parallelo
(c e n n i )
16
Speedup
Definizione 1 ( S p e e d u p Ideale )
Rapporto tra il tempo di esecuzione del migliore algoritmo sequenziale T*
ed il tempo di esecuzione del corrispondente algoritmo parallelo ottenuto
utilizzando p processori:
S =
*
p
T*
Tp
Definizione 2 ( Speedup Algoritmico )
Tipico andamento dello
speedup
Speedup
Rapporto tra il tempo di esecuzione dell’algoritmo su di un unico
processore ( T 1 ) ed il tempo di esecuzione dello stesso su p processori ( T p )
Numero processori
33/51
Michele Colajanni – Esempi programmi paralleli
Efficienza
Misura del grado di inutilizzo dell’elaboratore parallelo
Ep =
Sp
p
Per definizione, 0 <= E p <= 1
efficienza
Buona misura per la presentazione di più risultati in quanto, rispetto
allo speedup (espresso in funzione di p), “normalizza” i tempi di
esecuzione
1
Dati
Michele Colajanni – Esempi programmi paralleli
34/51
17
Legge di A m d h a l (1967)
Si assuma che in un determinato problema possa essere distinto in due
parti: una inerentemente sequenziale (sia f la percentuale di tale sezione
sul calcolo complessivo) ed una completamente parallelizzabile:
N
Tempo di esecuzione:
Tp = ( f +
Allora lo speedup è limitato da:
1− f
S
f
)T1
p
p
≤
f +
1
1 − f
p
per
p→∞
S p →1/ f
Conseguenza
Una piccola frazione di operazioni sequenziali può limitare fortemente
lo speedup ottenibile da un computer parallelo
Esempio
Se f=0.1 à S p
10, indipendentemente da quanti processori si hanno
Michele Colajanni – Esempi programmi paralleli
35/51
Legge di Barsis- Gustafson
Motivazioni
Diversi studi sperimentali condotti presso il Sandia National Laboratory hanno
dimostrato che per molti problemi era possibile ottenere speedup quasi lineari (circa
1000 con 1024 processori)
Ciò ha condotto ad una rivisitazione della legge di Amdhal:
Il difetto della legge di Amdhal è quello di considerare f e p scorrelati,
cioè dipendenti dalle proprietà statiche dell’algoritmo senza tener conto
della dimensione dello spazio computazionale
Scalando la dimensione del problema con il numero di processori usati,
si ha invece che:
• T 1 non è più indipendente dal numero di processi utilizzati
• T p risulta indipendente dal numero di processori
Ribaltamento del paradigma di Amdhal:
Amdhal : quanto sarà T p dato T 1
Barsis : quanto sarà T 1 dato T p
Michele Colajanni – Esempi programmi paralleli
36/51
18
Legge di Barsis- Gustafson (cont.)
Esecuzione parallela = Ts + Tw
s
w
s
pw
Esecuzione sequenziale = Ts + p Tw
Sia s la frazione di tempo che una macchina parallela spenderebbe nella
parte seriale del programma e w la frazione che la stessa macchina
parallela spenderebbe nelle parti parallelizzabili del programma medesimo.
S p ( scalato ) =
T s + pT w
T s + Tw
=
+
Ts
Ts + Tw
+p
Tw
Ts + Tw
= s + pw
Normalizzando anche in questo caso , cioè supponendo w+s=1, si ha:
= s + p (1 - s) = s + p – ps = p + ( 1 – p ) s
37/51
Michele Colajanni – Esempi programmi paralleli
E’ possibile avere s p e e d u p superlineare (?)
• Confronto “ disonesto”
(es.: Algoritmo sequenziale non buono)
• Caratteristiche HARDWARE
(Soprattutto dovuto a gerarchie di memoria: cache/disco)
• Anomalie ALGORITMICHE
(es.: algoritmi di ricerca)
T 1 =11 (tempo sequenziale con tradizionale
Soluzione
algoritmo di ricerca)
T 2 =4 (tempo parallelo con 2 processori)
Speedup = 11/4 = 2.75 !!
Max Speedup (lineare) = 2
Michele Colajanni – Esempi programmi paralleli
Spazio di ricerca
Assegnato al
Processore 1
Spazio di ricerca
Assegnato al
Processore 2
38/51
19
Cause di inefficienza delle
Applicazioni parallele
(e possibili rimedi)
Processo implementativo di un programma SPMD
Programma
Sequenziale
Decomposizione del
Dominio dei Dati
1
2
(Schema di
memorizzazione)
Primitive di
Comunicazione
Programma parallelo
(versione 1)
Strategia
di t u n i n g
Programma parallelo
(versione 2)
Michele Colajanni – Esempi programmi paralleli
40/51
20
Parametri che Influenzano le Prestazioni
• Bilanciamento del Carico
• Rapporto Comunicazioni/Computazioni
• Colli di Bottiglia
(sequenzializzazioni, sincronizazioni)
• “Tuning” dei Programmi
Michele Colajanni – Esempi programmi paralleli
41/51
P r o g r a m m a r e i multicomputers
•
Le macchine MIMD a memoria distribuita (muticomputers)
raggiungono buone prestazioni (speedup) soltanto se sono
programmate in maniera opportuna.
•
Sono molto più difficili da programmare rispetto alle SIMD o alle
MIMD a memoria condivisa.
•
In particolare, esiste una granularità ottima dei processi (dati) per
ciascun tipo di problema che deve essere risolto su di un particolare
mulicomputer.
•
Nel caso in cui l’insieme di processi abbia una granularità maggiore o
minore di quella ottima, in generale lo s p e e d u p non sarà né
lineare né proporzionale al numero di processi presenti.
Michele Colajanni – Esempi programmi paralleli
42/51
21
Bilanciamento del Carico
Obiettivo: A s s e g n a r e a t u t t i i p r o c e s s o r i u n a n a l o g o W O R K L O A D
===> Livelli di utilizzazione “simili” significano prestazioni più elevate
POSSIBILI TECNICHE DI MIGLIORAMENTO
• Diminuire la granularità
• Ridistribuzione dinamica di strutture dati o di task
• Ridistribuzione di strutture dati statiche
• Aumentare il livello di m u l t i p r o g r a m m a z i o n e (per ciascun nodo)
Michele Colajanni – Esempi programmi paralleli
43/51
Bilanciamento Dinamico (a Posteriori) dei Processi
Ottenuto mediante MIGRAZIONE DEI PROCESSI (o STRUTTURE DATI)
Vi sono tre metodi per controllare e gestire l’operazione (centralizzata) della
migrazione:
• Iniziativa del Destinatario
I processori con piccolo workload richiedono più processi
à (Adatto nel caso di sistemi molto carichi)
• Iniziativa del Mittente
I processori con eccessivo workload richiedono di poter cedere alcuni
processi ad altri processori
à (Adatto nel caso di sistemi poco carichi)
• Metodo Ibrido (adattativo)
Si passa dal primo al secondo metodo a seconda del livello di carico del
sistema.
Michele Colajanni – Esempi programmi paralleli
44/51
22
Pro e Contro del Bilanciamento Dinamico
+ Si ottiene, tipicamente, un utilizzo maggiore dei processori
± Bisogna evitare la cosiddetta “ migrazione circolare”, utilizzando algoritmi
opportuni e valori soglia
- Vi sono elevati costi aggiuntivi sia nel determinare il workload dei
processori che il workload totale
- L’operazione di migrazione di un processo è costosa e dovrebbe essere
effettuata solo per i processi con lunghi tempi di esecuzione
(informazione che spesso non è possibile determinare a priori)
- In genere, tutti i metodi di bilanciamento dinamico intervengono troppo
tardi (quando le prestazioni del sistema sono già degradate). Il
bilanciamento “f o r w a r d -l o o k i n g ” è possibile solo conoscendo i tempi
di run dei singoli processi.
- Nei sistemi eccessivamente carichi, tutti i metodi di bilanciamento
dinamico non hanno “punti di riferimento”. Per di più, i costi
introdotti dalla gestione del bilanciamento tendono a far peggiorare
ulteriormente le prestazioni del sistema.
Michele Colajanni – Esempi programmi paralleli
45/51
Bottleneck di Sequenzializzazione
Obiettivo: Evitare che tutti i processi si mettano in attesa di un singolo p r o c e s s o r e .
= = = > O g n i s e q u e n z i a l i z z a z i o n e f o r z a t a d e l c o d i c e i n f l u e n z a i n m o d o c o n s i d e r e v o l e l e p r e s t a z i o n i.
B o t t l e n e c k del
processore
Bottleneck
del codice
E s ., F a t t o r i z z a z i o n e L U ( d e c o m p o s i z i o n e p e r c o l o n n e )
POSSIBILE TECNICHE DI MIGLIORAMENTO
• Modificare o migliorare l’algoritmo in modo da sovrapporre il codice sequenziale
con altre computazioni
• Distribuire i workload di processori sovraccarichi (bottleneck) tra più processori
Michele Colajanni – Esempi programmi paralleli
46/51
23
Bottleneck di Sincronizzazione
O b i e t t i v o : L i m i t a r e i p u n t i i n c u i t u t t i i p r o c e s s o r i d e b b a n o s i n c r o n i z z a rsi.
===> L’ultimo processo ad arrivare al punto di sincronizzazione determina
il tempo di esecuzione globale.
L U factorization ( n o s e n d -a h e a d )
POSSIBILI TECNICHE DI MIGLIORAMENTO
• Inviare i valori necessari alle computazioni di altri processori non
appena sono disponibili (s e n d -a h e a d )
• Modificare o riorganizzare l’algoritmo in modo da eliminare i punti di
sincronizzazione dove non strettamente necessari
Michele Colajanni – Esempi programmi paralleli
47/51
Rapporto Comunicazioni/Computazioni
Obiettivo: Minimizzare il rapporto tempo di comunicazione tempo di computazioni
di un programma.
===> Rapporti COMUNICAZIONI/COMPUTAZIONI più bassi implicano prestazioni
più elevate
POSSIBILI TECNICHE DI MIGLIORAMENTO
• Aumentare la granularità
• Ristrutturare il programma in modo da avere meno messaggi, ciascuno
di dimensione maggiore
• Ristrutturare le comunicazioni in modo da combinare messaggi “logicamente multipli”
in messaggi singoli
Michele Colajanni – Esempi programmi paralleli
48/51
24
“T u n i n g ” dei Programmi
( A m b i t o : D a t a Parallelism con Allocazione Statica)
OBIETTIVO 1: MIGLIORARE IL BILANCIAMENTO DEL CARICO
E s e m p i o ( Fattorizzazione LU)
• Passare da una decomposizione geometrica ad una decomposizione
ciclica del dominio dei dati
Michele Colajanni – Esempi programmi paralleli
49/51
“T u n i n g ” dei Programmi
( A m b i t o : D a t a Parallelism con allocazione statica)
OBIETTIVO2: ELIMINARE LE SINCRONIZZAZIONI NON NECESSARIE
E s e m p i o ( Fattorizzazione LU)
(1) Algortimo naive ( d e c o m p o s i z i o n e p e r r i g h e )
for k=1 to n-1 do
if (k in mynode)
then broadcast(ak*)
else receive(ak*)
for all (i>k in mynode) do
lik=aik/akk
for j=k+1 to n do
aij=aij-likakj
(2) Algoritmo 1 - s e n d - a h e a d ( decomposizione per righe)
if (1 in mynode) then broadcast(ai*)
for k=1 to n-1 do
if not(k in mynode) then receive(ak*)
for all (i>k in mynode) do
lik=aik/akk
for j=k+1 to n do
{aij=aij-likakj
if ((i=k+1) ∧ (i≠n)) then broadcast(ai*) }
Michele Colajanni – Esempi programmi paralleli
50/51
25
“T u n i n g ” dei Programmi
( A m b i t o : D a t a Parallelism con Allocazione Dinamica)
S e b b e n e l o s c h e m a t a s k -f a r m d i n a m i c o p o s s a miglioriare c o n s i d e r e v o l m e n t e i l B i l a n c i a m e n t o
del Carico, è possibile effettuare ulteriori miglioramenti agendo sulla granularità d e i c o m p i t i e
dell’allocazione dei processi.
Esempio (N Regine)
• D e t e r m i n a i l n u m e r o m i g l i o r e ( d e l p u n t o d i v i s t a d e l b i l a n c i a m e n to) per ciò che
concerne i sottoproblemi da creare
[N u m e r o d i s o t t o p r o b l e m i e n u m e r o d i m e s s a g g i s o n o i n v e r s a m e n t e p r o p o r z i o n a l i ]
- - - > si tende a migliorare il bilanciamento del carico e il rapporto c o m u n i c . / c o m p u t .
• Invia due sottoproblemi per ciascuna comunicazione Manager- Worker
[I n t a l m o d o s i c o n s e n t e a l W o r k e r d i s o v r a p p o r r e u n a c o m p u t a z i o n e p e r o g n i
richiesta pendente al Manager]
- - - > si riduce il b o t t l e n e c k di s e q u e n z i a l i z z a z i o n e e si migliora il rapporto
comunicazione/computazione
• Se il manager risulta essere poco “carico”, sfrutta il multitasking: a g g i u n g i u n
processo Worker anche sul processore che esegue il processo Manager
• Se il Manager risulta essere troppo “carico”, suddividi il lavoro del Manager tra più
processori
Michele Colajanni – Esempi programmi paralleli
51/51
26