Metriche e Strumenti di Valutazione delle Prestazioni nel Calcolo Parallelo (cenni) Speedup Definizione 1 (Speedup Ideale) Rapporto tra il tempo di esecuzione del migliore algoritmo sequenziale T* ed il tempo di esecuzione del corrispondente algoritmo parallelo ottenuto utilizzando p processori: * * p p Definizione 2 (Speedup Algoritmico) S = T T Tipico andamento dello speedup Speedup Rapporto tra il tempo di esecuzione dell’algoritmo su di un unico processore (T 1) ed il tempo di esecuzione dello stesso su p processori (T p) Michele Colajanni – Efficienza delle Applicazioni Parallele Numero processori 2/22 1 Efficienza Misura del grado di inutilizzo dell’elaboratore parallelo Ep = Sp p Per definizione, 0 <= Ep <= 1 efficienza Buona misura per la presentazione di più risultati in quanto, rispetto allo speedup (espresso in funzione di p), “normalizza” i tempi di esecuzione 1 Dati 3/22 Michele Colajanni – Efficienza delle Applicazioni Parallele Legge di Amdhal (1967) Si assuma che in un determinato problema possa essere distinto in due parti: una inerentemente sequenziale (sia f la percentuale di tale sezione sul calcolo complessivo) ed una completamente parallelizzabile: Tempo di esecuzione: N 1− f Tp = ( f + )T1 p Allora lo speedup è limitato da: S p ≤ f 1 1− f f + p per p → ∞ S p → 1/ f Conseguenza Una piccola frazione di operazioni sequenziali può limitare fortemente lo speedup ottenibile da un computer parallelo Esempio Se f=0.1 à Sp 10, indipendentemente da quanti processori si hanno Michele Colajanni – Efficienza delle Applicazioni Parallele 4/22 2 Legge di Barsis-Gustafson Motivazioni Diversi studi sperimentali condotti presso il Sandia National Laboratory hanno dimostrato che per molti problemi era possibile ottenere speedup quasi lineari (circa 1000 con 1024 processori) Ciò ha condotto ad una rivisitazione della legge di Amdhal: Il difetto della legge di Amdhal è quello di considerare f e p scorrelati, cioè dipendenti dalle proprietà statiche dell’algoritmo senza tener conto della dimensione dello spazio computazionale Scalando la dimensione del problema con il numero di processori usati, si ha invece che: • T 1 non è più indipendente dal numero di processi utilizzati • T p risulta indipendente dal numero di processori Ribaltamento del paradigma di Amdhal: Amdhal: quanto sarà Tp dato T1 Barsis: quanto sarà T1 dato Tp Michele Colajanni – Efficienza delle Applicazioni Parallele 5/22 Legge di Barsis-Gustafson (cont.) Esecuzione parallela = Ts + Tw s w s pw Esecuzione sequenziale = Ts + p Tw Sia s la frazione di tempo che una macchina parallela spenderebbe nella parte seriale del programma e w la frazione che la stessa macchina parallela spenderebbe nelle parti parallelizzabili del programma medesimo. S p (scalato) = Ts + pTw Ts Tw = + +p = s + pw Ts + Tw Ts + Tw Ts + Tw Normalizzando anche in questo caso , cioè supponendo w+s=1, si ha: = s + p (1 - s) = s + p – ps = p + ( 1 – p ) s Michele Colajanni – Efficienza delle Applicazioni Parallele 6/22 3 E’ possibile avere speedup superlineare (?) • Confronto “ disonesto” (es.: Algoritmo sequenziale non buono) • Caratteristiche HARDWARE (Soprattutto dovuto a gerarchie di memoria: cache/disco) • Anomalie ALGORITMICHE (es.: algoritmi di ricerca) T1=11 (tempo sequenziale con tradizionale Soluzione algoritmo di ricerca) T2=4 (tempo parallelo con 2 processori) Speedup = 11/4 = 2.75!! Max Speedup (lineare) = 2 Spazio di ricerca Assegnato al Processore 1 Spazio di ricerca Assegnato al Processore 2 Michele Colajanni – Efficienza delle Applicazioni Parallele 7/22 Analisi delle prestazioni (Modelli analitici) • Modelli deterministici • Modelli stocastici • Modelli a reti di code con Fork-Join • Task Graph • Markoviani Michele Colajanni – Efficienza delle Applicazioni Parallele 8/22 4 Esempio Modelli Deterministici (Tempo di esecuzione) Vi sono tre indici temporali che caratterizzano l’esecuzione di un programma parallelo: • Tempo di comunicazione Tcomm • Tempo di calcolo Top • Tempo totale di esecuzione su p processori COMMUNICATION PENALTY In molti algoritmi e sistemi paralleli il tempo speso per le COMUNICAZIONI è una considerevole frazione del tempo totale necessario a risolvere un problema. Tale penalizzazione, detta Communication Penalty, può essere espressa dal rapporto tra il tempo di esecuzione su p processori inclusivo delle comunicazioni ed il tempo al netto delle comunicazioni, ossia: CP = Michele Colajanni – Efficienza delle Applicazioni Parallele Tex ( p ) Top ( p ) 9/22 Cause di inefficienza delle Applicazioni parallele (e possibili rimedi) 5 Processo implementativo di un programma SPMD Programma Sequenziale Decomposizione del Dominio dei Dati 1 2 (Schema di memorizzazione) Primitive di Comunicazione Programma parallelo (versione 1) Strategia di tuning Programma parallelo (versione 2) Michele Colajanni – Efficienza delle Applicazioni Parallele 11/22 Parametri che Influenzano le Prestazioni • Bilanciamento del Carico • Rapporto Comunicazioni/Computazioni • Colli di Bottiglia (sequenzializzazioni, sincronizazioni) • “Tuning” dei Programmi Michele Colajanni – Efficienza delle Applicazioni Parallele 12/22 6 Programmare i multicomputers • Le macchine MIMD a memoria distribuita (muticomputers) raggiungono buone prestazioni (speedup) soltanto se sono programmate in maniera opportuna. • Sono molto più difficili da programmare rispetto alle SIMD o alle MIMD a memoria condivisa. • In particolare, esiste una granularità ottima dei processi (dati) per ciascun tipo di problema che deve essere risolto su di un particolare mulicomputer. • Nel caso in cui l’insieme di processi abbia una granularità maggiore o minore di quella ottima, in generale lo speedup non sarà né lineare né proporzionale al numero di processi presenti. Michele Colajanni – Efficienza delle Applicazioni Parallele 13/22 Bilanciamento del Carico Obiettivo: Assegnare a tutti i processori un analogo WORKLOAD ===> Livelli di utilizzazione “simili” significano prestazioni più elevate POSSIBILI TECNICHE DI MIGLIORAMENTO • Diminuire la granularità • Ridistribuzione dinamica di strutture dati o di task • Ridistribuzione di strutture dati statiche • Aumentare il livello di multiprogrammazione (per ciascun nodo) Michele Colajanni – Efficienza delle Applicazioni Parallele 14/22 7 Bilanciamento Dinamico (a Posteriori) dei Processi Ottenuto mediante MIGRAZIONE DEI PROCESSI (o STRUTTURE DATI). Vi sono tre metodi per controllare e gestire l’operazione (centralizzata) della migrazione: • Iniziativa del Destinatario I processori con piccolo workload richiedono più processi (Adatto nel caso di sistemi molto carichi) • Iniziativa del Mittente I processori con eccessivo workload richiedono di poter cedere alcuni processi ad altri processori (Adatto nel caso di sistemi poco carichi) • Metodo Ibrido Si passa dal primo al secondo metodo a seconda del livello di carico del sistema. Michele Colajanni – Efficienza delle Applicazioni Parallele 15/22 Pro e Contro del Bilanciamento Dinamico + Si ottiene, tipicamente, un utilizzo maggiore dei processori ± Bisogna evitare la cosiddetta “migrazione circolare”, utilizzando algoritmi opportuni e valori soglia - Vi sono elevati costi aggiuntivi sia nel determinare il workload dei processori che il workload totale - L’operazione di migrazione di un processo è costosa e dovrebbe essere effettuata solo per i processi con lunghi tempi di esecuzione (informazione che spesso non è possibile determinare a priori) - In genere, tutti i metodi di bilanciamento dinamico intervengono troppo tardi (quando le prestazioni del sistema sono già degradate). Il bilanciamento “forward-looking” è possibile solo conoscendo i tempi di run dei singoli processi. - Nei sistemi eccessivamente carichi, tutti i metodi di bilanciamento dinamico non hanno “punti di riferimento”. Per di più, i costi introdotti dalla gestione del bilanciamento tendono a far peggiorare ulteriormente le prestazioni del sistema. 16/22 Michele Colajanni – Efficienza delle Applicazioni Parallele 8 Bottleneck di Sequenzializzazione Obiettivo: Evitare che tutti i processi si mettano in attesa di un singolo processore. ===>Ogni sequenzializzazione forzata del codice influenza in modo considerevole le prestazioni. Bottleneck del processore Bottleneck del codice Es., Fattorizzazione LU (decomposizione per colunne) POSSIBILE TECNICHE DI MIGLIORAMENTO • Modificare o migliorare l’algoritmo in modo da sovrapporre il codice sequenziale con altre computazioni • Distribuire i workload di processori sovraccarichi (bottleneck) tra più processori 17/22 Michele Colajanni – Efficienza delle Applicazioni Parallele Bottleneck di Sincronizzazione Obiettivo: Limitare i punti in cui tutti i processori debbano sincronizzarsi. ===> L’ultimo processo ad arrivare al punto di sincronizzazione determina il tempo di esecuzione globale. LU factorization (no send-ahead) POSSIBILI TECNICHE DI MIGLIORAMENTO • Inviare i valori necessari alle computazioni di altri processori non appena sono disponibili (send-ahead) • Modificare o riorganizzare l’algoritmo in modo da eliminare i punti di sincronizzazione dove non strettamente necessari Michele Colajanni – Efficienza delle Applicazioni Parallele 18/22 9 Rapporto Comunicazioni/Computazioni Obiettivo: Minimizzare il rapporto tempo di comunicazione tempo di computazioni di un programma. ===> Rapporti COMUNICAZIONI/COMPUTAZIONI più bassi implicano prestazioni più elevate POSSIBILI TECNICHE DI MIGLIORAMENTO • Aumentare la granularità • Ristrutturare il programma in modo da avere meno messaggi, ciascuno di dimensione maggiore • Ristrutturare le comunicazioni in modo da combinare messaggi “logicamente multipli” in messaggi singoli Michele Colajanni – Efficienza delle Applicazioni Parallele 19/22 “Tuning” dei Programmi (Ambito: Data Parallelism con Allocazione Statica) OBIETTIVO 1: MIGLIORARE IL BILANCIAMENTO DEL CARICO Esempio (Fattorizzazione LU) • Passare da una decomposizione geometrica ad una decomposizione ciclica del dominio dei dati Michele Colajanni – Efficienza delle Applicazioni Parallele 20/22 10 “Tuning” dei Programmi (Ambito: Data Parallelism con allocazione statica) OBIETTIVO2: ELIMINARE LE SINCRONIZZAZIONI NON NECESSARIE Esempio (Fattorizzazione LU) (1) Algortimo naive (decomposizione per righe) for k=1 to n-1 do if (k in mynode) then broadcast(ak*) else receive(ak*) for all (i>k in mynode) do lik=aik/akk for j=k+1 to n do aij=aij-likakj (2) Algoritmo 1-send-ahead (decomposizione per righe) if (1 in mynode) then broadcast(ai*) for k=1 to n-1 do if not(k in mynode) then receive(ak*) for all (i>k in mynode) do lik=aik/akk for j=k+1 to n do {aij=aij-likakj if ((i=k+1) ∧ (i≠n)) then broadcast(ai*) } Michele Colajanni – Efficienza delle Applicazioni Parallele 21/22 “Tuning” dei Programmi (Ambito: Data Parallelism con Allocazione Dinamica) Sebbene lo schema manager-worker migliori considerevolmente il Bilanciamento del Carico, è possibile effettuare ulteriori miglioramenti agendo sulla granularità dei compiti e dell’allocazione dei processi. Esempio (N Regine) • Determina il numero migliore (del punto di vista del bilanciamento) per ciò che concerne i sottoproblemi da creare [Numero di sottoproblemi e numero di messaggi sono inversamente proporzionali] ---> si tende a migliorare il bilanciamento del carico e il rapporto comunic./comput. • Invia due sottoproblemi per ciascuna comunicazione Manager-Worker [In tal modo si consente al Worker di sovrapporre una computazione per ogni richiesta pendente al Manager] ---> si riduce il bottleneck di sequenzializzazione e si migliora il rapporto comunicazione/computazione • Se il manager risulta essere poco “carico”, sfrutta il multitasking: aggiungi un processo Worker anche sul processore che esegue il processo Manager • Se il Manager risulta essere troppo “carico”, suddividi il lavoro del Manager tra più processori Michele Colajanni – Efficienza delle Applicazioni Parallele 22/22 11