Академический Документы
Профессиональный Документы
Культура Документы
Problmatique e
MPI5000
Conclusion
Rseau longue distance et application distribue dans les grilles de e e calcul : tude et propositions pour une interaction ecace e
Ludovic Hablot
17 dcembre 2009 e
Th`se eectue au Laboratoire de lInformatique du Parall`lisme (LIP) de lENS Lyon, e e e dirige par Olivier Glck et Pascale Vicat-Blanc Primet. e u
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Plan
Contexte
Problmatique e
Conclusion
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Plan
Contexte Problmatique e Analyse des communications longue distance des applications MPI Interaction entre TCP et les applications MPI MPI5000 : Eclatement des connexions TCP pour les applications MPI Conclusion
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Contexte
Les applications parall`les e Besoins en puissance de calcul grandissant pour dirents domaines, tels que physique, e astronomie, biologie, prvisions mtorologiques e ee Division des calculs pour gagner en temps dexcution e Le standard MPI MPI (Message Passing Interface) est un standard pour programmer une application parall`le : e il fonctionne par passage de messages il en existe plusieurs implmentations e il sappuie sur les protocoles de transport existants il propose des fonctions point ` point et collectives a
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Contexte
Les applications parall`les e Besoins en puissance de calcul grandissant pour dirents domaines, tels que physique, e astronomie, biologie, prvisions mtorologiques e ee Division des calculs pour gagner en temps dexcution e Le standard MPI MPI (Message Passing Interface) est un standard pour programmer une application parall`le : e il fonctionne par passage de messages il en existe plusieurs implmentations e il sappuie sur les protocoles de transport existants il propose des fonctions point ` point et collectives a
Application MPI
Implementation MPI
Protocole de transport
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Contexte
Les applications parall`les e Besoins en puissance de calcul grandissant pour dirents domaines, tels que physique, e astronomie, biologie, prvisions mtorologiques e ee Division des calculs pour gagner en temps dexcution e Le standard MPI MPI (Message Passing Interface) est un standard pour programmer une application parall`le : e il fonctionne par passage de messages il en existe plusieurs implmentations e il sappuie sur les protocoles de transport existants il propose des fonctions point ` point et collectives a
Application MPI
Implementation MPI
UDP
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Contexte
Les applications parall`les e Besoins en puissance de calcul grandissant pour dirents domaines, tels que physique, e astronomie, biologie, prvisions mtorologiques e ee Division des calculs pour gagner en temps dexcution e Le standard MPI MPI (Message Passing Interface) est un standard pour programmer une application parall`le : e il fonctionne par passage de messages il en existe plusieurs implmentations e il sappuie sur les protocoles de transport existants il propose des fonctions point ` point et collectives a
Application MPI API MPI Op. Collectives e Fonc. p.-a-point
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Les grilles
Application A
Notre dnition : Les grilles sont une aggrgation de grappes ou de grappes de grappes, e e gographiquement loignes et interconnectes par un rseau longue distance. Ce dernier est e e e e e constitu dun WAN (Wide Area Network) par opposition au LAN (Local Area Network). e
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Les grilles
Application A
Grappe 1
Notre dnition : Les grilles sont une aggrgation de grappes ou de grappes de grappes, e e gographiquement loignes et interconnectes par un rseau longue distance. Ce dernier est e e e e e constitu dun WAN (Wide Area Network) par opposition au LAN (Local Area Network). e
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Reseau Ethernet
Reseau Myrinet
Contexte
Problmatique e
MPI5000
Conclusion
Les grilles
Grappe 1
Reseau Infiniband
Grappe 2
Reseau Ethernet
Reseau Ethernet
Reseau Myrinet
Site A
Notre dnition : Les grilles sont une aggrgation de grappes ou de grappes de grappes, e e gographiquement loignes et interconnectes par un rseau longue distance. Ce dernier est e e e e e constitu dun WAN (Wide Area Network) par opposition au LAN (Local Area Network). e
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Les grilles
Reseau Ethernet
Reseau Myrinet
Grappe 1
WAN
Reseau Infiniband
Grappe 2
Reseau Ethernet
Reseau Ethernet
Site A
Site B
Grappe 3
Notre dnition : Les grilles sont une aggrgation de grappes ou de grappes de grappes, e e gographiquement loignes et interconnectes par un rseau longue distance. Ce dernier est e e e e e constitu dun WAN (Wide Area Network) par opposition au LAN (Local Area Network). e
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Les grilles
Reseau Ethernet
Reseau Myrinet
Application A
Application A
Reseau Ethernet
Grappe 1
WAN
Reseau Infiniband
Application A
Reseau Ethernet
Application A
Grappe 2
Site A
Site B
Grappe 3
Notre dnition : Les grilles sont une aggrgation de grappes ou de grappes de grappes, e e gographiquement loignes et interconnectes par un rseau longue distance. Ce dernier est e e e e e constitu dun WAN (Wide Area Network) par opposition au LAN (Local Area Network). e
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Les grilles
Reseau Ethernet
Reseau Myrinet
Application A
Application A
Reseau Ethernet
Grappe 1
WAN
Reseau Infiniband
Application A
Reseau Ethernet
Application A
Grappe 2
Site A
Site B
Grappe 3
Notre dnition : Les grilles sont une aggrgation de grappes ou de grappes de grappes, e e gographiquement loignes et interconnectes par un rseau longue distance. Ce dernier est e e e e e constitu dun WAN (Wide Area Network) par opposition au LAN (Local Area Network). e
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Plan
Contexte Problmatique e Analyse des communications longue distance des applications MPI Interaction entre TCP et les applications MPI MPI5000 : Eclatement des connexions TCP pour les applications MPI Conclusion
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Spcicits de la grille e e
La grille soul`ve de nouveaux probl`mes lis ` ses spcicits : e e e a e e htrognit des machines : probl`me rsolu par un placement appropri des processus MPI ee e e e e e e htrognit des rseaux rapides des clusters : probl`me rsolu en utilisant une ee e e e e e e implmentation capable communiquer sur des rseaux dirents e e e latence plus grande sur le WAN que sur le LAN goulot dtranglement du WAN : bande passante du WAN infrieure ` la la somme des noeuds e e a qui peuvent communiquer dessus partage des ressources, notamment des ressources rseau e
Reseau Ethernet
Reseau Myrinet
Grappe 1
WAN
Reseau Infiniband
Grappe 2
Reseau Ethernet
Site A
Site B
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Reseau Ethernet
Contexte
Problmatique e
MPI5000
Conclusion
Spcicits de la grille e e
La grille soul`ve de nouveaux probl`mes lis ` ses spcicits : e e e a e e htrognit des machines : probl`me rsolu par un placement appropri des processus MPI ee e e e e e e htrognit des rseaux rapides des clusters : probl`me rsolu en utilisant une ee e e e e e e implmentation capable communiquer sur des rseaux dirents e e e latence plus grande sur le WAN que sur le LAN goulot dtranglement du WAN : bande passante du WAN infrieure ` la la somme des noeuds e e a qui peuvent communiquer dessus partage des ressources, notamment des ressources rseau e
Reseau Ethernet
Reseau Myrinet
Grappe 1
WAN
Reseau Infiniband
Grappe 2
Reseau Ethernet
Site A
Site B
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Reseau Ethernet
Contexte
Problmatique e
MPI5000
Conclusion
Spcicits de la grille e e
La grille soul`ve de nouveaux probl`mes lis ` ses spcicits : e e e a e e htrognit des machines : probl`me rsolu par un placement appropri des processus MPI ee e e e e e e htrognit des rseaux rapides des clusters : probl`me rsolu en utilisant une ee e e e e e e implmentation capable communiquer sur des rseaux dirents e e e latence plus grande sur le WAN que sur le LAN goulot dtranglement du WAN : bande passante du WAN infrieure ` la la somme des noeuds e e a qui peuvent communiquer dessus partage des ressources, notamment des ressources rseau e
Grappe 1
WAN
Latence 10 ms Reseau Infiniband Reseau Ethernet Latence 50 us
Grappe 2
Latence 1 us
Site A
Site B
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Spcicits de la grille e e
La grille soul`ve de nouveaux probl`mes lis ` ses spcicits : e e e a e e htrognit des machines : probl`me rsolu par un placement appropri des processus MPI ee e e e e e e htrognit des rseaux rapides des clusters : probl`me rsolu en utilisant une ee e e e e e e implmentation capable communiquer sur des rseaux dirents e e e latence plus grande sur le WAN que sur le LAN goulot dtranglement du WAN : bande passante du WAN infrieure ` la la somme des noeuds e e a qui peuvent communiquer dessus partage des ressources, notamment des ressources rseau e
Reseau Ethernet
Reseau Myrinet
Application A
Application A Application A
Reseau Ethernet
Grappe 1
WAN
Reseau Infiniband
Grappe 2
Reseau Ethernet
Site A
Site B
Grappe 3
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Spcicits de la grille e e
La grille soul`ve de nouveaux probl`mes lis ` ses spcicits : e e e a e e htrognit des machines : probl`me rsolu par un placement appropri des processus MPI ee e e e e e e htrognit des rseaux rapides des clusters : probl`me rsolu en utilisant une ee e e e e e e implmentation capable communiquer sur des rseaux dirents e e e latence plus grande sur le WAN que sur le LAN goulot dtranglement du WAN : bande passante du WAN infrieure ` la la somme des noeuds e e a qui peuvent communiquer dessus partage des ressources, notamment des ressources rseau e
Reseau Ethernet
Reseau Myrinet
Application A
Application A Application A
Reseau Ethernet
Grappe 1
WAN
Reseau Infiniband
Application B
Reseau Ethernet
Application B
Grappe 2
Site A
Site B
Grappe 3
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Spcicits de la grille e e
La grille soul`ve de nouveaux probl`mes lis ` ses spcicits : e e e a e e htrognit des machines : probl`me rsolu par un placement appropri des processus MPI ee e e e e e e htrognit des rseaux rapides des clusters : probl`me rsolu en utilisant une ee e e e e e e implmentation capable communiquer sur des rseaux dirents e e e latence plus grande sur le WAN que sur le LAN goulot dtranglement du WAN : bande passante du WAN infrieure ` la la somme des noeuds e e a qui peuvent communiquer dessus partage des ressources, notamment des ressources rseau e
Reseau Ethernet
Reseau Myrinet
Grappe 1
WAN
Reseau Infiniband
Grappe 2
Reseau Ethernet
Site A
Site B
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Reseau Ethernet
Contexte
Problmatique e
MPI5000
Conclusion
Problmatiques e
Contraintes Transparence vis ` vis de lutilisateur : on garde intacte lapplication MPI a Transparence par rapport ` limplmentation MPI a e TCP est le protocole utilis pour les communications sur le rseau longue distance des grilles e e Comment excuter au mieux des applications MPI sur une grille de calcul dont le protocole de e transport sur le rseau longue distance est TCP, en optimisant linteraction entre ces deux couches ? e Sous-questions Comment se comportent les applications MPI sur un rseau longue distance ? e
Etude des caractristiques des communications : taille, frquence, synchronisme e e Etude des points probl`matiques de la grille mentionns prcdemment e e e e
Quels param`tres de TCP limitent les communications des applications MPI dans un rseau e e longue distance ?
Etude du contrle de congestion et du contrle de abilit o o e
Comment rduire limpact de TCP sur les communications MPI longue distance ? e
Direntiation des communications (locales ou longue-distance) e Adaptation des communications pour rendre le protocole de transport plus ractif e
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Problmatiques e
Contraintes Transparence vis ` vis de lutilisateur : on garde intacte lapplication MPI a Transparence par rapport ` limplmentation MPI a e TCP est le protocole utilis pour les communications sur le rseau longue distance des grilles e e Comment excuter au mieux des applications MPI sur une grille de calcul dont le protocole de e transport sur le rseau longue distance est TCP, en optimisant linteraction entre ces deux couches ? e Sous-questions Comment se comportent les applications MPI sur un rseau longue distance ? e
Etude des caractristiques des communications : taille, frquence, synchronisme e e Etude des points probl`matiques de la grille mentionns prcdemment e e e e
Quels param`tres de TCP limitent les communications des applications MPI dans un rseau e e longue distance ?
Etude du contrle de congestion et du contrle de abilit o o e
Comment rduire limpact de TCP sur les communications MPI longue distance ? e
Direntiation des communications (locales ou longue-distance) e Adaptation des communications pour rendre le protocole de transport plus ractif e
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Problmatiques e
Contraintes Transparence vis ` vis de lutilisateur : on garde intacte lapplication MPI a Transparence par rapport ` limplmentation MPI a e TCP est le protocole utilis pour les communications sur le rseau longue distance des grilles e e Comment excuter au mieux des applications MPI sur une grille de calcul dont le protocole de e transport sur le rseau longue distance est TCP, en optimisant linteraction entre ces deux couches ? e Sous-questions Comment se comportent les applications MPI sur un rseau longue distance ? e
Etude des caractristiques des communications : taille, frquence, synchronisme e e Etude des points probl`matiques de la grille mentionns prcdemment e e e e
Quels param`tres de TCP limitent les communications des applications MPI dans un rseau e e longue distance ?
Etude du contrle de congestion et du contrle de abilit o o e
Comment rduire limpact de TCP sur les communications MPI longue distance ? e
Direntiation des communications (locales ou longue-distance) e Adaptation des communications pour rendre le protocole de transport plus ractif e
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Gestion de lhtrognit e e e e e PACX-MPI MagPIe MPICH-GQ MPICH2 MPICH-VMI MetaMPICH MPICH-G2 MPICH-Madeleine X
Optimisation des comm. longue distance Oprations coll. e Optimisation TCP X X Limitation de dbit e X Flux parall`les pour e les gros messages sur le WAN Diminution du RTO, limitation de dbit, e pacing au dmarrage, e chgt. fentre cong., e
X X X X
GridMPI OpenMPI
X X
X ?
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Gestion de lhtrognit e e e e e PACX-MPI MagPIe MPICH-GQ MPICH2 MPICH-VMI MetaMPICH MPICH-G2 MPICH-Madeleine X
Optimisation des comm. longue distance Oprations coll. e Optimisation TCP X X Limitation de dbit e X Flux parall`les pour e les gros messages sur le WAN Diminution du RTO, limitation de dbit, e pacing au dmarrage, e chgt. fentre cong., e
X X X X
GridMPI OpenMPI
X X
X ?
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Gestion de lhtrognit e e e e e PACX-MPI MagPIe MPICH-GQ MPICH2 MPICH-VMI MetaMPICH MPICH-G2 MPICH-Madeleine X
Optimisation des comm. longue distance Oprations coll. e Optimisation TCP X X Limitation de dbit e X Flux parall`les pour e les gros messages sur le WAN Diminution du RTO, limitation de dbit, e pacing au dmarrage, e chgt. fentre cong., e
X X X X
GridMPI OpenMPI
X X
X ?
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Gestion de lhtrognit e e e e e PACX-MPI MagPIe MPICH-GQ MPICH2 MPICH-VMI MetaMPICH MPICH-G2 MPICH-Madeleine X
Optimisation des comm. longue distance Oprations coll. e Optimisation TCP X X Limitation de dbit e X Flux parall`les pour e les gros messages sur le WAN Diminution du RTO, limitation de dbit e pacing au dmarrage, e chgt. fentre cong. e
X X X X
GridMPI OpenMPI
X X
X ?
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Plan
Contexte Problmatique e Analyse des communications longue distance des applications MPI Instrumentation des applications MPI et de TCP Analyse des Nas Parallel Benchmark Interaction entre TCP et les applications MPI MPI5000 : Eclatement des connexions TCP pour les applications MPI Conclusion
10
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Pourquoi instrumenter ? Analyse des pertes de performances des applications lors du passage sur la grille Deux couches accessibles TCP et MPI : analyse des communications longue distance au niveau de ces deux couches InstrAppli Date syst`me des vnements e e e Surcharge des fonctions de lAPI socket Source et destination des donnes e Fonction appele et param`tres de e e celle-ci tcp probe modi e Date syst`me des vnements e e e Espace libre dans les tampons dmission de TCP e
11
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Pourquoi instrumenter ? Analyse des pertes de performances des applications lors du passage sur la grille Deux couches accessibles TCP et MPI : analyse des communications longue distance au niveau de ces deux couches InstrAppli Date syst`me des vnements e e e Surcharge des fonctions de lAPI socket Source et destination des donnes e Fonction appele et param`tres de e e celle-ci tcp probe modi e Date syst`me des vnements e e e Espace libre dans les tampons dmission de TCP e
11
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Pourquoi instrumenter ? Analyse des pertes de performances des applications lors du passage sur la grille Deux couches accessibles TCP et MPI : analyse des communications longue distance au niveau de ces deux couches InstrAppli Date syst`me des vnements e e e Surcharge des fonctions de lAPI socket Source et destination des donnes e Fonction appele et param`tres de e e celle-ci tcp probe modi e Date syst`me des vnements e e e Espace libre dans les tampons dmission de TCP e
11
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Pourquoi instrumenter ? Analyse des pertes de performances des applications lors du passage sur la grille Deux couches accessibles TCP et MPI : analyse des communications longue distance au niveau de ces deux couches InstrAppli Date syst`me des vnements e e e Surcharge des fonctions de lAPI socket Source et destination des donnes e Fonction appele et param`tres de e e celle-ci tcp probe modi e Date syst`me des vnements e e e Espace libre dans les tampons dmission de TCP e
11
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Sophia
Exprience type e Rservation de noeuds e Dploiement dun environnement e Paramtrage des noeuds e Lancement de lexprience e Rcupration et regroupement des rsultats e e e 12
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Banc dessai
2 sites connects au WAN ` 1 Gb/s e a 1, 2 ou 8 noeuds par site selon les expriences e
Grappe du site S1
N1.1 N1.2 N1.3
Grappe du site S2
N2.1 N2.2
1 Gbit/s
1 Gbit/s
N2.3
1 Gbit/s
N1.n G1
1 Gbit/s
N2.n G2
13
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Les NAS Parallel Benchmark [Bailey et al. 1994] Les NPB sont des applications reprsentatives des applications MPI : e
BT (Block Tridiagonal) CG (Conjugate Gradient) FT (Fast Fourier Transform) IS (Integer sort) LU (Lower-Upper symmetric Gauss-Seidel) MG (MultiGrid) SP (Scalar Pentadiagonal)
14
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
172.28.54.10->192.168.133.164 160000 140000 120000 100000 80000 60000 40000 20000 0 0 50 100 Temps (s)
Nancy's cluster
172.28.54.10 172.28.54.51 172.28.54.12 172.28.54.16 172.28.54.53 172.28.54.52 172.28.54.54 172.28.54.55
Taille du write
Taille (Octets)
150
200
250
46 Mio, 809 msg Mio, 809 msg 4645 Mio, 809 msg 123 Mio, 812 msg
46 Mio, 809 msg45 Mio, 809 msg 123 Mio, 812 msg 123 Mio, 812 msg
122 Mio, 809 msg123 122 Mio, 812 msg Mio, 812 msg 45 Mio, 809 msg
123 Mio, 809 msg Mio, 809 msg 123 45 Mio, 809 msg 809 msg 45 Mio,
123 Mio, 812 msg 123 Mio, 809 msg 123 Mio, 812 msg 45 45 Mio, 809 msg Mio, 809 msg 45 Mio, 808 msg
123 Mio,Mio, msg msg Mio, 812 msg 123 809 809 123
Bordeaux's cluster
192.168.133.164 192.168.133.170 192.168.133.177 192.168.133.173 192.168.133.115 192.168.133.117 192.168.133.161 192.168.133.122
15
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Classication des NPB Faible x > 1s FT, IS x < 1ko LU BT, SP, LU Qualit e Moyenne 0.1s < x < 1s BT, SP 1ko < x < 200ko BT, SP, CG, MG CG, MG Grande x < 0.1s CG, MG, LU 200ko < x FT, IS FT, IS
Frquence des comm. e Mtrique e Taille des comm. Synchronisme des comm.
16
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Classication des NPB Faible x > 1s FT, IS x < 1ko LU BT, SP, LU Qualit e Moyenne 0.1s < x < 1s BT, SP 1ko < x < 200ko BT, SP, CG, MG CG, MG Grande x < 0.1s CG, MG, LU 200ko < x FT, IS FT, IS
Frquence des comm. e Mtrique e Taille des comm. Synchronisme des comm.
16
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Classication des NPB Faible x > 1s FT, IS x < 1ko LU BT, SP, LU Qualit e Moyenne 0.1s < x < 1s BT, SP 1ko < x < 200ko BT, SP, CG, MG CG, MG Grande x < 0.1s CG, MG, LU 200ko < x FT, IS FT, IS
Frquence des comm. e Mtrique e Taille des comm. Synchronisme des comm.
16
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Classication des NPB Faible x > 1s FT, IS x < 1ko LU BT, SP, LU Qualit e Moyenne 0.1s < x < 1s BT, SP 1ko < x < 200ko BT, SP, CG, MG CG, MG Grande x < 0.1s CG, MG, LU 200ko < x FT, IS FT, IS
Frquence des comm. e Mtrique e Taille des comm. Synchronisme des comm.
16
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Classication des NPB Faible x > 1s FT, IS x < 1ko LU BT, SP, LU Qualit e Moyenne 0.1s < x < 1s BT, SP 1ko < x < 200ko BT, SP, CG, MG CG, MG Grande x < 0.1s CG, MG, LU 200ko < x FT, IS FT, IS
Frquence des comm. e Mtrique e Taille des comm. Synchronisme des comm.
16
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Classication des NPB Faible x > 1s FT, IS x < 1ko LU BT, SP, LU Qualit e Moyenne 0.1s < x < 1s BT, SP 1ko < x < 200ko BT, SP, CG, MG CG, MG Grande x < 0.1s CG, MG, LU 200ko < x FT, IS FT, IS
Frquence des comm. e Mtrique e Taille des comm. Synchronisme des comm.
16
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Plan
Contexte Problmatique e Analyse des communications longue distance des applications MPI Interaction entre TCP et les applications MPI TCP Suppression du dmarrage lent sur les applications MPI e Impact de la fentre de congestion e Impact du contrle de abilit o e MPI5000 : Eclatement des connexions TCP pour les applications MPI Conclusion
17
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
TCP
TCP (Transport Control Protocol) a t cr pour proposer un transfert able et ordonn de e e ee e donnes aux applications Internet. e 3 mcanismes principaux : e
Contrle de abilit : retransmission des donnes en cas de perte ou derreur o e e Contrle de ux : prvention de la perte de donnes si un rcepteur est trop lent o e e e Contrle de congestion : partage quitable de la bande passante et utilisation maximale des liens. o e
perte
slowstart Temps
18
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Application Implem. MPI TCP WAN / LAN TCP Implem. MPI Application
Tampon Reception
19
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Application Implem. MPI TCP WAN / LAN TCP Implem. MPI Application
Tampon Utilisateur
Tampon Emission
Tampon Reception
19
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Application Implem. MPI TCP WAN / LAN TCP Implem. MPI Application
Tampon Utilisateur
Tampon Emission
Tampon Reception
19
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Application Implem. MPI TCP WAN / LAN TCP Implem. MPI Application
Tampon Utilisateur
Tampon Emission
19
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
20
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
20
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
1.4
bt cg ft is lu mg sp
0.8
0.6
0.4
0.2
20
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
2e+06
1.5e+06
cwnd reno cwnd bic cwnd cubic cwnd highspeed cwnd htcp cwnd scalable cwnd illinois
Taille (octets)
1e+06
500000
21
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Le contrle de congestion limite lmission des donnes MPI (et ralentit lexcution dune o e e e application)
22
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
500 450 400 350 300 250 200 150 100 50 fichier bt ft Application lu
Temps dexecution
sp
Quelle variante choisir ? pour les applications MPI, Illinois semble la plus approprie dans nos tests e nombreux param`tres : latence, bande passante, taux de congestion, taux de multiplexage ... e 23 Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
500 450 400 350 300 250 200 150 100 50 fichier bt ft Application lu
Temps dexecution
sp
Quelle variante choisir ? pour les applications MPI, Illinois semble la plus approprie dans nos tests e nombreux param`tres : latence, bande passante, taux de congestion, taux de multiplexage ... e 23 Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Eectue les retransmissions des paquets perdus ou errons. e La dtection dune perte se fait : par la rception de ACK dupliqus ou lexpiration du dlai de e e e e retransmission. Impact dune perte sur le transfert dun chier
RTT
Temps
t0
tf
24
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Eectue les retransmissions des paquets perdus ou errons. e La dtection dune perte se fait : par la rception de ACK dupliqus ou lexpiration du dlai de e e e e retransmission. Impact dune perte sur le transfert dun chier
RTT
Temps
t0
RTT
tf
Temps
t0 tp
tf +
24
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Eectue les retransmissions des paquets perdus ou errons. e La dtection dune perte se fait : par la rception de ACK dupliqus ou lexpiration du dlai de e e e e retransmission. Impact dune perte sur le transfert dun chier
RTT
Temps
Temps
t0
RTT
tf
t0
RTT
tf
Temps
Temps
t0 tp
tf +
t0 tp
tf + delai
24
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Synth`se e
Le contrle de congestion et le contrle de abilit ralentissent les applications MPI o o e Ces deux mcanismes sont bass sur le RTT qui est tr`s grand compar au temps dmission e e e e e dun message MPI Certaines variantes de TCP permettent une amlioration sensible des performances. e La granularit de TCP nest pas assez ne pour les communications MPI e Comment rduire limpact de TCP sur les applications MPI ? e
25
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Synth`se e
Le contrle de congestion et le contrle de abilit ralentissent les applications MPI o o e Ces deux mcanismes sont bass sur le RTT qui est tr`s grand compar au temps dmission e e e e e dun message MPI Certaines variantes de TCP permettent une amlioration sensible des performances. e La granularit de TCP nest pas assez ne pour les communications MPI e Comment rduire limpact de TCP sur les applications MPI ? e
25
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Synth`se e
Le contrle de congestion et le contrle de abilit ralentissent les applications MPI o o e Ces deux mcanismes sont bass sur le RTT qui est tr`s grand compar au temps dmission e e e e e dun message MPI Certaines variantes de TCP permettent une amlioration sensible des performances. e La granularit de TCP nest pas assez ne pour les communications MPI e Comment rduire limpact de TCP sur les applications MPI ? e
25
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Plan
Contexte Problmatique e Analyse des communications longue distance des applications MPI Interaction entre TCP et les applications MPI MPI5000 : Eclatement des connexions TCP pour les applications MPI Conclusion
26
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
SplitTCP [Kopparty et al. , 02] cr dans le contexte des rseaux sans l ee e a pour but de direncier les liens traverss e e
Source Destination
Pour MPI, lclatement des connexions permet : e de rendre visible le rseau longue-distance e de proposer des optimisations au niveau des passerelles
27
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
SplitTCP [Kopparty et al. , 02] cr dans le contexte des rseaux sans l ee e a pour but de direncier les liens traverss e e
Source Proxy Proxy Destination
Pour MPI, lclatement des connexions permet : e de rendre visible le rseau longue-distance e de proposer des optimisations au niveau des passerelles
27
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Pour MPI, lclatement des connexions permet : e de rendre visible le rseau longue-distance e de proposer des optimisations au niveau des passerelles
N1.1 N2.1 P1.1.0 P1.1.1 P2.1.0 N1.2 P1.2.0 N2.2 P2.2.0
27
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Pour MPI, lclatement des connexions permet : e de rendre visible le rseau longue-distance e de proposer des optimisations au niveau des passerelles
N1.1 N2.1 P1.1.0 P1.1.1
WAN
N1.2 P1.2.0
27
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Pour MPI, lclatement des connexions permet : e de rendre visible le rseau longue-distance e de proposer des optimisations au niveau des passerelles
N1.1 N2.1 P1.1.0 P1.1.1
WAN
N1.2 P1.2.0
G1
27
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Avantages : Diminution du nombre de connexions et donc de la quantit de mmoire utilise e e e Diminution des pertes longue distance Fentre de congestion plus proche de la capacit relle du lien longue distance e e e Dtection de pertes plus rapide e Inconvnient : e Cot de recopie au niveau des passerelles u Optimisation possibles grce ` lutilisation de passerelles a a Utilisation dune variante de TCP dirente sur le WAN et sur le LAN (par exemple Reno sur e le LAN and HighSpeed TCP sur le WAN) Rservation de bande passante entre les passerelles pour limiter la congestion e Utilisation de direntes stratgies en fonction de la taille des messages e e
28
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
MPI
librarie MPI5000
passerelle MPI5000
passerelle MPI5000
MPI
librarie MPI5000
TCP IP L1/L2
N1.1
WAN
Trois lments dans MPI5000 : ee Librairie : permet linterception des appels aux fonctions de lAPI socket pour rediriger les connections vers la passerelle du site. Cette librairie est lance de mani`re transparente. e e Passerelles : retransmettent les donnes vers une autre passerelle ou vers les noeuds locaux. e
29
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
12500
12000
11500 600 Latence MPI (us) 11000 Debit (Mbit/s) 2048 4096 8192 16384 32768 Taille (octets) 65536 131072 262144 500 400 300 10000 200 9500 100 0 65536 262144 1.04858e+06 Taille (octets) 4.1943e+06 1.67772e+07
10500
9000 1024
30
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
2.5
1.5
0.5
0 BT CG FT IS LU MG SP
31
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
2.5
1.5
0.5
NPB BT CG LU MG SP
BT CG LU MG SP
MPICH2 sans MPI5000 Distant DupAck RTOs 757 56 78 25 327 232 94 53 1409 778
MPICH2 avec MPI5000 Local Distant DupAck RTOs DupAck RTOs 4 1 320 1 0 0 54 19 0 0 174 41 7 0 48 4 8 0 667 131
Diminution du nombre des pertes sur le longue distance pour tous les NPB Diminution faible pour CG et MG : MPI5000 namliore pas le temps dexecution e Diminution signicative pour BT, LU et SP : MPI5000 amliore le temps dexcution e e
32
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
2.5
1.5
0.5
NPB BT CG LU MG SP
BT CG LU MG SP
MPICH2 sans MPI5000 Distant DupAck RTOs 757 56 78 25 327 232 94 53 1409 778
MPICH2 avec MPI5000 Local Distant DupAck RTOs DupAck RTOs 4 1 320 1 0 0 54 19 0 0 174 41 7 0 48 4 8 0 667 131
Diminution du nombre des pertes sur le longue distance pour tous les NPB Diminution faible pour CG et MG : MPI5000 namliore pas le temps dexecution e Diminution signicative pour BT, LU et SP : MPI5000 amliore le temps dexcution e e
32
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
2.5
1.5
0.5
NPB BT CG LU MG SP
BT CG LU MG SP
MPICH2 sans MPI5000 Distant DupAck RTOs 757 56 78 25 327 232 94 53 1409 778
MPICH2 avec MPI5000 Local Distant DupAck RTOs DupAck RTOs 4 1 320 1 0 0 54 19 0 0 174 41 7 0 48 4 8 0 667 131
Diminution du nombre des pertes sur le longue distance pour tous les NPB Diminution faible pour CG et MG : MPI5000 namliore pas le temps dexecution e Diminution signicative pour BT, LU et SP : MPI5000 amliore le temps dexcution e e
32
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Plan
Contexte Problmatique e Analyse des communications longue distance des applications MPI Interaction entre TCP et les applications MPI MPI5000 : Eclatement des connexions TCP pour les applications MPI Conclusion
33
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Conclusion
le RTT nest pas une granularit assez ne par rapport au temps dmission dun message e e MPI Proposition dclater les connexions TCP pour les applications MPI : implmentation et e e valuation dune architecture ` base de passerelles. e a
Passerelles coteuses sur les gros messages u Diminution du temps dexcution de BT et SP de lordre de 30% e Validation de lapproche : rduction des pertes longue-distance e
34
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Perspectives
Optimisation des passerelles Limitation de dbit sur le rseau longue distance e e Mod`lisation des communications MPI sur TCP : modlisation de la fentre de congestion e e e Adaptation du protocole de transport : trouver une taille de fentre de congestion plus e approprie pour des messages de type MPI e
35
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Questions
36
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Tampon utilisateur Tampon reception File de reception carte Noeud local Tampon emission File demission carte Passerelle distante
37
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e
Contexte
Problmatique e
MPI5000
Conclusion
Banc dessai
Grappe du site S1
N1.1 N1.2 N1.3
Grappe du site S2
N2.1 N2.2
1 Gbit/s
1 Gbit/s
N2.3
1 Gbit/s
N1.n G1
1 Gbit/s
N2.n G2
38
Rseau longue distance et application distribue dans les grilles de calcul : tude et propositions pour une interaction ecace e e e