Untersuchung von asynchroner kollektiver Kommunikation in speichergekoppelten Hochgeschwindigkeitsnetzen

This page in english

Am Lehrstuhl für Betriebssysteme (Univ.-Prof. Dr. habil. Th. Bemmerl) wurde die folgende Diplomarbeit vergeben:

Untersuchung von asynchroner kollektiver Kommunikation in speichergekoppelten Hochgeschwindigkeitsnetzen

Hintergrund

Rechenintensive Anwendungen werden gewöhnlich auf Parallelrechnern ausgeführt, z.B. Clustern (Verbundsystemen) aus PCs oder Servern, die über ein lokales Hochgeschwindigkeitsnetz miteinander verbunden sind. Eine weitverbreitete Schnittstelle zur Parallelisierung solcher Anwendungen ist das Message Passing Interface (MPI), das auf dem Paradigma des Nachrichtenaustauschs basiert. Der grundlegende Kommunikationsmechanismus zwischen den Prozessen, aus denen eine parallele MPI-Applikation besteht, ist der Punkt-zu-Punkt-Datenaustausch, d.h. zwei Prozesse tauschen miteinander Daten aus. Die MPI-Funktionen zum Datenaustausch zwischen 2 Prozessen gibt es dabei auch in asynchronen (nicht-blockierenden) Varianten, bei denen die Operation jeweils angestoßen wird und dann vom Laufzeitsystem im Hintergrund durchgeführt werden kann. MPI bietet auch sog. kollektive Operationen an. Bei einer kollektiven Operation wird ein bestimmtes Kommunikationsschema innerhalb einer Gruppe von Prozessen realisiert. Die kollektiven Operationen von MPI sind alle synchron, obwohl immer wieder von verschiedenen Seiten die Aufnahme auch asynchroner kollektiver Operationen in den MPI-Standard gefordert wird.

Speichergekoppelte Netze bilden eine besondere Klasse innerhalb der lokalen Netze: in ihnen kann ein Knoten direkt durch gewöhnliche Lese- und Schreiboperationen einer CPU auf den Hauptspeicher eines anderen Knotens zugreifen. Ein Beispiel eines solchen Netzwerktyps ist das Scalable Coherent Interface (SCI), ein anderes das bereits angekündigte, auf einer direkten Kopplung via PCI-Express basierende, Hochgeschwindigkeitsnetz von Dolphin Interconnect Solutions. Beide bieten geringere Latenzzeiten und höhere Bandbreiten als ein Standard-LAN. Der Lehrstuhl für Betriebssysteme verfügt derzeit über drei SCI-Cluster.

Aufgabenstellung

Anwendung und Weiterentwicklung von Ansätzen zur Implementation asynchroner kollektiver Operationen
Untersuchung der Unterschiede zwischen der Implementation synchroner und asynchroner kollektiver Operationen, die optimiert sind für SCI- und PCIe-basierte Netze
Implementierung der Ansätze für asynchrone kollektive Kommunikation innerhalb eines bereits bestehenden Rahmenwerks zur kollektiven Kommunikation auf SCI- und PCIe-basierten Netzen, insbesondere zur Unterstützung von MPI-Implementationen
Evaluation der Vorteilhaftigkeit der Einsatzes der implementierten Funktionen anhand geeigneter Benchmarks

Ziele

Hauptziel der Arbeit ist die Untersuchung der Vorteilhaftigkeit von asynchroner kollektiver Kommunikation auf speichergekoppelten Netzen. Dazu müssen effiziente Algorithmen implementiert und anhand geeigneter Benchmarks evaluiert werden. Weiterhin ist von Interesse, inwieweit sich die Implementation der asynchronen von jener der synchronen Algorithmen unterscheiden sollte, um die Asynchronität möglichst gut in Anwendungen nutzen zu können. Die Implementation ist im Rahmen einer bereits bestehenden Software durchzuführen. Die Arbeit baut auf bereits durchgeführter Forschung im Bereich SCI, Torus-Topologien und asynchroner kollektiver Kommunikation auf.

Weitere Informationen

Dolphin Interconnect Solutions

Kontakt

Dipl.-Inform. Boris Bierbaum
Lehrstuhl für Betriebssysteme (LfBS), RWTH Aachen
Kopernikusstraße 16, D-52056 Aachen
Tel.: +49-241-80-27805, Fax: +49-241-80-22339
E-Mail: boris@lfbs.rwth-aachen.de

Print Version