IBM

GPUs, FPGAs und The Machine: Infrastruktur für die Zeit nach Moore´s Law

Durch die Grenzen des physisch Machbaren ist das Ende von Moore´s Law eingeläutet. Die Zeit danach erfordert neue IT-Architekturen.

Intels zentrale Botschaft zur CES 2017 in Las Vegas lautete, dass das Moore´sche Gesetz noch immer gültig wäre, was auf die Veröffentlichung des ersten Intel-Chips in 10-Nanometer-Bauweise gegen Ende des Jahres andeuten sollte. Trotz dieser Werbebotschaft stehen IT-Abteilungen einer immer größeren Lücke zwischen vorhandener System-Performance und den enormen Anforderungen neuer Data-Center-Workloads gegenüber.

Das Ende für Moore´s Law ist schon des Öfteren verkündet worden, bisher hatten Intel und andere Chip-Hersteller aber immer einen Weg gefunden, Transistoren immer weiter zu schrumpfen, um so die Dichte auf den Chips doch alle zwei Jahre verdoppeln zu können, was letztlich immer auch zu einem deutlichen Leistungsschub führte.

Intel-CEO Brian Krzanich äußerte sich anlässlich der CES folgendermaßen zu Moore´s Law: „Ich arbeite seit 34 Jahren in dieser Industrie und Moore´s Law wurde in dieser Zeit öfter totgesagt, als alles andere. Ich glaube, Moore´s Law wird auch lange nach mir noch gültig sein.“

Die physischen Grenzen von Moore´s Law

Allerdings verringert sich in jedem Fall die Geschwindigkeit, mit der Moore´s Law voranschreitet, was zum Beispiel die lange Entwicklungszeit von Intels 7- und 5-Nanometer-Technologie verdeutlicht. Schon die Einführung von 10-Nanometer-Chips wurde bereits um ein Jahr verschoben, weil es offenbar Probleme mit dem Fertigungsprozess gibt. Diese Schwierigkeiten werden mit immer kleineren Fertigungsgrößen eher zunehmen, da hier ganz einfach die physischen Grenzen dessen erreicht werden, wie klein On-Chip-Schaltkreise gebaut werden können.

„Ich kann mir nicht vorstellen, dass Chips jenseits einer Fertigungsgröße von 5 Nanometer möglich sind, an diesem Punkt ist Moore´s Law dann am Ende, genauso wie die gesamte Silizium-Ära“, so Roy Illsley, Principal Analyst bei Ovum. Manche Branchenkenner gehen davon aus, dass dies bereits innerhalb der nächsten zehn Jahre passieren wird.

Was schließlich auf siliziumbasierte Chips folgen wird, beispielsweise optische oder Quantencomputer, weiß derzeit noch niemand. Trotzdem bedeutet dies nicht, dass die reine Rechenkraft nicht weiter ansteigen wird. Hardware und Software haben sich schließlich seit den Tagen von Single-Core-Chips und monolithischen Applikationen Hand in Hand zusammen weiterentwickelt.

„Die Art und Weise, in der Anwendungen geschrieben werden, hat sich verändert“, so Illsley weiter. „Heutzutage sind sie verteilt und damit besser skalierbar, damit ist Moore´s Law so oder so keine ausreichende Beschreibung mehr dafür, was ein Computer zu leisten im Stande ist.“

Tatsächlich traf die Chip-Industrie vor einiger Zeit schon einmal ein ähnlich großes Problem, als Intels Single-Core-Chips durch die immer weiter ansteigenden Taktzahlen bei etwa 4 GHz schlicht und einfach überhitzten. Damals bestand die Lösung darin, die höhere Prozessorleistung durch zusätzliche Transistoren zu erzielen und mehrere Prozessorkerne auf dem gleichen Chip zu verbauen. Ähnliche Architektursprünge dürften der Industrie auch zukünftig mehr Prozessorleistung sichern.

So einen Ansatz sieht man beispielsweise im wachsenden Interesse daran, konventionellen CPUs spezialisierte Prozessoren zur Verfügung zu stellen, die für manche Workloads wesentlich besser geeignet sind. Ein gutes Beispiel hierfür sind GPUs, die in der Vergangenheit lediglich zur Beschleunigung von 3D-Grafiken genutzt wurden, durch die hervorragende Bearbeitung paralleler Rechenaufgaben aber mittlerweile auch für HPC-Aufgaben (High-Performance Computing) eingesetzt werden.

2016 veröffentlichte NVIDIA den „AI Supercomputer“ DGX-1, der acht Tesla-GPUs mit 16 GB Speicher enthält und sich an Workloads rund um Deep Learning und Künstliche Intelligenz richtet. „Das NVIDIA-System erledigt, wofür früher ein ganzes Data Center an Servern nötig gewesen wäre, und das Ganze auch zu einem wettbewerbsfähigen Preis“, so Illsley.

Ein weiteres Beispiel wären FPGAs, Field Programmable Gate Arrays, die im Kern nichts anderes als Chips voll mit logischen Blöcken sind, die zur Erledigung bestimmter Aufgaben programmiert werden können. Damit wird ein Hardwareschaltkreis bereitgestellt, der diese Aufgaben wesentlich schneller erledigen kann als dies Software je könnte, der bei Bedarf aber trotzdem über Software reprogrammiert werden kann.

Ein großer Nutzer von FPGAs ist Microsoft, hier wird die Technologie in den Azure-Rechenzentren eingesetzt, um beispielsweise die Bing-Suche oder Software-defined Networking (SDN) zu beschleunigen. Intel arbeitet auch daran, FPGAs in Produkte seiner Xeon-Reihe zu integrieren, was die Verbreitung von FPGAs deutlich erhöhen würde. 2016 zeigte Intel bereits einen Xeon-Chip mit separatem FPGA, das eigentliche Ziel ist es aber, sowohl Prozessor als auch FPGA auf einen Chip zu bekommen.

Bis dahin vermarktet Intel für anspruchsvolle Workloads aber vor allem seine Xeon-Phi-Plattform statt GPU-Beschleunigung. Diese Server-Chips bieten eine große Anzahl an CPU-Kernen (im aktuellen Knights Landing Prozessor bis zu 72), die im Grunde x86-Kerne mit Erweiterungen für 512-Bit Vektor-Berechnungen sind, wodurch sie in vielen Punkten den gleichen Code ausführen können wie Standard-Prozessoren von Intel.

Ein Problem mit diesem Ansatz liegt allerdings darin, allen diesen Kernen Zugang zum Arbeitsspeicher zu gewähren. Intel adressiert dieses Problem, indem jedem Xeon-Phi-Chip nahe an den CPU-Kernen 16 GB an hochleistungsfähigem Arbeitsspeicher zur Verfügung gestellt werden.

HPEs The Machine

HPE geht mit The Machine einen anderen Weg. The Machine ist ein experimenteller Prototyp für HPEs zukünftige Rechenzentrumsarchitektur und nutzt Memory-Driven Computing, also einen enorm großen Arbeitsspeicher-Pool, den sich alle Prozessoren eines Systems teilen, wodurch auch große Datensätze im Arbeitsspeicher bearbeitet werden können.

Eine erste, wirklich funktionsfähige Version wurde auf der HPE Discover im Dezember 2016 vorgestellt und nutzte für jeden Prozessor acht direkt gesteuerte DIMM-Speicher als lokalen Speicher-Pool, während im Hintergrund ein weitaus größerer Pool aus Clustern von wiederum jeweils acht DIMM-Modulen zur Verfügung stand. Für die Demonstration wurde Standard-DRAM verwendet, HPEs eigentliches Ziel für The Machine ist aber die Nutzung eines globalen Pools an nicht-volatilem Speicher.

Tatsächlich übersieht der Fokus auf die Prozessorleistung den Fakt, dass Arbeitsspeicher und Storage die größte Performance-Bremse sind, da selbst Flash-basierter Speicher einige Millisekunden benötigt, um einen Datenblock zu lesen. In dieser Zeit könnte ein Prozessor Millionen Instruktionen ausführen. Damit liefert alles einen willkommenen Geschwindigkeitsvorteil, was die Memory- und Storage-Performance erhöhen kann. In dieser Richtung werden derzeit einige Technologien wie 3D XPoint von Intel und Micron oder IBMs Phase-Change Memory entwickelt, die alle höhere Geschwindigkeiten als Flash-Speicher versprechen. Die hohen Kosten dürften allerdings dafür sorgen, dass diese Technologien anfangs lediglich als Cache für größere Pools an langsameren Speicher zum Einsatz kommen.

Gleichzeitig werden neue I/O-Interfaces entwickelt, mit denen sich Daten schneller und einfacher zwischen Arbeitsspeicher und Prozessor bewegen lassen sollen. Ein Beispiel hierfür wäre NVIDIAs NVLink 2.0 oder der Gen-Z-Standard, der Hochgeschwindigkeitsverbindungen zwischen Arbeitsspeicher und neuen Technologien ermöglichen soll.

Spezifische Hardwarekonfigurationen im Kommen

Eine Sache, die Roy Illsley für die Zukunft erwartet, sind spezifisch für bestimmte Workloads angepasste und optimierte Hardwarekonfigurationen. Derzeit sind fast alle Computer General-Purpose-Designs, die unterschiedliche Aufgaben nur durch unterschiedliche Software adressieren. Manche Workloads könnten aber von einer auf die jeweilige Applikation angepasste Architektur profitieren, um die hierfür nötige Leistung zu erhalten. Vor allem wenn beispielsweise AI-Ansätze wie Deep Learning immer wichtiger werden.

Moore´s Law besteht seit 50 Jahren und wurde als Beobachtung und Vorhersage des exponentiellen Leistungswachstums von Transistoren in integrierten Schaltkreisen vom Intel-Gründer Gordon Moore aufgestellt. Auch wenn wir uns allmählich dem Punkt nähern, an dem das Moore´sche Gesetz zumindest für Silizium-Chips nicht mehr zu gelten scheint, wird die reine Rechenkraft mit alternativen Hardwarearchitekturen auch weiterhin ansteigen und so den Bedarf auf Anwendungsseite erfüllen.

Folgen Sie SearchDataCenter.de auch auf Twitter, Google+, Xing und Facebook!

Artikel wurde zuletzt im März 2017 aktualisiert

Pro+

Premium-Inhalte

Weitere Pro+ Premium-Inhalte und andere Mitglieder-Angebote, finden Sie hier.

Erfahren Sie mehr über x86-Rack-Server

Diskussion starten

Schicken Sie mir eine Nachricht bei Kommentaren anderer Mitglieder.

Mit dem Absenden dieser Daten erklären Sie sich bereit, E-Mails von TechTarget und seinen Partnern zu erhalten. Wenn Ihr Wohnsitz außerhalb der Vereinigten Staaten ist, geben Sie uns hiermit Ihre Erlaubnis, Ihre persönlichen Daten zu übertragen und in den Vereinigten Staaten zu verarbeiten. Datenschutz

Bitte erstellen Sie einen Usernamen, um einen Kommentar abzugeben.

- GOOGLE-ANZEIGEN

SearchSecurity.de

SearchStorage.de

SearchNetworking.de

SearchEnterpriseSoftware.de

Close