AMD MI300X vs. Nvidia H100 – lasst die GPU Spiele beginnen!

30. Juni 2023

AMD MI100x vs Nvidia H100 KI-Beschleuniger

Nach dem Plus von 170 Prozent in diesem Jahr stellen sich immer Anleger die Frage, warum der Kapitalmarkt Nvidia eine derart astronomische Bewertung zubilligt. Zum Abschluss unserer Halbleiter-Serie gehen wir auf die Treiber der großen Gewinner der AI-Euphorie ein: die KI-Beschleuniger.

Mein Kollege Stefan Hartmann hat im Kontext des AI-Booms eine sehr lesenswerte Artikelserie zur Halbleiterindustrie verfasst. Letzte Woche ging er auf den Wettbewerb zwischen Nvidia und AMD ein und darauf, wie der Kapitalmarkt beide Unternehmen bewertet. Ich möchte heute auf die Produkte eingehen, die heute schon die großen Gewinner der AI-Euphorie sind und die erklären, warum Anleger bereit sind, Nvidia ein Kurs-Umsatz-Verhältnis von 40 zuzugestehen. Es geht um KI-Beschleuniger für Rechenzentren.

Wie groß ist der KI-Beschleuniger-Markt?

Auf der „AMD Data Center & AI Technology Premiere“ hat AMD CEO Lisa Su dargestellt, wie groß der Markt für Rechenzentren aktuell ist und wie stark er wächst. Auf 30 Milliarden Dollar schätzt Lisa Su den Markt für 2023. In den nächsten vier Jahren soll er um durchschnittlich 50 (!) Prozent pro Jahr auf sagenhafte 150 Milliarden Dollar wachsen.

Nvidia hat überraschend gute Zahlen für das abgelaufenen Quartal und eine schockierend gute Guidance (64 Prozent Umsatzwachstum YoY im laufenden Quartal) bekannt gegeben. Sie resultieren  hauptsächlich aus dem Segment „Data Center“, das von GPU-Beschleunigern wie H100 und A100 dominiert wird. Data Center macht jetzt 60 Prozent der Umsätze von Nvidia aus. In den nächsten Quartalen wird die Dominanz dieses Segments derart zunehmen, dass Nvidia vermutlich schon bald nur noch dezidiert Zahlen für Data Center und Gaming veröffentlichen wird, da die drei anderen Säulen (Auto, Professional Visualisation und OEM) bereits jetzt schon zusammen weniger als 10 Prozent der Umsätze generieren.

Wer dominiert den Markt für KI-Beschleuniger?

KI-Beschleuniger sind spezielle Chips und Hardwarekomponenten, die in der Cloud, auf Servern oder direkt in den Endgeräten die Lösung von anspruchsvollen Rechenaufgaben beschleunigen. Zu Anbietern gehören Nvidia, AMD, Intel, Apple und zahlreiche andere. Die mit Abstand bedeutendste Anwendung für KI-Beschleuniger findet in der Cloud statt. Hier werden KI-Beschleuniger für das Training von neuronalen Netzen und Large Language Modellen genutzt, und sie sind auch für die Nutzung der Modelle, für das sogenannte Inferencing (Schlussfolgern), von herausragender Bedeutung. Der von AMD geschätzte TAM von 30 Milliarden Dollar für das Jahr 2023 entspricht etwa dem Umsatz von Nvidia im Segment Data Center. Aktuell können wir also von einer Alleinherrschaft Nvidias reden. Raymond James Analyst Srini Pajjuri beschreibt es treffend: „There’s an AI war, and Nvidia is the only arms dealer.” Daher kann Nvidia auch Preise durchsetzen, die dem fünffachen der Produktionskosten entsprechen. Die In-House-Chips von Alphabet, Amazon, Microsoft sind nach Meinung vieler Experten hoffnungslos unterlegen. Die hochgelobte Lösung von Cerebras Systems lässt sich nur auf deren Cloud nutzen. Intel ist komplett abgeschlagen. Die GPU-only-Lösung, die Falcon Shores GPU, soll frühestens 2025 kommen. Der einzige ernstzunehmende Konkurrent ist daher AMD. Doch hat AMD wirklich eine Chance, in diesen Markt einzudringen?

AMD MI300X vs Nvidia H100

Für AMD spricht, dass keiner eine Alleinherrschaft von Nvidia will, nicht die Cloud Giganten, nicht die Unternehmenswelt und auch nicht die globale Entwicklergemeinde. Hugging Face CEO Clement Delangue hat auf einer Konferenz dargelegt, warum sie so eng mit AMD zusammenarbeiten und den Erfolg von AMD wollen: „It’s important that hardware doesn’t become the bottleneck or gatekeeper for AI. We are trying to extend the range of options for AI builders. For training and inference.”

Kann AMD technologisch mithalten? Auf der „AMD Data Center & Technology Premiere“ wurden die nächste Generation der CPU und die erste GPU-only-Lösung vorgestellt. AMD rüstet heute schon zahlreiche Supercomputer mit Prozessoren aus. Der neue MI300A soll 8-mal performanter und 5-mal effizienter sein als das Vorgängermodell MI250X-Beschleuniger. Den MI300 gibt unter dem Namen MI300X auch als GPU-only-Lösung. Diese beeindruckt mit 192 GByte HBM3-Stapelspeicher, 153 Milliarden Transistoren und mit einer Rechengeschwindigkeit von 5,2 TBytes/s. Den MI300X gibt es als singulären Beschleuniger und auch als Plattform-Lösung mit acht GPUs unter dem Namen AMD Instinct Platform. Dafür nutzt AMD die eigene Infinity Architecture Platform und das eigene Softwarestack ROCm. Der Einführung ist ab September 2023 geplant, erst ab Dezember werden aber größere Volumen lieferbar sein.

AMD MI300x vs. Nvidia H100
AMD MI300x vs. Nvidia H100

Sehen die KPIs für AMD im direkten Vergleich mit Nvidia auf dem Papier beeindruckend aus, so gibt Chip-Veteran Karl Freund zu bedenken,  dass die NVDIA-Lösungen bereits voll im Einsatz sind, in ausreichender Menge von TSMC produziert und vom größten Ecosystem aus AI-Researchern unterstützt werden. Er glaubt auch, dass die Speicherkapazität von Nvidia-GPUs in nächsten Quartalen und sogar vor dem Launch von MI300X deutlich erhöht wird.  Wie leistungsfähig die GPUs von AMD wirklich sind, wird man sehen, wenn MI300X gelauncht ist und man die besten Lösungen der beiden Häuser gegeneinander testen kann. Den entscheidenden Nachteil von AMD sieht Freund bei einem Software-Thema, nämlich der Transformer-Engine: „The MI300 does not have a transformer engine like the H100, which can triple performance for the popular LLM AI models. If it takes thousands of GPUs a year to train a new model, I doubt that anyone will say its ok to wait 2-3 more years to get their model to market, or throw 3 times as many GPUs at the problem.“

Eine der größten Burgmauern um das Geschäftsmodell von Nvidia ist die Software und das Programmiermodell CUDA. Nun wollen AMD mit ROCm und OpenAI mit Triton als Programmiersprachen für Maschnelles Lernen das Monopol von Nvidia brechen. Der Fokus auf Open Source und Open AI könnte hier helfen.

In diesem Kontext ist auffallend, wie sehr Lisa Su bei Ankündigung von MI300X das Thema Inference statt Training und das Thema Kosten betonte: „With all of that extra capacity, we have an advantage for larger models because you can run larger models directly in memory. For the largest models, that reduces the number of GPUs you need, speeding up performance— especially for inference—and reducing total cost of ownership.”

Bisher gibt es von Wallstreet-Analysten wenig detailliertes Research zum Wettbewerb zwischen MI300X und H100. Zu einer Beurteilung der Technologie fühlen sich die meisten, so auch wir,  ohnehin nicht befähigt. Als ein Argument für AMD wird häufig der Preis genannt. Die Analysten von Mizuho behaupten sogar, dass der Preis von MI300 ca. 90 Prozent niedriger sein wird als für H100. Auch das werden wir frühestens im vierten Quartal erfahren. Über eine Sache sind sich allerdings die meisten Analyten einig. AMD wird im ersten Schritt Nvidia im Markt für Inferencing und nicht Training Konkurrenz machen. Allerdings sind sich Nvidia und AMD einig, dass langfristig die Anwendung der GPUs für Inferencing der größere Markt sein wird. Ein anderer Konsens, dem ich auch zustimme: AMD wird die Dominanz von Nvidia nicht brechen, die Monopolstellung aber mit sehr großer Wahrscheinlichkeit schon. Zu groß und zu bedeutsam ist der Markt und viel zu groß das Risiko für Unternehmen, Cloud Giganten und die Entwicklergemeinschaft sich in eine komplette Abhängigkeit eines Unternehmens zu begeben. AMD wird sich als zweite Wahl im spannendsten Wachstumsmarkt der Welt etablieren können. Das sollte für weitere Kursgewinne ausreichen.

Abonniere hier unseren kostenfreien Newsletter

Disclaimer

The Digital Leaders Fund und/oder der Autor und/oder verbundene Personen oder Unternehmen besitzen Anteile von AMD. Dieser Beitrag stellt eine Meinungsäußerung und keine Anlageberatung dar. Bitte beachte die rechtlichen Hinweise.

Autor

  • Baki Irmak

    Baki war viele Jahre in leitender Funktion für den Deutsche Bank Konzern und DWS tätig. Zuletzt u.a. als Global Head of Digital Business für die Deutsche Asset & Wealth Management und Mitglied im Digital Executive Commitee der Deutschen Bank. Seine berufliche Laufbahn hat er als Fondsmanager für Technologie, Telekommunikation und Medien bei BHF Trust begonnen. Danach war er Fondsmanager bei der Commerzbank und ABN Amro.

Picture of Baki Irmak

Baki Irmak

Baki war viele Jahre in leitender Funktion für den Deutsche Bank Konzern und DWS tätig. Zuletzt u.a. als Global Head of Digital Business für die Deutsche Asset & Wealth Management und Mitglied im Digital Executive Commitee der Deutschen Bank. Seine berufliche Laufbahn hat er als Fondsmanager für Technologie, Telekommunikation und Medien bei BHF Trust begonnen. Danach war er Fondsmanager bei der Commerzbank und ABN Amro.

Aktuelle Beiträge

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert

Neueste Beiträge

Tags

Neuste Kommentare

Twitter

Instagram