Mit dem Launch der aktuellen Grafikkarten-Generation "Ada Lovelace" hat Nvidia mit der RTX 4090 nicht nur die derzeit leistungsstärksten GPU auf den Markt gebracht, sondern auch bei den übrigen Features wie Hardware-Raytracing & Co. nachgeschärft. Wir haben uns die Funktionsweise DLSS 3.0 mal etwas genauer angeschaut – und in der Realität ausprobiert.
Warum “Deep Learning Super Sampling”?
Wichtigster Vorteil der aktuellen RTX-Grafikkarten ist dabei vor allem die dritte DLSS-Generation, die einen erheblichen Leistungssprung verspricht – oder eingesetzt werden kann, um die Leistungsaufnahme der Karte drastisch zu reduzieren, ohne dass man auf Performance verzichten muss. DLSS, kurz für "Deep Learning Super Sampling" ist eine Technologie, die Nvidia-Karten seit der RTX-20-Generation beherrschen. Vereinfacht gesagt, werden Mithilfe von Algorithmen, die durch eine Nvidia-KI kontinuierlich optimiert werden, in einer niedrigeren Auflösung gerenderte Einzelbilder hochskaliert und ausgeliefert. So muss die Grafikkarte etwa nur ein Bild in FullHD (1920x1080 Bildpunkte, 1080p) berechnen, kann dies aber ohne relevanten Qualitätsverlust in WQHD (2560x1440 Bildpunkte, 1440p) ausliefern.
Das ist wichtig, da die Berechnung hoher Auflösungen der größte Performancefresser ist. Kein Wunder: Bei FullHD und 60 FPS müssen rund 2 Millionen Pixel alle 16 Millisekunden ausgetauscht werden. Bei WQHD sind es schon rund 3,7 Millionen Pixel und unter 4K (3820 x 2160 Bildpunkte, 2160p) müssen sogar 8,3 Millionen Pixel in Sekundenbruchteilen auf den Bildschirm gezeichnet werden, um eine konstante Framerate bei stabilem "Framepacing", also mit einheitlichen Abständen zwischen den Bildern, zu erzeugen und Ruckeln oder das "Tearing" genannte Zerreißen des Bildes zu vermeiden.
Der Flaschenhals im System
Die benötigte Leistung frisst natürlich Leistungsreserven und Grafikspeicher, die ansonsten für Effekte wie Beleuchtung, Schatten, Texturen usw. reserviert sein könnten. Raytracing kostet ebenfalls wertvolle Rechenpower, sodass DLSS eine Möglichkeit darstellt, hohe Details oder Framerates im eSport-Bereich (144, 240, 360) zu genießen, ohne dabei auf Auflösungen jenseits von 1080p verzichten zu müssen. Gleichzeitig kann DLSS auch bei Karten der RTX-20- und RTX-30-Baureihen genutzt werden, um Leistungsaufnahme und damit Abwärme und Lautstärke zu verringern. Limitiert man ein Spiel über interne Einstellungen oder mit Tools wie MSI Afterburner bewusst auf 60 FPS, kann DLSS zur erheblichen Reduzierung der benötigten Wattzahl führen. In unseren Tests war die Reduzierung um ein Drittel keine Seltenheit.
DLSS 3.0 geht allerdings noch einen Schritt weiter: Die High-End Karten der neuen RTX-40-Reihe rufen nämlich dermaßen viel Leistung ab, dass selbst moderne CPUs an ihr Limit geraten. Das bedeutet, dass im System ein sogenanntes "Bottleneck" entsteht – ein Leistungs-Flaschenhals, bei dem ein Element des PCs die übrigen Bauteile in ihrer Leistung einbremst. CPU und GPU haben in den meisten Spielen einen wichtigen Anteil an der Frames-Generierung, sodass sie aufeinander abgestimmt sein müssen, um ihr volles Potential zu entfalten. Doch selbst moderne AMD- und Intel-CPUs können derzeit nicht mit einer RTX 4090 mithalten, zudem gibt es einige Spiele, die durch ihre Engine oder Optimierung eher CPU-abhängig sind. Dazu gehört etwa der
Microsoft Flight Simulator, dessen Physikberechnungen überwiegend auf der CPU stattfinden, aber auch
Warhammer 40.000 Darktide ist ein notorischer CPU-Fresser.
Ein Frame ist kein Frame
Dieses Bottleneck konnte eine Grafikkarte bisher nicht allein überwinden, da das Problem in der Systemzusammenstellung an sich lag. Die neue DLSS-Version 3.0 zielt auf genau dieses Problem und bietet mit "Frame Generation" eine zusätzliche Funktion in unterstützten Spielen an, die die Performance in genau diesen Spielen verbessert. Dabei wird nicht nur ein Bild in niedrigerer Auflösung erzeugt und hochskaliert, sondern auch der direkt darauf folgende Frame auf Basis der vorhandenen Bildinformationen interpoliert, in niedrigerer Auflösung generiert und mittels Super Resolution hochskaliert.
Der grundsätzliche Kern dieser Technologie ist dabei keine KI-Blackbox wie beim Super-Resolution-Part. Laut Nvidia kombiniert DLSS 3 sogenannte Bewegungsvektoren und den optischen Fluss des Bildes. Die Grafikkarte verfolgt dabei die Bewegung einzelner Pixel und erstellt ein optisches "Flow Field", welches zusammen mit den Bewegungsvektoren, Farbe und Tiefen-Informationen ein Bild erstellt, dass ausschließlich auf Seiten der Grafikkarte generiert wurde und nie die CPU "besucht" hat. Dabei kommt der sogenannte Optical Flow Accelerator der RTX-40-GPU zum Einsatz.
Daten, Daten, Daten
Nominell kann so auf dem Papier mit einer annähernden Verdopplung der Framerate gerechnet werden. Zum Test des Features haben wir auf unserem mit einer RTX 4090 und Intel i7 13700K ausgestatteten Test-PC,
powered by Mifcom, verschiedene Szenarien mit Warhammer 40.000 Darktide und dem Microsoft Flight Simulator durchgespielt. Über der Südspitze von Manhattan, einer performanceseitig sehr anspruchsvollen Passage, erzielten wir in einem Leichtflugzeug von Cubcrafter ohne aktiviertes DLSS Framerates zwischen 50 und 70 Bildern pro Sekunde. Diese ließen sich mit aktivierter Super Resolution und Frame Generation zuverlässig und ohne deutliche Qualitätseinbußen auf 110 bis 140 FPS verdoppeln.
In unserer "Ice Queen" schlägt ein heißes Herz. Die ASUS TUF Gaming RTX 4090 ist unsere DLSS 3.0 Teststation.
Ein ähnliches Bild zeigte sich bei Darktide: In unserem Testabschnitt lieferte das System ohne aktiviertes DLSS immerhin respektable 90 bis 100 FPS aus –Patches haben die in unserem Test angesprochenen Performance-Problem also weitestgehend behoben. Wird Frame Generation und DLSS aktiviert, springt die Bildrate problemlos auf extrem schnelle 180 bis 200 FPS – trotz aktiviertem Raytracing und maximaler Details. Auch hier sorgt die Technologie also für einen massiven Leistungssprung, ohne dabei spürbar an Qualität einzubüßen.
Latenz? Kein Thema!
Einen Nachteil hat diese Technologie allerdings: Die Frame-Generierung erzeugt eine Latenz, die ausgeglichen werden muss. Daher muss die "Reflex" genannte Latenz-Verringerung von Nvidia zwangsläufig ebenfalls aktiviert sein. Reflex löst dabei die Render-Warteschlange der CPU auf – eigentlich stellt diese der GPU nämlich eine Warteschlange aus Frames zusammen, die diese dann bearbeiten und ausliefern kann. So ist die CPU nie unbeschäftigt, damit es zu keiner Verzögerung im System kommt kann, was zu Rucklern führen könnte.
Reflex synchronisiert hingegen die GPU und CPU, sodass die GPU das Bild direkt dann bearbeiten kann, wenn die CPU die notwendigen Anfragen stellt. Somit wird die Latenz minimiert, wenn die Grafikkarte ein Zwischenbild berechnet, da in der Zwischenzeit keine Warteschlange entsteht und das folgende, CPU-beeinflusste Bild direkt im Anschluss erstellt werden kann. Laut Nvidia kann auf diese Weise die Latenz trotz Frame Generation in einigen Fällen sogar noch reduziert werden.