Nvidia GeForce RTX: DLSS 3.0: Lohnen sich Super Sampling und Frame Generation?

von Eike Cramer, 13.01.2023

DLSS 3.0: Lohnen sich Super Sampling und Frame Generation?

Nvidia GeForce RTX (Hardware) von Nvidia - Bildquelle: 4players - Alex Lvrs / Unsplash

Mit dem Launch der aktuellen Grafikkarten-Generation "Ada Lovelace" hat Nvidia mit der RTX 4090 nicht nur die derzeit leistungsstärksten GPU auf den Markt gebracht, sondern auch bei den übrigen Features wie Hardware-Raytracing & Co. nachgeschärft. Wir haben uns die Funktionsweise DLSS 3.0 mal etwas genauer angeschaut – und in der Realität ausprobiert.

Warum “Deep Learning Super Sampling”?

Wichtigster Vorteil der aktuellen RTX-Grafikkarten ist dabei vor allem die dritte DLSS-Generation, die einen erheblichen Leistungssprung verspricht – oder eingesetzt werden kann, um die Leistungsaufnahme der Karte drastisch zu reduzieren, ohne dass man auf Performance verzichten muss. DLSS, kurz für "Deep Learning Super Sampling" ist eine Technologie, die Nvidia-Karten seit der RTX-20-Generation beherrschen. Vereinfacht gesagt, werden Mithilfe von Algorithmen, die durch eine Nvidia-KI kontinuierlich optimiert werden, in einer niedrigeren Auflösung gerenderte Einzelbilder hochskaliert und ausgeliefert. So muss die Grafikkarte etwa nur ein Bild in FullHD (1920x1080 Bildpunkte, 1080p) berechnen, kann dies aber ohne relevanten Qualitätsverlust in WQHD (2560x1440 Bildpunkte, 1440p) ausliefern.

Das ist wichtig, da die Berechnung hoher Auflösungen der größte Performancefresser ist. Kein Wunder: Bei FullHD und 60 FPS müssen rund 2 Millionen Pixel alle 16 Millisekunden ausgetauscht werden. Bei WQHD sind es schon rund 3,7 Millionen Pixel und unter 4K (3820 x 2160 Bildpunkte, 2160p) müssen sogar 8,3 Millionen Pixel in Sekundenbruchteilen auf den Bildschirm gezeichnet werden, um eine konstante Framerate bei stabilem "Framepacing", also mit einheitlichen Abständen zwischen den Bildern, zu erzeugen und Ruckeln oder das "Tearing" genannte Zerreißen des Bildes zu vermeiden.

Der Flaschenhals im System

Die benötigte Leistung frisst natürlich Leistungsreserven und Grafikspeicher, die ansonsten für Effekte wie Beleuchtung, Schatten, Texturen usw. reserviert sein könnten. Raytracing kostet ebenfalls wertvolle Rechenpower, sodass DLSS eine Möglichkeit darstellt, hohe Details oder Framerates im eSport-Bereich (144, 240, 360) zu genießen, ohne dabei auf Auflösungen jenseits von 1080p verzichten zu müssen. Gleichzeitig kann DLSS auch bei Karten der RTX-20- und RTX-30-Baureihen genutzt werden, um Leistungsaufnahme und damit Abwärme und Lautstärke zu verringern. Limitiert man ein Spiel über interne Einstellungen oder mit Tools wie MSI Afterburner bewusst auf 60 FPS, kann DLSS zur erheblichen Reduzierung der benötigten Wattzahl führen. In unseren Tests war die Reduzierung um ein Drittel keine Seltenheit.

DLSS 3.0 geht allerdings noch einen Schritt weiter: Die High-End Karten der neuen RTX-40-Reihe rufen nämlich dermaßen viel Leistung ab, dass selbst moderne CPUs an ihr Limit geraten. Das bedeutet, dass im System ein sogenanntes "Bottleneck" entsteht – ein Leistungs-Flaschenhals, bei dem ein Element des PCs die übrigen Bauteile in ihrer Leistung einbremst. CPU und GPU haben in den meisten Spielen einen wichtigen Anteil an der Frames-Generierung, sodass sie aufeinander abgestimmt sein müssen, um ihr volles Potential zu entfalten. Doch selbst moderne AMD- und Intel-CPUs können derzeit nicht mit einer RTX 4090 mithalten, zudem gibt es einige Spiele, die durch ihre Engine oder Optimierung eher CPU-abhängig sind. Dazu gehört etwa der Microsoft Flight Simulator, dessen Physikberechnungen überwiegend auf der CPU stattfinden, aber auch Warhammer 40.000 Darktide ist ein notorischer CPU-Fresser.

Ein Frame ist kein Frame

Dieses Bottleneck konnte eine Grafikkarte bisher nicht allein überwinden, da das Problem in der Systemzusammenstellung an sich lag. Die neue DLSS-Version 3.0 zielt auf genau dieses Problem und bietet mit "Frame Generation" eine zusätzliche Funktion in unterstützten Spielen an, die die Performance in genau diesen Spielen verbessert. Dabei wird nicht nur ein Bild in niedrigerer Auflösung erzeugt und hochskaliert, sondern auch der direkt darauf folgende Frame auf Basis der vorhandenen Bildinformationen interpoliert, in niedrigerer Auflösung generiert und mittels Super Resolution hochskaliert.

Der grundsätzliche Kern dieser Technologie ist dabei keine KI-Blackbox wie beim Super-Resolution-Part. Laut Nvidia kombiniert DLSS 3 sogenannte Bewegungsvektoren und den optischen Fluss des Bildes. Die Grafikkarte verfolgt dabei die Bewegung einzelner Pixel und erstellt ein optisches "Flow Field", welches zusammen mit den Bewegungsvektoren, Farbe und Tiefen-Informationen ein Bild erstellt, dass ausschließlich auf Seiten der Grafikkarte generiert wurde und nie die CPU "besucht" hat. Dabei kommt der sogenannte Optical Flow Accelerator der RTX-40-GPU zum Einsatz.

Daten, Daten, Daten

Nominell kann so auf dem Papier mit einer annähernden Verdopplung der Framerate gerechnet werden. Zum Test des Features haben wir auf unserem mit einer RTX 4090 und Intel i7 13700K ausgestatteten Test-PC, powered by Mifcom, verschiedene Szenarien mit Warhammer 40.000 Darktide und dem Microsoft Flight Simulator durchgespielt. Über der Südspitze von Manhattan, einer performanceseitig sehr anspruchsvollen Passage, erzielten wir in einem Leichtflugzeug von Cubcrafter ohne aktiviertes DLSS Framerates zwischen 50 und 70 Bildern pro Sekunde. Diese ließen sich mit aktivierter Super Resolution und Frame Generation zuverlässig und ohne deutliche Qualitätseinbußen auf 110 bis 140 FPS verdoppeln.

In unserer "Ice Queen" schlägt ein heißes Herz. Die ASUS TUF Gaming RTX 4090 ist unsere DLSS 3.0 Teststation.

Ein ähnliches Bild zeigte sich bei Darktide: In unserem Testabschnitt lieferte das System ohne aktiviertes DLSS immerhin respektable 90 bis 100 FPS aus –Patches haben die in unserem Test angesprochenen Performance-Problem also weitestgehend behoben. Wird Frame Generation und DLSS aktiviert, springt die Bildrate problemlos auf extrem schnelle 180 bis 200 FPS – trotz aktiviertem Raytracing und maximaler Details. Auch hier sorgt die Technologie also für einen massiven Leistungssprung, ohne dabei spürbar an Qualität einzubüßen.

Latenz? Kein Thema!

Einen Nachteil hat diese Technologie allerdings: Die Frame-Generierung erzeugt eine Latenz, die ausgeglichen werden muss. Daher muss die "Reflex" genannte Latenz-Verringerung von Nvidia zwangsläufig ebenfalls aktiviert sein. Reflex löst dabei die Render-Warteschlange der CPU auf – eigentlich stellt diese der GPU nämlich eine Warteschlange aus Frames zusammen, die diese dann bearbeiten und ausliefern kann. So ist die CPU nie unbeschäftigt, damit es zu keiner Verzögerung im System kommt kann, was zu Rucklern führen könnte.

Reflex synchronisiert hingegen die GPU und CPU, sodass die GPU das Bild direkt dann bearbeiten kann, wenn die CPU die notwendigen Anfragen stellt. Somit wird die Latenz minimiert, wenn die Grafikkarte ein Zwischenbild berechnet, da in der Zwischenzeit keine Warteschlange entsteht und das folgende, CPU-beeinflusste Bild direkt im Anschluss erstellt werden kann. Laut Nvidia kann auf diese Weise die Latenz trotz Frame Generation in einigen Fällen sogar noch reduziert werden.

El Spacko schrieb am 15.01.2023 um 20:08 Uhr

Temeter hat geschrieben: ?15.01.2023 19:05
El Spacko hat geschrieben: ?15.01.2023 11:18Spielt man dagegen ein "langsameres" single player game, ist die Spielerfahrung deutlich flüssiger und die langsamere Reaktion ist quasi kaum bis überhaupt nicht zu spüren.
Aber bringt dir das flüssiger wirkende Bild wirklich etwas, wenn du ein langsames Spiel spielst? Nativ von 60 zu 90 zu gehen ist IMO ein fühlbarer Unterschied in Aktionspielen, aber in einem langsameren Spiel merkst du davon nicht allzuviel. Ein Anno 1800 im Lategame läuft vermutlich unter 60 auf fast jedem PC, und es stört wenig.
DLSS3 hat sich am Anfang irre angehört, aber die Vorteile machen sich oft selbst zunichte. Flüssiges Bild ist gut in schnellen Spielen, aber da willst du DLSS eben nicht wegen lag. Und während mit DLSS3 schnelle Bewegungen im Prinzip besser aussehen, hast du dann auch die meisten, hässlichen Artefakte. Sprich, selbst grafisch tauscht du im Grunde "Stottern" gegen Artefakte, und hoffst, dass das Endergebnis mehr gewinnt, als es verlierst.
IIRC war es Digital Foundry oder so, die meinten, die Technik ist am besten aufgehoben, wenn du von 120 auf 240fps gehst. Dort ist die grundlegende Performance so gut, dass zusätzlicher Lag und Artefakte minimiert werden.
Ich habe einen 144hz Monitor, und über 90fps finde ich, dass selbst nativ die Vorteile schon da immer begrenzter werden.
Mal schauen. Zb Upscaling und FSR/DLSS zu kombinieren kann sehr interessante Effekte erzeugen, vielleicht findet Nvidia noch einen Weg, das alles zu kombinieren. Aber für sich ist DLSS3 erstmal enttäuschend.

Was du schreibst, stimmt zum Teil, aber zum Teil auch wieder nicht.
Ich selbst habe einen 144 Hz 4k Gsync Monitor mit einer 4090 und in Spielen wie Cyberpunk spielt sich das ganze spürbar flüssiger! Das Next Gen Update von Witcher 3 ist ebenfalls ein Spiel, dass sich mit DLSS3 deutlich besser spielt.
Ich muss auch sagen, dass ich extrem mit der Lupe suchen muss, um Artefakte zu finden. Aber das ist natürlich...

Warum “Deep Learning Super Sampling”?

Der Flaschenhals im System

Ein Frame ist kein Frame

Daten, Daten, Daten

Latenz? Kein Thema!

Kommentare