von Julian Dasgupta,

Quo Vadis 2011: Die Wertungsdebatte

Nachdem gestern bereits der vermeintliche aktuelle Stand der Spielepresse erörtert wurde, nahm man sich heute ein weiteres, stets aktuelles Thema vor: Wertungen. Es diskutierten in der vor Tom Putzki moderierten Runde: Michael Graf (IDG), André Peschke (Krawall), Heiko Gogolin (GEE), Jochen Hamma (Fantastic Realms) und Ingo Horn (Travian Games). 
Graf: Das 100-Prozent-System sei sehr wohl noch zeitgemäß, weil man so nachvollziehbar argumentieren und bewerten können. Am Ende müsse es ein übesichtliches Ergebnis geben. Peschke merkt an, dass es bei Online-Magazinen auch wichtig sei, bei Portalen wie Critify oder Metacritic erfasst werden können. Der Nutzer müsse sich schnell in dem ganzen Datenmeer orientieren und auch vergleichen können.
Gogolin ist fast erwartungsgemäß kein Fan des Ansatzes - die Vergleichbarkeit sei eingeschränkt. Die Aussagekraft eines Wertungsspektrums, in dem die meisten Spiele im Bereich von 75 bis 100 Punkten bewertet werden, sei fragwürdig. Außerdem würden ja verschiedene Genres vermengt. Horn merkt an: Heute gebe es eine "weniger objektive Wahrnehmung der Wertung" - früher sei eine 70 noch eine gute Note gewesen; aufgrund der Wertungsinflation gelte ein Spiel mit einer 75 heute schon ein Flop. Peschke entgegnet, dass die durchschnittliche Qualität  der Software halt zugelegt hat, was sich eben in den Wertungen niederschlägt.
Hamma: In Deutschland gehe die Presse mit hiesigen Entwicklern eher freundlich um - die Wertungen seien da schon mal 5 bis 10 Punkte höher. Graf entgegnet, dass man bei solchen Spielen vielleicht mehr Vorberichserstattung liefert, aber nicht bessere Noten vergibt. Hamma entgegnet, dies lasse sich an den deutschen und internationalen Durchschnittswertungen von Spielen die Desperados nachweisen, wo doch eine ziemliche Lücke klaffe. Graf: Das lasse sich mit den unterschiedlichen Präferenzen des hiesigen Marktes erklären. Hamma führt an, dass auch ein Spiel wie Crysis hierzulande im Schnitt 5 Punkte mehr bekommen habe - bei Shootern gebe es aber nicht derartige Unterschiede hinsichtlich der Vorlieben. Peschke fragt sich, ob das nicht vielleicht auch einfach heiße, dass die internationale Presse deutsche Produktionen weniger ernst nimmt. 
Putzki plaudert nun über Arcania: Gothic 4 - da seien internationale Wertungen doch teilweise 40 bis 50 Punkten unter den deutschen geblieben. Gogolin merkt an, dass eine Wertungs- bzw. Meinungsvielfalt die Sache doch interessanter mache. Derzeit sei die Szene viel zu homogen. Generell hätten die hiesigen Hersteller ein viel größeres Problem mit Kritik als internationale Publisher.
Hamma erinnert daran, dass die Gamestar einst als kritisches Magazin ins Leben gerufen worden, deren Wertungsschnitt sich zwischen 50 nund 60 (mittlerweile 60 bis 70 laut Hamma) bewegte, aber trotz einer Auflage von 200.000 bis 300.000 nicht profitabel war, weil viele Hersteller keine Anzeigen buchte. Graf widerspricht energisch - ihm sei nicht bekannt, dass das Magazin irgendwann mal nicht profitabel war. Den höheren Schnitt könne man damit erklären, dass man heutzutage nicht mehr jeden Mist teste, den es auf dem Markt gibt.
Peschke meldet sich wieder zu Wort und merkt an, dass der Vorteil einer Wertung sei, dass der Redakteur letztendlich dazu gezwungen sich zu bekennen. Auch geht er auf Gothic 4 ein, welches bei ihm eine 80er Wertung bekam. Er habe das Spiel als gutes Hack & Slay-Titel, nicht unbedingt als gutes Gothic-Spiel wahrgenommen und entsprechend eingestuft. Um jene Unterscheidung zu verstehen, hätte man aber das eigentliche Review mal lesen müssen.
Das derzeitige Wertungssystem gehe von einer vermeintlichen Objektivierbarkeit aus, so Gogolin, der die Argumentation "verkopft" findet und ein bereits gestern angesprochenes Thema aufgreift. Es werde zu viel technifiziert und quantifiziert. Peschke merkt an, dass es mittlerweile auch im Filmbereich sehr wohl Wertungen gebe, würden viele Leute doch heute oft bei IMDB oder Rottentomatoes nachschlagen.
Wertungen seien nicht aus der Luft gegriffen, da man in den Diskussionsrunden jeder einzelnen Kategorie Vergleiche mit bereits früher eingestuften Spielen mache und sich so auf einen Score einige. Dabei greife man auf interne Datenbanken zurück. Auch habe er das Gefühl, dass die ach so schlechte Wahrnehmung einer 70 eher auf Herstellerseite stattfindet, nicht bei den Spielern.
Putzki fragt in die Runde: Wie wolle man zukünftig den Spiele wie Social Games oder iPhone-Apps berücksichtigen im derzeitigen Wertungssystem. Dabei erinnert sich der einstige Phenomedia-Mann an Noten, die ein Spiel wie Moorhuhn von der Fachpresse verpasst bekam. Peschke: Man vergleiche doch auch heute schon allerlei Genres und Plattformen. Gogolin wirft ein, dass Bewertungen von Magazinen heute weniger relevant seien als früher, da die Empfehlung durch Freunde und Bekannter dank der guten Vernetzung heutzutage eine immer größere Rolle spiele. 
Peschke und Graf finden, dass sich die Spieletests im Laufe der Zeit eh weiterentwickeln. Früher habe man deutlich weniger Genres und Plattformen abdecken müssen. Für AppStore-Spiele würde vielleicht schon ein 5-Punkte-System ausreichen. Tests von MMO- und Free-2-Play-Titeln seien ein kritisches Thema, merkt Peschke mit Verweis auf eines der eher jüngeren Genres an. Man müsse deutlich mehr Zeit (und damit: Geld) investieren - der Bericht werde dann aber nicht deutlich deutlich häufiger gelesen. Das Ganze sei oft "ökonomisch nicht sinnvoll". Genau jene Anmerkung wird später aus dem Publikum kritisiert: Der Test von F2P-Spielen sei nicht aufwändiger. Die Presse stehe in der Pflicht, sich altnative Methoden überlegen, wie sie auch solche Spiele ausreichend berücksichtigen.
Graf findet durchaus, dass es Verbesserungsbedarf gebe - allerdings gebe es auch redaktionelle Grenzen. Man könne nicht für jeden Online-Titel einen Tester abstellen, der ein Spiel nach Monaten nochmals unter die Lupe nimmt. 
Nachdem gestern bereits der vermeintliche aktuelle Stand der Spielepresse erörtert wurde, nahm man sich heute ein weiteres, stets aktuelles Thema vor: Wertungen. Es diskutierten in der vor Tom Putzki moderierten Runde: Michael Graf (IDG), André Peschke (Krawall), Heiko Gogolin (GEE), Jochen Hamma (Fantastic Realms) und Ingo Horn (Travian Games).

Graf: Das 100-Prozent-System sei sehr wohl noch zeitgemäß, weil man so nachvollziehbar argumentieren und bewerten können. Am Ende müsse es ein übesichtliches Ergebnis geben. Peschke merkt an, dass es bei Online-Magazinen auch wichtig sei, bei Portalen wie Critify oder Metacritic erfasst werden können. Der Nutzer müsse sich schnell in dem ganzen Datenmeer orientieren und auch vergleichen können.



Gogolin ist fast erwartungsgemäß kein Fan des Ansatzes - die Vergleichbarkeit sei eingeschränkt. Die Aussagekraft eines Wertungsspektrums, in dem die meisten Spiele im Bereich von 75 bis 100 Punkten bewertet werden, sei fragwürdig. Außerdem würden ja verschiedene Genres vermengt. Horn merkt an: Heute gebe es eine "weniger objektive Wahrnehmung der Wertung" - früher sei eine 70 noch eine gute Note gewesen; aufgrund der Wertungsinflation gelte ein Spiel mit einer 75 heute schon ein Flop. Peschke entgegnet, dass die durchschnittliche Qualität  der Software halt zugelegt hat, was sich eben in den Wertungen niederschlägt.

Hamma: In Deutschland gehe die Presse mit hiesigen Entwicklern eher freundlich um - die Wertungen seien da schon mal 5 bis 10 Punkte höher. Graf entgegnet, dass man bei solchen Spielen vielleicht mehr Vorberichterstattung liefert, aber nicht bessere Noten vergibt. Hamma entgegnet, dies lasse sich an den deutschen und internationalen Durchschnittswertungen von Spielen wie Desperados nachweisen, wo doch eine ziemliche Lücke klaffe. Graf: Das lasse sich mit den unterschiedlichen Präferenzen des hiesigen Marktes erklären. Hamma führt an, dass auch ein Spiel wie Crysis hierzulande im Schnitt 5 Punkte mehr bekommen habe - bei Shootern gebe es aber nicht derartige Unterschiede hinsichtlich der Vorlieben. Peschke fragt sich, ob das nicht vielleicht auch einfach heiße, dass die internationale Presse deutsche Produktionen weniger ernst nimmt.

Putzki plaudert nun über Arcania: Gothic 4 - da seien internationale Wertungen doch teilweise 40 bis 50 Punkten unter den deutschen geblieben. Gogolin merkt an, dass eine Wertungs- bzw. Meinungsvielfalt die Sache doch interessanter mache. Derzeit sei die Szene viel zu homogen. Generell hätten die hiesigen Hersteller ein viel größeres Problem mit Kritik als internationale Publisher.

Hamma erinnert daran, dass die Gamestar einst als kritisches Magazin ins Leben gerufen wurde, deren Wertungsschnitt sich zwischen 50 und 60 (mittlerweile 60 bis 70 laut Hamma) bewegte, aber trotz einer Auflage von 200.000 bis 300.000 nicht profitabel war, weil viele Hersteller keine Anzeigen buchten. Graf widerspricht energisch - ihm sei nicht bekannt, dass das Magazin irgendwann mal nicht profitabel war. Den höheren Schnitt könne man damit erklären, dass man heutzutage nicht mehr jeden Mist teste, den es auf dem Markt gibt.

Peschke meldet sich wieder zu Wort und merkt an, dass der Vorteil einer Wertung sei, dass der Redakteur letztendlich dazu gezwungen wird, sich zu bekennen. Auch geht er auf Gothic 4 ein, welches bei ihm eine 80er Wertung bekam. Er habe das Spiel als guten Hack & Slay-Titel, nicht unbedingt als gutes Gothic-Spiel wahrgenommen und entsprechend eingestuft. Um jene Unterscheidung zu verstehen, hätte man aber das eigentliche Review mal lesen müssen.

Das derzeitige Wertungssystem gehe von einer vermeintlichen Objektivierbarkeit aus, so Gogolin, der die Argumentation "verkopft" findet und ein bereits gestern angesprochenes Thema aufgreift. Es werde zu viel technifiziert und quantifiziert. Peschke merkt an, dass es mittlerweile auch im Filmbereich sehr wohl Wertungen gebe, würden viele Leute doch heute oft bei IMDB oder Rottentomatoes nachschlagen.

Wertungen seien nicht aus der Luft gegriffen, da man in den Diskussionsrunden jeder einzelnen Kategorie Vergleiche mit bereits früher eingestuften Spielen mache und sich so auf einen Score einige. Dabei greife man auf interne Datenbanken zurück. Auch habe er das Gefühl, dass die ach so schlechte Wahrnehmung einer 70 eher auf Herstellerseite stattfindet, nicht bei den Spielern.

Putzki fragt in die Runde: Wie man zukünftig Spiele wie Social Games oder iPhone-Apps im derzeitigen Wertungssystem berücksichtigen wolle. Dabei erinnert sich der einstige Phenomedia-Mann an Noten, die ein Spiel wie Moorhuhn von der Fachpresse verpasst bekam. Peschke: Man vergleiche doch auch heute schon allerlei Genres und Plattformen. Gogolin wirft ein, dass Bewertungen von Magazinen heute weniger relevant seien als früher, da die Empfehlung durch Freunde und Bekannte dank der guten Vernetzung eine immer größere Rolle spiele.

Peschke und Graf finden, dass sich die Spieletests im Laufe der Zeit ohnehin weiterentwickeln. Früher habe man deutlich weniger Genres und Plattformen abdecken müssen. Für AppStore-Spiele würde vielleicht schon ein 5-Punkte-System ausreichen. Tests von MMO- und Free-2-Play-Titeln seien ein kritisches Thema, merkt Peschke mit Verweis auf eines der eher jüngeren Genres an. Man müsse deutlich mehr Zeit (und damit: Geld) investieren - der Bericht werde dann aber nicht deutlich deutlich häufiger gelesen. Das Ganze sei oft "ökonomisch nicht sinnvoll". Genau jene Anmerkung wird später aus dem Publikum kritisiert: Der Test von F2P-Spielen sei nicht aufwändiger. Die Presse stehe in der Pflicht, sich alternative Methoden überlegen, um auch solche Spiele ausreichend zu berücksichtigen.

Graf findet durchaus, dass es Verbesserungsbedarf gebe - allerdings gebe es auch redaktionelle Grenzen. Man könne nicht für jeden Online-Titel einen Tester abstellen, der ein Spiel nach Monaten nochmals unter die Lupe nimmt.


Kommentare

Sarabi schrieb am
Das Problem ist, dass man ein bereits eingeführtes Wertungssystem nicht jedesmal neu anpassen darf. Würde 4p das System jetzt modifizieren, müssten alle prozentualen Wertungen wieder neu beziffert werden. Das wäre albern. Viel einfacher wäre es für einen Prozent-brauch-Menschen, wenn er in diesem Fall einfach einige Titel aus verschiedenen Prozentspannen heraussucht und die Tests dazu liest und sich somit selber einen Überblick verschafft.
Ich denke auch dass es keinen Grund gibt ein 89prozent deshalb zu verschmähen weil es nicht in der noblen Kategorie herumgeistert. Es wird dennoch ein super Spiel sein. Was dann zur 90 fehlte kann eigentlich nur aus der Kategorie Luxusprobleme stammen und das kann bestimmt auch jeder erkennen.
Alte Spiele und neue Spiele prozentual zu vergleichen wird immer dann zum Problem wenn man verschiedene Schwerpunkte setzt.
Beispiel: Würde ich im Jahr 2011 ein Spiel spielen welches die gleiche Story wie Final Fantasy 7, aber auch die gleiche Klotzgrafik hat. Also ich würde und ich würds dann auch phantastisch bewerten. Aber vielleicht sieht das ein junger Crysis2-Mensch, der FF7 gar nicht erst kennt, ganz anders. Ich könnte auch noch weiter zurückgehen und das neue DonkeyKong mit Ladder aus den 80ern vergleichen. (war n Spiel aufm KC85 den ich mal hatte.. is so n Ost-Computer)
Wird nicht funktionieren. Weil jede neue Generation von Zockern ein neues "Lineup" hat und somit andere Maßstäbe setzt. Amberstar war damals noch ein saugeiles Rollenspiel, aber allein die Möglichkeiten heutiger RPGs sind im Vergleich dazu erdrückend, nur wissen das nur Leute, die das auch wirklich gespielt haben.
@Artikel
was hab ich da gelesen, da hat einer Gothic 4 als Hack n Slay bewertet ohne das "Gothic" als Spieleserie zu betrachten? Mann das ist ja genial. Dann bewerte ich Aion einfach mal als 1a Chatprogramm mit der Option, nebenher eine rollenspielähnliche Erfahrung zu erleben. 92 Prozent. Platin. MIRC sollte sich echt schämen. *hrhr*
Grüße
Sarabi
johndoe702031 schrieb am
@PetPetPet
Dein Vorschlag würde zwar die Wertungsinflation nominell verhindern, ist aber in anderen Bereichen eine Verschlimmbesserung.
Befriedigend ist nicht gleich Durchschnitt. Solltest du lediglich vorhaben, die Note befriedigend auf 50% bis X% auszudehnen, dann macht das evtl. noch Sinn, denn du hättest die Skala möglicherweise etwas besser ausgenutzt und hättest bessere Differenzierungsmöglichkeiten in diesem Notenbereich. Dabei ist aber zu bedenken, dass die derzeitige Verteilung sich etwa an dem System orientiert, dass wir alle aus Schule, Berufsschule oder Uni kennen und das uns deshalb als vertraut erscheint. Hiernach ergibt sich ein befriedigender Bereich zwischen 65 und 75 bzw. 80%, 50% entsprechen gerade noch so einem ausreichend. Wär nicht wild, das zu ändern, aber so wie es derzeit ist scheint es dem "natürlichen" Wertungsgefühl der Leute eher zu entsprechen.
Solltest du tatsächlich den Durchschnitt immer wieder auf 50% festlegen wollen, dann geht der Schuss aber ganz gewaltig nach hinten los. Um eine Vergleichbarkeit zwischen den Generationen zu haben (und das strebst du ja an), braucht dann der Käufer eines Spiels zwar nicht mehr das Wissen um die aktuelle Bewertungspraxis, dafür aber das Wissen um die gesamte Softwaregeneration eines Genres. Das ist doch wohl erheblich komplizierter. Ich wär damit jedenfalls heillos überfordert. Was weiß ich denn, ob damals, als Tekken 1 rauskam, gerade ein "guter Jahrgang" für Prügelspiele war oder nicht und wie dementsprechend die 50% einzuordnen sind. Die Vergleichbarkeit wäre für mich viel schlechter als sie jetzt schon ist. Und man stelle sich vor, das beste Prügelspiel aller Zeiten erscheint, programmiert vom Prügelgott himself...weil aber in letzter Zeit nur sehr gute Prügelspiele erschienen sind, wird es mit 60% als knapp überdurchschnittlich im Vergleich zu aktuellen Titeln abgespeist, oder wie? Vielleicht hab ich das auch falsch verstanden, ober das kann´s ja wohl nicht sein!
Zuletzt: Will man wirklich...
Dominius schrieb am
PetPetPet hat geschrieben:[...]
Nun kann der Leser, entgegen deiner Kritik an diesem System, doch durchaus beide Teile generationenübergreifend vergleichen. Denn er sieht, dass beide Spiele in ihrer Generation eher Mittelmäßig waren. Und es ist zumindest bisher doch ziemlich einfach, die Generationsgrenzen abzustecken.
In einer idealen Welt mag sowas vielleicht möglich sein, aber in der aktuellen Welt sehe ich doch große Probleme bei deinem Vorschlag.
Dein Tekken-Beispiel ist da ziemlich gut. Denn es ist durchaus möglich, dass Tekken 1 im Vergleich zu Tekken 6 das deutlich bessere Spiel ist, weil die Generation von Tekken 1 im Gesamtbild eine deutlich höhere Durchschnittsqualität bot als die Generation von Tekken 6. Trotzdem erhält in deinem System Tekken 6 eine höhere Wertung, weil es innerhalb der aktuellen Generation etwas mehr über dem Durchschnitt liegt als Tekken 1 in seiner. Wenn ich mich also rein an den Wertungen orientieren würde und Tekken 6 kaufen würde, wäre dies eine Fehlentscheidung, da Tekken 1 das bessere Spiel ist.
Ich sehe in solchen Fällen keinerlei bessere Vergleichbarkeit über die Generationen hinweg.
Deine Kritikpunkte an "meinem Modell" sind natürlich genauso gültig und wohl auch eine Erklärung für die aktuelle Wertungsinflation, nur weiß ich nicht, ob eine erzwungene Normalverteilung in Hinblick auf Videospielbewertungen irgendwie sinnvoll sein muss. Die Bewertung sollte sich nicht an einem imaginären Durchschnitt orientieren, sondern am aktuellen Spielspaß, und der kann durchaus bei vielen Spielen im "guten" oder "sehr guten" Bereich liegen, wenn es eben weniger Softwaremüll gibt.
Und nochmal zur Klarstellung: Ich finde die Wertungsinflation im Vergleich mit deinem System nicht besser, keineswegs. Ich lehne Zahlenwertungen für Videospiele generell ab und wollte nur darlegen, dass ich beide Ansätze, da sie jeweils auf solche Zahlenwertungen setzen, eklatante Mängel haben. Der Spaß mit einem Spiel lässt sich eben nicht auf eine Numme...
IxAxUx schrieb am
Dominius hat geschrieben:
PetPetPet hat geschrieben:[...]
Das erklärt unter anderem die enorme Wertungsinflation.
Also, meiner Meinung nach ist dein Ansatz genau falsch wie die aktuellen Wertungssysteme.
Einen Zwangsdurchschnitt von "50%" einzurichten, der sich dann über die Generationen hält, trägt genauso wenig zu einer Vergleichbarkeit von Wertungen bei wie die aktuelle Wertungsinflation. Denn, falls sich die durschnittliche Softwarequalität in verschiedenen Generationen tatsächlich stark ändert, dann ist eine 50 von damals plötzlich wesentlich besser/schlechter als eine aktuelle 50. Wertungen wären dann nur noch in einer Generation (wo ist denn da die Grenze - ein weiteres Problem) ansatzweise vergleichbar.
Auch deine Annahme, ein Großteil der Spiele sei "befriedigend", kann ich keineswegs teilen. Was ist denn, wenn plötzlich nur noch "gute" und "sehr gute" Spiele erscheinen? Dann sollte der Durchschnitt auch dort liegen und nicht zwangsweise in das vorliegende Modell gepresst werden. Es ist nämlich sinnvoller, das Modell an die Realität anzupassen statt umgekehrt.
[...]
Wenn man meinen Vorschlag richtig versteht und konsequent zu Ende denkt, ist er bei weitem besser (was die Vergleichbarkeit mit anderen Konsolen/PC-Generationen angeht).
Ich nehme mal das Beispiel Tekken (generationübergreifend) und unterstelle dem Spiel, dass es durchschnittlich ist und habe als Tester entsprechend meine Wertung gegeben:
Tekken 1 war damals also technisch und in Sachen Spielspaß eher durchschnittlich und hat daher vom mir die Wertung 55% erhalten.
Tekken 6 war auch nur durchschnittlich und hat daher von mir eine Wertung von 58% erhalten.
Nun kann der Leser, entgegen deiner Kritik an diesem System, doch durchaus beide Teile generationenübergreifend vergleichen. Denn er sieht, dass beide Spiele in ihrer Generation eher Mittelmäßig waren. Und es ist zumindest bisher doch ziemlich einfach, die Generationsgrenzen abzustecken.
Dein Vorschlag dagegen ist komplett unsinnig und würde...
johndoe702031 schrieb am
Die hier bei 4p und den meisten Magazinen verwendete 100%-Skala ist ein reines Zugeständnis an den Konsumenten, der die schnelle, metascore-kompatible Vergleichbarkeit im Dschungel der Wertungen braucht und der überwiegend (machen wir uns nichts vor) geil auf die Zahl am Ende ist wie ein Hund auf´s Leckerli. Auch die Ausrichtung der Skala (ab 85% sehr gut bzw. silber/gold, ab 90% hervorragend bzw. gold/platin, dann im Prinzip unter "ferner liefen"...) ist dem Kunden bzw. der Passgenauigkeit ins derzeit übliche Massensystem geschuldet. Damit wird natürlich eine Vergleichbarkeit mit anderen Scores und eine Objektivität vorgegaukelt, die es nicht geben kann.
Kann mir schon vorstellen, dass gerade der eine oder andere Redakteur hier auf dieser Seite gehörig Bauchschmerzen bekommt, wenn er Spiele wie z.B. Heavy Rain oder Flower auf Teufel komm raus irgendwie in so eine 100% Skala pressen muss. Ich denke, viele werden sich der Absurdität, Spielspaß und kreativen künstlerischen Output in einer Zahl von 1-100 auszudrücken (warum nicht gleich ne Promilleskala??), schon bewusst sein und insgeheim entweder ein simpleres System oder gar keine Note/Zahl befürworten. Aber hier macht man wie oben beschrieben eben Zugeständnisse an den Kunden und das liebe Geld - und so lange die Testberichte selber noch einigermaßen aussagekräftig, kritisch und ehrlich sind - sollte das auch aus Sicht der Wertungskritiker locker zu verschmerzen sein.
schrieb am