Spielstärke Maßzahlen – Teil 2

Hier nun der Teil 2 der versprochenen Serie

Natürlich soll die Serie am Ende darauf hinauslaufen, dass ein verbessertes System vorgestellt wird. Die Mängel des Elo-Systems sind sicherlich zu einem Gutteil bekannt, sollen dennoch hier nach und nach angesprochen werden – um zugleich eine Umgehungsstrategie anzubieten.

Da nun ein vielfältiges Vorgehen möglich ist, soll es heute doch bereits geschehen, dass zumindest eine Beschreibung für das von mir als einfacher, besser und anschaulicher angebotene System vorgestellt wird.

Zunächst aber noch so viel über das Elo-System: die Grundannahme, dass die Spielstärken normal verteilt sind, kann natürlich nicht wirklich falsch sein. Nur hat es sich nach meiner Ansicht in der Praxis herausgestellt (dies sozusagen als „intuitive Qualitätskontrolle“, welche negativ ausfiel), dass die Berechnungen bei sehr hohen Elo-Differenzen falsch sind. Einerseits könnte man in diesem Zusammenhang nun nach Ursachen dafür forschen, andererseits die Auswirkung (damit die gemachte Beobachtung) erklären.

Zunächst: was konnte beobachtet werden, was einen bedenklich stimmt in Fragen der Zuverlässigkeit und Wirksamkeit des verwendeten Systems? Das größte wohl dieses: sofern eine große Differenz in der Elo-Zahl zweier Spieler vorliegt, entsprechen die errechneten Erwartungen nicht den tatsächlichen Ergebnissen. Darüber liegen mir keineswegs genauere Zahlen vor, jedoch die Beobachtung, dass sehr starke Spieler regelmäßig Elo-Punkte einbüßen, sobald sie bei Open Turnieren mitspielen und dort, zwangsläufig, gegen (meist deutlich) niedriger eingestufte Gegner spielen müssen.

Sicher könnte man nun meinen, dass dies zuerst nachzuweisen wäre. Das System ist so logisch aufgebaut – so die einhergehende Argumentation --, dass es ja gar nicht sein kann. Gegen einen 100 Punkte schlechteren Gegner hat man diese Erwartung, gegen 150 Punkte schlechter jene, dann muss sie doch, streng nach Formel, gegen einen 500 Punkte schlechteren so sein? Nein, ein Nachweis ist nicht ganz einfach zu führen, da man ja eine gewisse Festlegung der Auswahlkriterien für eine ausgewertete Partie für diese Statistik festlegen müsste, und dazu das Ergebnis eine zufällige Abweichung darstellen könnte, noch dazu vom die Statistik Anfertigenden zu dessen eigenen Gunsten (traue keiner Statistik, die du nicht selbst gefälscht hast, nicht wahr?) durch eine günstige Auswahl oder die frei wählbaren Auswahlkriterien manipuliert worden sein könnte.

Nein, verlässlicher ist diese Beobachtung: sehr gute Spieler meiden die Teilnahme an Turnieren, in denen sie deutlich niedriger eingestufte Konkurrenz zu erwarten hätten. So wurde schon mehr als einmal das Argument vernommen, von hochrangigen Spielern: „Ich spiel kein Open. Ich mach mir doch meine Zahl nicht kaputt.“ Trotz der zu erhoffenden günstigen Chance, das eigene Budget aufzubessern wird dies vermieden. Alternativ: man verzichtet auf die Eitelkeit und findet sich, als Open-Spieler, damit ab, etwas unter Wert eingestuft zu sein. Höheren Ambitionen steht dieses Verhalten jedoch im Wege.

Das Elo-System funktioniert recht gut, keine Frage. Man sollte eben nur wissen, dass man am besten stets mit ähnlich eingestuften Spielern spielen sollte, und dort nach und nach, bei besonderen Ambitionen, allmählich in den Klassen aufsteigen. Wenn man unter 2000ern spielt, dann kann man sich bis 2200 verbessern, mit normalem Spiel und normal (guten) Ergebnissen. Danach sollte man jedoch in der Klasse von etwa 2200ern spielen, um einen weiteren Aufstieg realistisch zu machen. Wenn man sich dann dort bis zur 2400 aufschwingt (beispielsweise als Heranwachsender) sollte man dringend (natürlich dann vom Verband gefördert) die Kräftemessen mit 2400ern suchen, um sich bis in die Großmeisterriege hochzukämpfen. So ein normaler, natürlicher Werdegang eines Talentes.

Eine Konsequenz übrigens dieser gemachten Beobachtung: ab Elo-Differenzen von 600 Punkten tritt der sehr bedenkliche Fall ein, dass die Erwartung des Favoriten (mit den verwendeten, vereinfachten Formeln) gegen 1 tendiert. Es gibt dadurch Fälle, die bedeuten, dass man, durch die Verschlechterung des Schnitts durch einen solchen Gegner, trotz des eingefahrenen Sieges, Elo-Punkte einbüßt. Und dies kann nun wirklich nicht Sinn der Sache sein. Da ist was faul, das ist offensichtlich. Bekannt dürfte das Problem ebenfalls sein, selbst wenn nur, auf die beschriebene Art „intuitiv“.

Um nur zwei praktische Beispiele aus der jüngsten Vergangenheit anzugeben, die dieses Problem plastisch machen: beim Pfingst Open in Berlin, ausgerichtet vom SC Zugzwang, im Mai 2011, erzielte Großmeister Jakob Meister ein, wie ich finde, achtbares Ergebnis mit 4.5 aus 5. Man kann einfach nicht erwarten, an seiner Stelle und auch sonst wohl kaum, alle Partien in so einem Turnier zu gewinnen. Gegen die Nummer 2, meine Wenigkeit, blieb das Duell bei der geringen Rundenzahl (und recht hoher Teilnehmerzahl) aus, dennoch kam er gegen einen seiner um 2000 rangierenden Spieler, nach meiner Ansicht „erwartungsgemäß“, nicht über ein Remis hinaus, übrigens mit den schwarzen Steinen (wofür Elo keine veränderte, geringere Erwartung anbietet). Die Folge: da seine Elo-Zahl weit über 2400 lag, so meinte das stupide System, hätte er 4.56 Punkte zu erzielen gehabt. Eine Einbuße von 3 Elo-Punkten waren die Folge – und die musste er in Kauf nehmen. Nicht verwunderlich, wenn er sich sagen würde: „Nun spiele ich ein wirklich gutes Turnier, ohne größere Wackler, und bin mit der Ausbeute durchaus zufrieden. Mehr war kaum drin. Ich verliere aber Elo? Nein, bei so etwas spiele ich nicht mehr mit.“ (Möge es der Leser der Eitelkeit zuschreiben, dass hier erwähnt wird, dass ich ihm den 1. Platz mit der gleichen Punktausbeute dennoch vor der Nase wegschnappen konnte. Dank meiner geringeren Elo-Zahl von um die 2370 habe ich ein kleines Plus erwirtschaftet. Nur spürt man einfach, dass man das Optimum erzielen muss, um nicht Punkte einzubüßen).

Ein anderes Beispiel war dieses: beim Winter Open Ende 2011 bekam ich es, als Nummer 2, mit der Nummer 1 und der Nummer 3 zu tun. Die Ausbeute von 5.5/7 war durchaus stattlich, zumal sie 1.5 Punkte gegen die beiden (mit)besten Spieler einschloss. Gegen den Rest, ebenfalls um die 2000 angesiedelt, reichte es „nur“ zu 4 aus 5. Insgesamt zu wenig, meint Professor Elo. Eine Einbuße von 0.6 Elo-Punkten ging einher. Kann das wirklich richtig sein?


Als Antwort auf die Frage, ob es denn nicht besser ginge – in vielerlei Hinsicht – und das erfolgte „Ja, es geht“, besteht natürlich die Aufgabe darin, dieses eigens entwickelte System vorzustellen.

Da es sich hierbei erst um den zweiten Teil der Serie handelt und auch längst noch nicht alle Probleme des Elo-Systems aufgedeckt wären (von denen hier nur kurz, in gewisser Weise zum Erwecken der Vorfreude gedacht, diese erwähnt sein mögen: Elo-Inflation; Schwarz-Weiß Problematik; Zufälligkeit der Zahlen, welche sich genauso zwischen 300 und 1000 oder 6 und 15 bewegen könnten anstatt zwischen 1000 und 2800, im Vergleich zu einem logischen Aufbau; Vorhersage der Remiswahrscheinlichkeit für ein wahrhaftiges Prognosesystem; vergleichbar machen von verschiedenen Spielen und/oder Sportarten), soll nur kurz, entgegen obiger Ankündigung, die Metrik dieses neuen, vorgeschlagenen Systems vorgestellt werden.

Da man jedermanns Turnierergebnisse auch gerne in Prozentangaben macht, und diese sogar für das Elo-System zwecks Auswertung errechnet werden müssen, erschiene es doch zweckmäßig, die Spielstärken in diesen Prozentzahlen zu messen? Ein Spieler der Spielstärke 70% hätte demnach in etwa, auf sein Leben gerechnet, 70% der möglichen Punkte erzielt, ein Spieler der Spielstärke 40% dementsprechend 40%.

Ganz klar, dass es hier nur lauten kann, von Lesers Seite aus: „Veto!“. Wurde doch gerade an dieser Stelle, ein paar Zeilen zuvor, darauf aufmerksam gemacht, dass sich jeder Spieler nach Möglichkeit innerhalb seines Spielniveaus vergnügen solle. Eine Folge des permanenten Spielens auf dem „eigenen Niveau“, also dem Nachkommen dieses Vorschlages, für alle Spieler, wäre ja diese: jeder Spieler spielt in etwa um die 50%. Demnach wären ja dann, diese Metrik zugrunde gelegt, alle Spieler gleichstark?

Nein, das genaue Gegenteil wäre der Fall. Selbst wenn man das Maßsystem verwenden würde, für jeden Spieler seine Spielstärke in Prozent anzugeben, würden sich die Unterschiede ganz zwangsläufig ergeben. Zunächst mal würde ja ein Aufstieg in eine höhere Klasse dann erfolgen, wenn ein Spieler sich aus der Klasse, aus welcher er gerade hervorgehen möchte, deutlich abhebt, also weit mehr als 50% erzielt. Angenommen, er spielte bisher in der Klasse der tatsächlich 50%-Spieler. Wenn er dort zuverlässig und regelmäßig 60% erzielen würde, so gehörte er, von der Spielstärke her, natürlich viel mehr in die Kategorie der 60% Spieler. Steigt er nun auf, so würde er, sofern er nun in der Klasse seiner tatsächlichen Spielstärke angelangt ist, zwar „nur noch“ in etwa 50% der Punkte erzielen, dies würde aber, da er ja gegen Gegner der Spielstärke 60% spielt, sein Niveau von 60% halten.

An dieser Stelle noch zwei kurze Anmerkungen, bevor dieser Abschnitt geschlossen werden soll: sobald man sich müht, mathematische Inhalte vorzutragen, hat man diese zwei Möglichkeiten: sich wirklich als mathematisch denkender Mensch zu „outen“ (denn, wie einem die Erfahrungen lehren, ist es tatsächlich ein „outen“) und zwar möglicherweise einigen Respekt zu ernten, jedoch keineswegs Verständnis geschweige denn, dass es gelänge, auf Menschen zu treffen, die sich die Mühe machen würden (außer vielleicht ein paar der sich bereits vorher selbst geoutet habenden Leidensgenossen), diesen mathematischen Argumentationen (in Form von Formeln) nachzugehen.

In diesem Sinne soll die erfolgte verbale Argumentation verwendet werden, welche jedoch zugleich die Gefahr beinhaltet, als absolut nicht mathematisch denkendes Hirn aufgefasst zu werden – und insofern der Sinn entfiele, den weiteren Ausführungen, da offensichtlich von einem blutigen Amateur ersonnen, Folge zu leisten. Dieser „Drahtseilakt“ wird versucht, in dieser kleinen Serie zu bewältigen. Hört man dennoch zu, obwohl einem Scharlatan aufgesessen? Hörte man dann zu, wenn mit Formeln bombardiert?


Eine kleine Geschichte am Rande, nicht unbedingt zum Studium empfohlen:

Eine weitere Anmerkung bezieht sich auf die folgende kleine Geschichte: da ich mit diesem System an der richtigen Stelle bei einem mathematischen Institut vorstellig wurde, gibt es natürlich eine, nennen wir es „Beurteilung“ (ohne dass der Leser das System anhand der wenigen einleitenden Worte bereits kennen würde). Diese fiel so aus: „Es gibt nichts Neues, Herr Paulsen, das kann ich Ihnen versprechen, dass das schon jemand vor Ihnen entdeckt hat.“

Tatsächlich förderte der Herr nach drei Nächte langer Suche zutage, dass ein gewisser Ernst Zermelo im Jahre 1929 bereits in diesem Sinne fündig wurde. Ich erhielt die Zuschrift per Mail – und damit war seinem Ego Genüge getan. Die Tatsache, dass das System dennoch unabhängig entdeckt wurde, spielte natürlich (und zurecht) gar keine Rolle. Dass es aber tatsächlich besser ist als das derzeit verwendete, war demzufolge kein Gesprächsthema mehr. Es gibt es, es gab es vor Ihnen, das genügt doch?

Nun, um die kleine Anekdote zum Abschluss zu bringen: ich hatte dem ungenannten Herren dieses kleine, von mir, so darf ich in unendlicher Arroganz behaupten, „nebenbei“ entdeckte System (es gelang in ein paar Tagen, ohne übertriebenen Zeitaufwand, damals aber noch in der festen Überzeugung, dass es, da so einfach, natürlich längst existieren würde, ich es also nur kurz für mich herleiten müsse anstatt nachzuschlagen, was ich eh nie tue), nur vorgestellt, um ihm zu zeigen, dass ich durchaus in der Lage bin, mathematische Modelle eigenständig zu entwickeln und logisch zu präsentierten.

Das, was ich ihm eigentlich vorstellen wollte, war ein ganz anderes, wirklich komplexes, aber nachweislich funktionstüchtiges System (zur Qualitätsprüfung von Wahrscheinlichkeitsvorhersagen), von welchem er selbstverständlich die gleichen Auffassungen vertrat: „Das gibt es schon.“ Als er nicht wirklich fündig wurde, begann er, alternativ dazu (aber natürlich logisch nachvollziehbar, da es nach seiner Ansicht nur deshalb nicht existiert, weil es nicht funktioniert, klar), die Schwächen des Systems zu suchen. Als er meinte, mit zwei Dingen fündig geworden zu sein, antwortete ich, dass mir diese beiden Schwachstellen bekannt seien, dass ich sie nur, da bisher nicht erforderlich, noch nicht behoben hätte, die Behebung aber spielend leicht nachliefern könnte.

Als er zwei Tage später die Nachricht mit den behobenen Schwachstellen erhielt, gab es gar keine Reaktion mehr. Wie deutet man das?


Quicklinks zu den Teilen

Spielstärke Maßzahlen

Spielstärke Maßzahlen -- Teil 2

Spielstärke Maßzahlen -- Teil 3

Spielstärke Maßzahlen -- Teil 4

Kommentare   

#1 MiBu 2012-02-10 13:55
Zitat "Es gibt dadurch Fälle, die bedeuten, dass man, durch die Verschlechterung des Schnitts durch einen solchen Gegner, trotz des eingefahrenen Sieges, Elo-Punkte einbüßt"

Das scheint mir blanker Unsinn zu sein (zumindest im Präsens.) Eine Elo-Differenz von 600 entspricht einer Gewinnerwartung von 0,98 (Sh. FIDE-Handbook). Der 600 Punkte bessere Spieler verliert durch seinen Sieg also keine ELO, sondern gewinnt hinzu, und zwar nicht etwa 0,02 * K, sondern 0,08 * K (Warum das? Weil die Differenz künstlich auf 400 begrenzt wird: "8.54
A difference in rating of more than 400 points shall be counted for rating purposes as though it were a difference of 400 points (compare 8.58).") [Es kann sein, dass zur Zeit einer manuellen Auswertung das Problem der Durchschnittsbildung bestanden hat, heute aber wird von jeder einzelnen Partie "We" (winnings points expected) bestimmt, diese Werte werden dann kumuliert und die Eloänderung anhand der Differenz zwischen "W" (winning points) und "We" ermittelt.]

Übrigens hat sich der Autor dieses Beitrags in eigener Sache verrechnet, vielleicht aufgrund der Unkenntnis der 400-Differenz-Regel: Wie man unter http://ratings.fide.com/individual_calculations.phtml?idnumber=4601343&rating_period=2012-03-01 nachlesen kann, hat er beim Winter-Open 1,1 ELO gewonnen und nicht 0,6 verloren. Es wäre gut, wenn er mehr Wert auf inhaltliche Genauigkeit legen würde - da fehlt es da und dort. (Im Gegenzug könnte er auf einige Gramm Selbstbeweihräucherung verzichten, die ist in mehr als ausreichender Menge vorhanden.)
#2 Dirk Paulsen 2012-02-10 16:41
Geschätzter MiBu, das genannte Beispiel des Verlustes von Elo-Punkten trotz Sieges ist mir ohne exaktes Rechenbeispiel zur Kenntnis gekommen, als ich auf der Seite der FIDE stöberte und dort die Probleme es Elo-Systems untersucht wurden. Von mir ist ja angemerkt (wie übrigens im genannten Beispiel auch), dass es sich DURCH DIE VERSCHLECHTERUNG DES SCHNITTS so verhält. Also, wohl klar, eine einzige Partie kann niemals einen Verlust bewirken. Wenn man jedoch ein komplett ausgewertetes Turnier hernimmt, so kann es eben passieren (wie an dieser Stelle nicht vorgerechnet), dass man tatsächlich verliert.
---------
Ich sehe meine Hauptaufgabe (in der Serie) auch nicht darin, dass ich die (zahlreichen, meist bekannten) Schwächen des Elo-Systems aufzeige (obwohl dies auch ein Aspekt bleibt), sondern ein besseres System vorzustellen.
----------
Falls ich tatsächlich Punkte gewonnen haben sollte, so entschuldige ich mich für diesen Fehler. Allerdings erhielt ich einen Ausdruck nach Turnierende, in welchem meine DWZ exakt gleich blieb (dort könnte auch ein Zugewinn erfolgt sein, wenn aber minimal), aber bei der Elo-Entwicklung ein minimales Minus. Möglich, dass seitens der Turnierleitung zu Beginn einige Zahlen nicht exakt eingegeben waren (und später akutalisiert wurden), so dass die offizielle Auswertung eine Veränderung ergab. Nur würde es prinzipiell nicht so viel ändern.
---------------
Ich mühe mich in meinen Texten stets, einen objektiven Standpunkt einzunehmen. Dabei kann einiges sehr wohl nach Selbstbeweihräucherung klingen (wie könnte man, sofern man Erfolge hat, jene im Text gekonnt umschiffen? Es gab einen 2. Platz, mit welchem meine Erwartungen gerade so erfüllt waren; es gibt in letzter Zeit tatsächlich wenige Turniere, in welchen ich keinen vorderen Platz belegte; von welchem hätte ich berichten dürfen? In Rehberge hatte ich Platz 6, mein schlechtestes Ergebnis in den letzten 2 Jahren, mit 7.5/11; vielleicht NUR von diesem berichten?).
DIe kleine Anekdote wurde nicht zum Studium empfohlen. Dennoch hat es sich so verhalten.
#3 Smitty 2012-02-10 17:13
Hi,

gerne kann man sich Gedanken über eine Verbesserung des Elos-Systems machen.

Es würde allerdings in der Tat wirkungsvoller sein, wenn man wenigstens beweist, dass man sich mit der Materie auskennt.

Tatsächlich hat MiBu recht: Wenn man gegen einen Gegner gewinnt, kann man niemals Elo-Punkte verlieren. Nicht in einer Einzelpartie, nicht in einem Turnier. Denn es wird niemals der Schnitt zur Auswertung herangezogen.

Und die 400-Punkte-Regel, die MiBu zitiert hat, sorgt sogar dafür, dass man durch eine siegreiche Partie ganz sicher einige Punkte gewinnt - selbst wenn der Gegner 1000 Punkte schlechter ist. Ob das wiederum fair ist - das kann man hinterfragen - wenn man denn die richtigen Fragen stellt.
#4 Gerhard 2012-02-10 17:39
Hier gibt es einige Aspekte, über die man schreiben könnte. Ich greife die heraus, die mir persönlich im Moment wichtig sind.

"wie könnte man, sofern man Erfolge hat, jene im Text gekonnt umschiffen?" Man muß sie nicht umschiffen, aber über den Anschauungswert für eine Rechnung hinaus haben sie keinen Wert. Man hat sich selbst etwas bewiesen, gut, ok. Damit ist es aber auch schon genug, meine ich. Man muß nicht darauf eingehen, daß man mit dem 2. Platz gerade so eben zufrieden war.

Der zweite Aspekt ist Eitelkeit, von Mibu angeschnitten - er bezog sich wohl auf den Nachsatz. Ich habe ihn auch gelesen und fand ihn ganz witzig. Irgendwie erinnerte dieses Duell an einen Schachkampf...der wiederum nur mit dem 2. Platz für Herrn Paulsen endete.

Insgesamt finde ich aber Herrn Paulsens Schreibe als anregend und, jawohl, interessant.
Gruß
Gerhard
#5 Frank Hoppe 2012-02-10 18:01
Die Mär von der 400-Punkte-Regelung (oder eine ähnliche Grenze) waberte jahrelang auch im DWZ-System herum. Tatsächlich gab es diese dort nie, weil sie einfach unfair ist. Theoretisch könnte sich ein Spieler auf diese Weise in bisher unerreichte Ratingregionen hochschaukeln.

Als Beispiel mal ein Match über 10.000 Partien von Spieler A (Rating 2.000) und Spieler B (Rating 1.000), die der stärkere Spieler Spieler A 10.000:0 gewinnt.

Beim DWZ-System wäre die Gewinnwahrscheinlichkeit für A bei nahezu 100%. Er würde keine Ratingpunkte dazugewinnen und B keine verlieren.

Beim Elo-System mit dieser ominösen 400-Punkte-Regelung würde die Gewinnerwartung für A bei nur 92% liegen. Macht etwa 800 Ratingpunkte Gewinn, womit der 2.000er Spieler A plötzlich zur Weltspitze gehören würde, obwohl er sicherlich kein bißchen besser geworden ist.
Interessant wäre noch zu wissen, ob Spieler B auch das Recht der 400-Punkte-Regelung zusteht und ihm 800 Punkte abgezogen werden...

Zurück zum Thema: Wie dieses Prozent-Wertungssystem eigentlich funktionieren soll, ist mir nicht ganz klar. Wer zwingt mich denn, mit meinen 80%-Ergebnissen den Karpfenteich zu verlassen und das Duell mit anderen Hechten zu suchen?
Eine Einteilung aller Spieler nach ihren prozentualen Ergebnissen ist völliger Unsinn und allenfalls in einer kleinen Spielergruppe anwendbar. Global gesehen, werden sich 99,99999% der Spieler nie begegnen, obwohl sie vielleicht derselben Prozentgruppe angehören. Oder bin ich jetzt mit meinen 80%-Ergebnis, das ich seit Beginn meiner "Karriere" 1982 eingespielt habe, stärker als Aronjan & Co., die nur auf 70% kommen?

Das Problem mit den "Wertungsinseln", die ja beim Prozent-System noch stärker in Erscheinung treten, ist seit vielen Jahren auch Thema innerhalb der DSB-Wertungskommission. So hat der frühere System-Kontrolleur Uwe Bade immer wieder ausführliche Statistiken zu unerwünschten Tendenzen bei der DWZ-Entwicklung in den Bundesländern vorgelegt. Vereinfacht gesagt, sind zum Beispiel Spieler mit DWZ 1600 im Saarland stärker als Spieler mit DWZ 1600 in Sachsen (Werte und Länder fiktiv).
Eine regionale Korrektur gab es übrigens schon mal vor etlichen Jahren. Eine deutschlandweite Korrektur gab es auch schon zwei bis drei Mal, um Deflation und Inflation vorzubeugen. Eine der Korrekturen war z.B. die Anhebung auf minimal etwa DWZ 800, weil es immer mehr DWZ unter 100 gab. Eine weitere Korrektur war die Anpassung der Formel für Spieler unter DWZ 1300: bei Niederlage wenig DWZ-Verlust, bei Sieg viel DWZ-Gewinn.
#6 Krennwurzn 2012-02-11 00:00
zitiere Frank Hoppe:
Die Mär von der 400-Punkte-Regelung (oder eine ähnliche Grenze) waberte jahrelang auch im DWZ-System herum. Tatsächlich gab es diese dort nie, weil sie einfach unfair ist. Theoretisch könnte sich ein Spieler auf diese Weise in bisher unerreichte Ratingregionen hochschaukeln..

Für dieses Problem kannten einige Länder wie zB Österreich eine automatische Faktorreduktion...

zitiere Frank Hoppe:
Als Beispiel mal ein Match über 10.000 Partien von Spieler A (Rating 2.000) und Spieler B (Rating 1.000), die der stärkere Spieler Spieler A 10.000:0 gewinnt.

Das ist nach den FIDE-Regeln unmöglich, denn es gilt max. 3 Partien je Tag und damit kann man bei Wertungsperioden von einem Vierteljahr nicht auf 10.000 Partien kommen.
#7 Thomas Richter 2012-02-11 10:50
Sinn und Zweck der 400-Punkte Regelung ist wohl den stärkeren Spieler zu schützen: wenn er doch mal einen halben oder ganzen Punkt verliert wird seine Elo nicht extrem beeinflusst. Und das kann ja passieren, auch im Fussball verlieren Bundesligisten Pokalspiele gegen Amateurvereine. Umgekehrt wird der schwächere Spieler für einen Zufallstreffer (oder Betrug - sei es Hilfe während der Partie, sei es Geld für den Gegner) nicht zu sehr belohnt.

Man könnte die Regel natürlich nur bei unerwarteten Ergebnissen anwenden, aber ausgenutzt wird sie ja eher selten: spontan fällt mir nur Vallejo ein der Ende 2008 mit 18/18 gegen Amateure seine Elo erstmals über 2700 hob (dieses Niveau aber inzwischen auch gegen etwa gleichwertige Gegner bestätigt hat).

Spieler vom Kaliber Dirk Paulsen und bis mindestens 200 Punkte darüber können ja auch Open spielen bei denen sie nicht klarer Favorit sind und - nach einigen Runden zum Aufwärmen - gleichwertige oder stärkere Gegner bekommen. Warum Herr Paulsen das nicht macht ist seine Sache: Hat er keine Lust mehr auf Hotelübernachtungen ausserhalb von Berlin? Spielt er bewusst nur Turniere bei denen er gute Preisgeldchancen hat?
"Ich mach mir doch meine Zahl nicht kaputt" bezieht sich ja wohl eher auf die Allerbesten (ab Elo 2700 oder gar 2750), die auch keine Open spielen "müssen" da sie regelmässig zu Rundenturnieren eingeladen werden.
#8 Dirk Paulsen 2012-02-11 11:22
Ich hätte nicht für möglich gehalten, für so viel Aufruhr zu sorgen. Der gezogene Schluss: man beschäftigt sich tatsächlich recht ausgiebig mit einem schlüssigen System --- und befindet sich auf der Suche, bisher ohne wirklich fündig geworden zu sein. Die Probleme sind offensichtlich doch bekannt und/oder vielfach diskutiert.
Um nun nach und nach mit ein paar Missverständnissen aufzuräumen folgende kleine Anmerkungen (bevor ich mich demnächst an Teil 3 mache):
zu Frank Hoppe: es war der Versuch, sich vosichtig an das Thema (also letztendlich die Formel) heranzutasten, verbal ohne gleich zu viel Mathematik anzubringen. Der von Frank so genannte "blanke Unsinn" ist es nur dann, wenn man entweder nicht richtig liest oder nicht richtig versteht. Wenn man beispielsweise ein Spieler der Stärke 70% ist und nur gegen 70% Spieler spielt, dabei genau 50% erzielt, so hat man seine Spielstärke bestätigt und behält die 70% Spielstärke. Wenn Frank 80% der Punkte erzielt hat gegen eine Schnitt von 20%, dann dürfte er in etwa eine Spielstärke von 50% haben (die Formel dafür später). Dies Teil 1 der Antworten. Später mehr...
#9 Dirk Paulsen 2012-02-11 12:08
Weiterhin verstehe ich, dass es eine etwas größere Skepsis gegenüber dem System gibt. Hierzu kann immerhin so viel gesagt werden: Der Internationale Meister René Stern, welcher seine Diplomarbeit über ein sehr verwandtes Thema anfertigte (jedenfalls ging es um das Elo-System) las einen bereits komplett vorliegenden Text (der hier wohl etwas den Rahmen sprengen würde) über das letztendlich hier vorgestellte System. Seine Reaktion nach dem Studium des Textes: "Dein System ist besser."
Der zuständige Mathematiker Stephan Poppe, vom Max-Planck-Institut in Leipzig, der Mann, der den Nachweis der (bereits gesicherten) Existenz führen wollte (mit Erfolg; Ernst Zermelo) , meinte, dass das System ja quasi das gleiche sei wie das Elo-System. Er suchte eine Weile lang vor allem nach den Parallelen -- einerseits, um es damit für unbedeutend zu erklären, andererseits aber auch mit Erfolg.
Noch mehr Antworten in einem weiteren Kommentar...
#10 Dirk Paulsen 2012-02-11 12:14
An Herrn Thomas Richter: das eine Missverständnis scheint darin zu bestehen, dass die Antwort "ich spiele keine Open, ich mache mir doch meine Zahl nicht kaputt" mir sozusagen in den Mund gelegt wird, vermutlich, weil ich das Beispiel des Winter Opens brachte. Nein, das Argument stammt exakt von den sehr guten Spielern, Für mich hat es keinerlei Relevanz. Ich würde jedes Open Turnier spielen, egal, ob schwächer oder stärker besetzt und gar unabhängig von der Höhe des Startgeldes. Meine Abstinenz ist so zu erklären: ich spiele garantiert derzeit nur in Berlin, da meine familiäre Situation nichts anderes zulässt. So gerne ich diese auch näher erläutern würde, verzichte ich an dieser Stelle doch darauf. Man nehme aber hin: es geht derzeit nicht. Selbstverständlich bleibt es eine Zukunftsvision (welche auch bereits in der Vergangenheit gehegt wurde, vor dem Eintreffen reichlich eigenen Nachwuchses), einmal eine Serie von Turnieren außerhalb Berlins zu spielen, vor allem, um auf konstant höherrangige Spieler zu treffen.
-1 #11 Thomas Richter 2012-02-11 14:42
Hallo Herr Paulsen: Aus meiner Sicht war es kein Missverständnis, es ist ja offenbar genau so wie von mir vermutet. Von Ihnen selbst kann das Zitat ja schon deshalb nicht stammen da Sie durchaus (gelegentlich) offene Turniere spielen.

Bei den Spitzenspielern (ein sehr kleiner Kreis, 95-99% in Ihrem System?) vermute ich - zumindest auch - andere Gründe, z.T. von mir bereits angedeutet. Daneben können wohl nur sehr wenige Opens deren finanzielle Erwartungen erfüllen, spontan würde mir nur Gibraltar und Aeroflot einfallen. "Ich mache mir doch meine Zahl nicht kaputt" klingt aber vielleicht weniger arrogant als "dafür habe ich gar keine Zeit" oder "die zahlen nicht gut genug" (auch wenn letzteres aus Sicht von Schachprofis auch verständlich ist).
Vielleicht spielen sie noch eher mal schwächere Schnell- oder Blitzturniere, ausser dem fehlenden Elo-Risiko ist auch der Zeitaufwand geringer.

Bei Ihnen persönlich hatte ich auch andere (private, berufliche oder familiäre) Gründe vermutet, wollte darüber aber nicht öffentlich spekulieren - "keine Lust auf Hotelübernachtungen" war wohl zu flapsig, aber ich probierte mich kurz zu fassen.
Ein ähnlicher bzw. etwas extremerer Fall wie Ihrer ist vielleicht Rainer Tomczak (Ihnen wohl persönlich, mir vorher nur vom Namen her bekannt): Letzten Sommer schaute er im Texel-Urlaub in unserem Dorfverein vorbei und holte 100% in einem kleinen Blitzturnier - ansonsten spielt er aber anscheinend gar nicht mehr.

Was ich mich allerdings frage: Was erwarten Sie Elo-mässig von Winter Open und vergleichbaren Turnieren? Doch etwa nicht jeweils 5, 10 oder 20 Punkte zuzulegen, oder wäre das in Ihrem System der Fall?? Ob es (stattdessen) am Ende -0,6 oder doch +1,1 war ist doch eher egal - und bei einem oder zwei weiteren Siegen gegen 2000er wäre die Bilanz ja doch zumindest leicht positiv gewesen.
#12 Losso 2012-02-11 22:25
"Eine Konsequenz übrigens dieser gemachten Beobachtung: ab Elo-Differenzen von 600 Punkten tritt der sehr bedenkliche Fall ein, dass die Erwartung des Favoriten (mit den verwendeten, vereinfachten Formeln) gegen 1 tendiert. Es gibt dadurch Fälle, die bedeuten, dass man, durch die Verschlechterung des Schnitts durch einen solchen Gegner, trotz des eingefahrenen Sieges, Elo-Punkte einbüßt."

Selbst wenn das so ist. Die statistische Relevanz dieses Faktums halte ich für so gering, dass es lässlich ist, darüber überhaupt zu diskutieren.
#13 sss 2012-02-13 12:12
Hallo Dirk, leider habe ich das System noch nicht in seiner ganzen Tragweite erfasst (du lässt ja auch erst im dritten Teil die Katze richtig aus dem Sack), aber was mir spontan nicht so recht einleuchten will, ist ja das Problem, dass das System nur Prozentzahlen von 0 bis 100 umfasst bzw. umfassen kann. Die realen Elozahlen ersterecken sich aber nun über einen Bereich von (theoretisch) 0 bis 2850 oder höher, und als Faustregel gilt ja: ca. 80 Elopunkte Differenz ergeben einen Unterschied von 10 % in der Ergebniserwartung. 2850 geteilt durch 80 ergibt aber nun einen Prozentbereich von über 350! D.h., da müßte irgenwie eine Komprimierung der Prozente um den Faktor 3,5 stattfinden, jedenfalls würden die Differenzen zwischen den Prozentzahlen keine direkten Gewinnerwartungen ergeben. Das war übrigens vielleicht eher im guten alten Ingo-System der Fall...
Ein anderes Problem ist befürchte ich ein psychologisches: DWZ 2000 klingt irgendwie viel besser und nach "mehr" als sagen wir 53 %... und wie klingt das: "Ich bin ein 30%-Schachspieler"? Irgendwie etwas minderwertig, möchte ich meinen...
#14 Guido Montag 2012-02-14 10:51
Anbei einige Bemerkungen zu dem interessanten Beitrag, den ich auf Grund seiner epischen Breite
noch nicht vollständig konzipiert habe. Aber es folgt ja auch noch (mindestens) Teil 3.

Was als erstes auffällt, ist dass Probleme mit dem Wertungssystem (DWZ ist immerhin besser als ELO)
schon länger und auch höheren Orts (z.B. Wertungskommision) bekannt sind und sich aber nichts prinzipielles tut.
Zunächst zu einigen Vorurteilen oder Missverständnissen:

- Die DWZ (oder ELO) wurde nicht zur Abschätzung eines Partieausganges erfunden sondern zur Schätzung der aktuellen
Spielstärke. Darauf beruhen dann solche Missverständnisse wie: Der hat viel weniger ELO als ich, also darf er gar nicht gegen mich gewinnen, da ist was faul. (So ähnlich passiert beim Lichtenberger Sommer 2003).

- Die Menge aller DWZ-Zahlen ist normalverteilt. Das stimmt so nicht. Die Grundannahme der Berechnung ist, dass die
individuelle Spielstärke einer Einzelperson normalverteilt mit Erwartungswert DWZ und konstanter Streuung von 100 ist.
Wer sich die aktuelle DWZ-Verteilung in Deutschland ansieht, sieht dass sie ungefähr trimodal ist.

Bei der sog. ELO-DWZ-Berechnung handelt es sich um einen Schätzer, der die aktuelle Spielstärke (a-posteriori) auf der Grundlage der alten Spielstärke (a-priori) und dem Ausgang einer (oder mehrerer) Schachpartien (Messung) berechnet.
Ob die inzwischen eingeführten variablen Entwicklungskoeffizienten E und K die Annahme konstanter Varianz aufweichen soll, entzieht sich meinem Verständnis, da mir u.a. die Originalarbeit von Arpad Elo nicht zugänglich ist.
Jedenfalls haben Spielstärke- oder altersabhängige Koeffizienten in einem logischen Berechnungssystem nichts verloren,
genauso wie Kappung der Zahl Brems-, Beschleunigungskoeffizien t usw. Nächstens kommt noch jemand auf die Idee geschlechtsspezifische Koeffizienten einzuführen :-)


Kurz zur Meinung, ich spiele kein Open, um mir meine Zahl nicht kaputt zu machen. Da ist was dran, aber es bedeutet eigentlich, dass entweder meine DWZ, oder die meiner Gegner nicht korrekt sind.
Folglich muss ein verbessertes System her. Ich bin gespannt.
#15 leAchim 2012-02-14 13:41
zitiere Krennwurzn:
Das ist nach den FIDE-Regeln unmöglich, denn es gilt max. 3 Partien je Tag und damit kann man bei Wertungsperioden von einem Vierteljahr nicht auf 10.000 Partien kommen.

Danke für diesen wichtigen Hinweis. Darauf wäre ich nie gekommen, da ich Frank Hoppe niemals so absichtlich mißverstehen könnte.
#16 leAchim 2012-02-14 14:01
Ich bin sehr gespannt, um wieviel genauer / richtiger sich das vorgestellte Berechnungssystem erweisen wird.

Das Grundproblem besteht doch unverändert darin, dass es kein absolutes, objektives Maß für die Spielstärke gibt, weshalb sich die Wertungszahlen aus einer Vielzahl von Relationen zwischen Spielstärken ergibt, die ständigen Veränderungen unterliegen.

Deshalb gilt als einzige Regel: Wenn sich viele so intensiv mit Schach beschäftigen würden, wie mit ihrer DWZ, hätten sie auch eine bessere DWZ!
#17 Thomas Richter 2012-02-14 19:59
Zum Beitrag von Guido Montag: Mag schon sein dass es "Probleme mit dem Wertungssystem" gibt, das heisst noch nicht unbedingt dass ein anderes System besser wäre (Demokratie ist auch kein perfektes System). Was mich interessieren würde (bin da total ahnungslos): Warum ist DWZ besser als Elo? Und wieso sind beide Zahlen dann doch oft nahe beieinander (zumindest wenn beide auf einer signifikanten Anzahl von Partien beruhen)?

Elo ist natürlich immer eine Momentaufnahme, Spielstärke allerdings auch. Jeder kann mal an einem Tag, oder in einer ganzen Woche, viel besser oder schlechter drauf sein als sonst üblich. Wenn man seine Lieblingsvariante aufs Brett bekommt ist man vielleicht 100 Punkte besser, wenn man in die Vorbereitung des Gegners läuft hundert Punkte schlechter (beides korreliert miteinander, schwups sind 200 Punkte überbrückt!?).

"ich spiele kein Open, um mir meine Zahl nicht kaputt zu machen."
Das kann zwei Gründe haben:
1) Ich tue mich generell schwer deutlich schwächere Gegner zu besiegen.
2) Meine Gegner sind unterbewertet (kaum jemand wird zugeben dass er selbst überbewertet ist).
Nun sind bei Open vielleicht zwei Spielertypen überrepräsentiert: aufstrebende Jugendliche und Spieler im Herbst ihrer Karriere. Letztere haben vielleicht konditionelle Probleme bei langen Partien und/oder sind eröffnungstheoretisch nicht ganz auf dem Laufenden - aber in manchen anderen Partien profitieren sie immer noch von Schachverständnis und Erfahrung. Wer vor fünf oder zehn Jahren 2600 hatte und momentan 2500 spielt manche Partien immer noch auf dem höheren Niveau. Wer vor zwei Jahren 2400 hatte und momentan 2500 spielt vielleicht bereits auf Niveau 2600 und wird dieses vielleicht demnächst "offiziell" erreichen - ist dann aber immer noch unterbewertet wenn er zwischenzeitlich noch mehr Fortschritte gemacht hat.
#18 Guido Montag 2012-02-14 21:12
@Thomas Richter
DWZ ist besser als ELO, weil
sie ist dynamischer
es gibt deutlich mehr DWZ ausgewertete Partien als ELO (in Deutschland)
die Aktualisierung erfolgt häufiger

ELO-Zahlen sind in der Regel deutlich höher (ca. 200) als DWZ.
Das liegt an der Kappung. Bis vor kurzem lag die Einstiegs-ELO bei 2000,
aus kommerziellen Gründen ist sie inzwischen auf 1200 abgesenkt worden.
Aus mathematischer Sicht ist die Kappung totaler Humbug.

Viele kennen das Phänomen, dass man gegen Jugendliche oder Kinder, die sonst

vor allem unter sich spielen und deswegen geringe DWZ haben (Inselproblem)

Punkte einbüßt. Dagegen kann man Lösungsvorschläge machen.
Es ist aber nicht einzusehen, dass ein junger Spieler für eine gewonnene

Partie mehr Punkte bekommt, als ein "alter Knacker". Das widerspricht dem

objektiven Charakter des Schachspiels.

Ansonsten sollte man die DWZ eher als ein Ranglistensystem, denn als

Spielstärkebewertungssyst em begreifen.
#19 Thomas Richter 2012-02-15 20:34
@Guido Montag: Für mich sind die Vorteile der DWZ gegenüber Elo relativ:
- "dynamischer" ist wohl ein Vorteil für Spieler die kontinuierlich besser oder auch schlechter werden - da ist die DWZ näher an ihrer tatsächlichen Spielstärke. Aber: macht es Sinn wenn Ivanchuks Elo zwischen 2500 und 2900 schwanken würde statt, wie derzeit der Fall, zwischen 2700 und 2800?
- mehr Partien: das stimmt wohl für die breite Masse, aber nicht (unbedingt) für fortgeschrittene Spieler ab ca. Elo 2200.
- häufigere Aktualisierung: war früher ein Problem für FIDE-Elo, aber derzeit werden die Zahlen alle zwei Monate aktualisiert (soll glaube ich monatlich werden). Reicht das wirklich nicht?

Zum Jugendbonus: Zunächst mal verlieren sie ja auch pro Niederlage mehr Punkte. Der Gedanke dahinter ist wohl:
- wenn ein Jugendlicher einen GM schlägt (z.B. der 14-jährige Paolo Formento) er vielleicht wirklich Potential hat
- wenn dagegen ein "alter Knacker" dasselbe erreicht (ohne dass er vorher besonders auffiel) es eher ein Zufallstreffer war. Siehe hierzu Kwossek-Rozentalis in Bad Wiessee oder FM Preissman-Fier in Genf Dezember 2011, beide Sieger waren über fünfzig und relativ unbekannt.

Die Teilnahme an unserer Kommentarfunktion ist nur registrierten Mitgliedern möglich.
Login und Registrierung finden Sie in der rechten Spalte.