Freitag, 24 Februar 2012 01:14

Spielstärke Maßzahlen – Teil 4

Sicher hatte man beim Herangehen an die Vorstellung dieses Systems gewisse Erwartungen. Aus Erfahrung weiß man, dass eine derartige Idee eigentlich nur auf Widerstand stoßen kann. Kasparov schreibt in seiner Buchserie „My great Predecessors“ einmal, dass er eine unglaubliche Kombination gefunden hatte, natürlich mit einem Opfer eingeleitet, und dass ihm diese Kombination von allen Seiten um die Ohren gehauen werden sollte. Warum die Konkurrenz nun, anstatt womöglich Beifall zu klatschen, einzig Freude daran hatte, die Fehlerhaftigkeit der Kombination aufzudecken, sich lediglich mühte, eine Verteidigungsidee zu finden, und selbst wenn es im Variantendschungel nur diesen einen winzig schmalen Grat gegeben haben sollte, den man nur mit übermenschlichen Kräften zu finden imstande wäre, und welcher auch, bei optimaler Spielführung beiderseits, nur im Remis (und nicht etwa in Gegners Sieg) mündet, dann, so die Überzeugung, würden sie wieder ruhig in den Schlaf finden, während sie andernfalls etwas quälen (dies eine eigene Weiterleitung der Gedanken), beantwortete er so:

„Brillance always seems to cause some kind of envy.“ Die Brillanz erzeugt Neid. Er führt weiter, dass sich jeder irgendwie die Frage aufwirft: „Why can´t I do that?“ Warum bin ich nicht darauf gekommen? Es kann nicht gut sein, so ist man überzeugt.

Nun ist dies eine kleine Geschichte, nur eine, zur Einleitung, zum Aufwärmen, zum Schmunzelnd vielleicht, und soll um Gottes Willen nicht zu irgendeinem Vergleich herhalten, am allerwenigsten mit der eigenen Person.

Es war jedoch bereits erwähnt, dass man mit der Aufdeckung von Schwachstellen rechnen würde, dass sie, speziell von dem Mathematiker, dem das System ursprünglich vorgestellt war (in ziemlich anderer Form) sogar in gewisser Weise gelungen war („das gibt es schon, Herr Paulsen!“), dass man aber dennoch bei der Überzeugung blieb, dass es besser ist als das verwendete System, und also zu dem Entschluss gelangte, es einmal darzulegen.

Nun stellte sich weiterhin die Frage, in welcher Form man es hier anbieten könnte. Auch damit hat man sich beschäftigt, vor allem in Absprache mit dem Betreiber der Webseite. Kürzere Texte, so das (eine) Zauberwort. Das andere war jenes: nur keine Formeln (dies eine eigene Überzeugung, dass es nicht gerade anziehen wirkt mit denselben). Also: verbal erörtern, herleiten, logisch erklären.

Die kleineren Häppchen bedeuten lange nicht, dass man auf noch ausstehende (oder eben in den Kommentaren gestellte) Fragen keine Antworten wüsste. Andererseits ist es ja unmöglich, ALLE Probleme auf einmal aus der Welt zu schaffen. Wie ginge das? Nur in einem kompletten Text, und dieser sollte ja gerade vermieden werden.

Also: man fühlt sich in einer Schusslinie und weiß nicht recht, wie man in sie geraten ist.

Ein weiteres Zauberwort lautet übrigens so: Kompetenz. Wie erlangt man sie? Es gibt hierzulande eine Neigung, diese ausschließlich an akademischen Graden festzumachen. Da diesseits der Tastatur kein derartiger Grad ins Feld geführt werden kann – und der kritische Leser vermutlich darüber sehr wohl informiert ist – wird eh alles in Frage gestellt. Es kann ja gar nicht stimmen, was der Mann schreibt, da er nachweislich von nichts eine Ahnung hat. Nun ja, in diesem Problem sah man zweifellos die größte Hürde (und fühlt sich bestätigt). Insofern jedoch dienten die kleinen, kurzen Textpassagen bisher der möglichen Zusprache einer gewissen Kompetenz. Möglich, dass dieser Versuch bereits jetzt als gescheitert angesehen werden muss.

1) Eine einfache Überprüfungsmöglichkeit für die Formel

kurz vorher noch einmal die „Formel“. Man dividiert seine Spielstärke p1 durch 1-p1, also p1/(1-p1). Dieser Quotient ist die Maßzahl für das Verhältnis von gewonnenen Punkten zu abgegebenen Punkten. Für den Gegner tut man das gleiche. Sein Quotient ist p2/(1-p2). Diese beiden Quotienten dividiert man durcheinander und erhält den Quotienten q. Dieses Ergebnis q ist die Zahl, in welchem Verhältnis sich die 100 zu vergebenden Prozente aufteilen müssten. Um also für beide Seiten ihre Prozentzahlen zu ermitteln muss man nun 1/(q+1) errechnen. Dies ist die eigenen Erwartung, Der Gegenwert 1- 1/(q+1) davon ist die Erwartung des Gegners. Die Summe der beiden Erwartungen ist 1.

Es wurden also derartig viele Kritikpunkte angefunden, allesamt untermauert mit Kommentar Verfassers eigener, überragender und jene des ursprünglichen Autors weitaus in den Schatten stellender Kompetenz (welche sich oftmals in der Bombardierung mit Formeln und Zitaten, also rein und anerkannt „wissenschaftlicher Arbeit“, darstellt), dass man kaum weiß, wo man anfangen soll mit der Aufarbeitung.

In Teil 3 war zu lesen, dass die Formel stimmt und nicht weiter überprüft werden müsse. Nun ist dies anerkanntermaßen unzulässig, wie angemerkt wurde. Nur war es eben andererseits nicht geplant, einen Formelwald zu hinterlassen. Wie man auf Formeln kommt, dies muss jeder, der daran Freude hat, für sich selbst herausfinden. Man spürt, dass es eine korrekte, richtige Verrechnungsmöglichkeit der verfügbaren Größen gibt und man muss sich dieser annähern. Sofern die Verrechnungsmöglichkeit fehlerhaft ist, wird es sich recht bald herausstellen.

Eine exzellente Möglichkeit, es herauszufinden, besteht immer darin, Anforderungen an das System für Trivialfälle zu überprüfen: erfüllt sich das, was ich als Ergebnis erwarte, in jedem dieser einfachen Fälle?

Hier gibt es zwei Trivialfälle: der eine ist der, dass vor einer Schachpartie einer der beiden Spieler 50% als Spielstärke hat. Hier war die Voraussetzung gemacht, dass die Spielstärke eines jeden Spielers ausdrücken soll, wie viel Prozent er gegen den Durchschnittsspieler erzielt (oder besser: zu erzielen erwartet). Insofern müsste man, bei Einsetzen in die Formel der Werte „eigene Spielstärke“ und „Gegners Spielstärke bei 50%“ als Ergebnis eine Erwartung für die Partie in Höhe der eigenen Spielstärke herausbekommen.

Dies ist auf einfachste Weise erfüllt: man dividiert, laut Formel, die eigene Prozentzahl, also die SpielSTÄRKE, durch die abgegebenen Prozente, in dem Sinne also die „SpielSCHWÄCHE“. Dieser Quotient ist eine Verhältniszahl, welche die Spielstärken untereinander vergleichbar macht. Wenn man dies für beide Spieler tut, dann erhält man für den Spieler mit den 50% einen Quotienten von 1 (50/50=1). Bei Division des eigenen Verhältniswertes durch 1 bleibt man stets auf seinem eigenen Verhältniswert. Wenn man nun die Erwartung zurückrechnet auf 100%, so hat man exakt die eigene Spielstärke als Erwartung für die Partie gegen den Durchschnittsspieler. Trivialfall 1: die Formel erfüllt die Bedingung.

Der andere Fall ist der, zwei gleich starke Spieler gegeneinander antreten zu lassen. Nun ist der Fall auch hier denkbar einfach: man erhält für beide den gleichen Quotienten bei der oben beschriebenen Division, dividiert man diese beiden Quotienten durcheinander, so erhält man garantiert eine 1, wenn man diese 1 nun auf 100% aufteilen möchte (nach der angegebenen Formel: 1/(1+1)), so erhält man eine 1/2 beziehungsweise eine 50% Erwartung für beide Spieler.

Nichts anderes hätte man (abgesehen von der Schwarz-Weiß Problematik, die später erörtert werden soll) zu erwarten: zwei gleich starke Spieler haben gegeneinander jeweils 50%. Also: Trivialfall 2 ist ebenfalls von der Formel abgedeckt.

Ein sehr gutes Indiz dafür, dass die Formel richtig ist. Bei weiteren wesentlichen Berechnungen stellt man im Übrigen fest, dass man niemals den Bereich 0 bis 1 verlassen kann. Auch dies ein Kriterium für Stimmigkeit.

Rein intuitiv, und da möge man sich an die eigene Kindheit entsinnen, bringt übrigens die Formel genau das zum Ausdruck, was eben Kinder ab und an untereinander sagen: „Ich bin 10 Mal besser als du.“ Wenn es tatsächlich so ist, so wäre die Aufteilung nicht etwa 90:10, denn das wäre ja nur 9 Mal so gut, sondern tatsächlich müsste sie sein 90.9090 : 9.0909, wie man ziemlich einfach, allein an den beiden Zahlen sieht: sie dividieren sich mit dem Ergebnis 10.

Ergeben täten sich diese Werte auf höchst vielfältige Weise (wie man in einem selbstverständlich kritischen Kommentar auch auf komplizierteste Art hergeleitet, mühsamst erkennen konnte). Es gäbe dementsprechend keine ganz schlichte Funktion, an der man erkennen könnte, dass man nun gerade gegen einen derartigen Gegner die Erwartung von 90.0909 hätte. Andererseits: wozu bräuchte man diese?

Die angegebene Formel ist so einfach, dass sie jeder Schachspieler ohne jeglichen Aufwand innerhalb von kürzester Zeit erlernt hätte und sie damit stets zur Hand hätte, um die Erwartung in seiner anstehenden Partie zu bestimmen. Und dies, so sei versichert, steht im sehr krassen Gegensatz zur Elo-Formel, bei der selbst die vereinfachte Form (welche durch die Vereinfachung noch dazu unrichtig ist) kaum je einer aus dem Ärmel schütteln könnte.

2) Die Notwendigkeit eines Prognosesystems

Eventuell darf man ja, zur Erlangung von Kompetenz, eine kleine Vorgeschichte aus dem eigenen Leben erzählen, diese in der Ich-Form, wenn es genehm ist? 

Im Jahre 1983 begegnete ich das erste Mal dem Wetten auf Sportereignisse. Es handelte sich um einen englischen Anbieter, SSP Overseas Betting. Da ich parallel an der Uni bereits ein erstes Fußballprogramm entwickelt hatte, welches sich mehr und mehr in Richtung Prognosenerstellung entwickelte, schien mir dies ein ideales Betätigungsfeld. Zeitgleich hatte ja nebenbei auch noch eine (recht erfolgreiche) Backgammon Karriere begonnen (unter anderem mit dem Gewinn des Superjackpots bei den Weltmeisterschaften in Monte Carlo im Jahre 1988), so dass das Denken in Wahrscheinlichkeiten mir ein mehr und mehr vertrautes wurde.

Dennoch habe ich zunächst eine Ausbildung (Software Entwickler) abgeschlossen (anstelle des Mathe-Studiums, denn in jener Zeit waren Entwickler gefragt), und mich ein paar Jahre als Angestellter verdingt. Jedoch ruhte ich nicht, meine Entwicklung daheim voranzutreiben.

Im Jahre 1990 war es so weit: pünktlich zur WM hatte ich ein lauffähiges Programm auf dem heimischen PC, welches sich mit Voraussagen (im Sinne von Wahrscheinlichkeiten) auf Fußballspiele verstand. Der Job wurde gekündigt und eine Karriere als professioneller Spieler eingeschlagen, selbst wenn eingangs noch nicht ganz bewusst (ich war überzeugt, dass man die Software oder die Ergebnisse derselben gut verkaufen konnte, was sich eigentlich auch bestätigte, nur spielte ich einfach „nebenbei“ auf diese Zahlen).

Das Ergebnis war, über die Jahre gesehen, in etwa ein (ziemlich genau aufgezeichneter) Gewinn von 3.5%.

Natürlich kommt man mit der Zeit mit diesem und jenem Menschen zusammen, aus der gleichen Branche, und begegnet auch dieser oder jener für den Wettmarkt interessanten Sportart. Ich hatte einen leidenschaftlichen „Tennismann“ kennen gelernt, der mich fragte, ob da nicht etwas ginge.

Ich setzte mich daran und entsann einen Algorithmus, mit welchem man möglichst gute Prognosen auf Tennis Matches erstellen konnte. Der Grundstein war rasch gelegt, die Formel zur Berechnung eines Matches (nach einem Einstiegsdenkfehler, welcher über die erbeuteten Einzelpunkte versuchte, sich anzunähern, bei welchem man jedoch alsbald feststellte, dass er die Realität nicht abbildete. Der Grund, eher ein Reporterbegriff, aber zufällig ein wirklich stimmiger: es gibt die „Bigpoints“, bei welchen sich die Spreu vom Weizen trennt; gerade Pete Sampras war dafür bekannt, sich auf ein Break oder auch den tiebreak zu konzentrieren, und er schenkte viele Punkte und damit Spiele einfach her als Rückschläger, sogar, letztendlich ökonomisch gesehen, aus Gründen der Zeitersparnis, wenn man es zu Ende denkt).

Die Formel ist jene, welche in dieser Serie hier präsentiert wird. Sie ist also entstanden im Zusammenhang mit dem Spiel Tennis. Die Idee, dieses System auf den Schachsport zu übertragen, kam erst viel später (selbst wenn mir bewusst war, dass die gefundene Möglichkeit auf jeden Einzelsport abbildbar wäre).

Dies alles ist nur erwähnt, um begreiflich zu machen, dass man auf ein System zur möglichst guten Prognose – im Sinne von Wahrscheinlichkeiten beziehungsweise von Punkterwartungen, wenn man so möchte – angewiesen war. Ich MUSSTE gute Prognosen erstellen können. Dafür muss einerseits der Algorithmus logisch, mathematisch korrekt, einwandfrei und nachvollziehbar sein, zugleich aber auch die beiden Probleme der Neueinsteiger (bis heute ein unleugbares, auch auf Schach bezogen) und jenes der Update Geschwindigkeit, also der Anpassungsparameter gelöst werden, welche – wie in einem Kommentar vorzufinden, damit zum Versäumnis erklärt – unabdingbar hinzugehören.

 3) Die Anpassungsparameter

Dieses Problem war ich grundsätzlich bereits angegangen im Jahre 1990. Selbst wenn damals vom Sport des Fußballs her, so ist doch die Überlegung, wie man es tut, analog, Schach, Fußball, Tennis, beliebig. Auch dieses Vorgehen erschien mir sehr einfach und logisch. Das System dazu, hier möglichst kurz, hoffentlich anschaulich, erörtert:

Sofort einsichtig scheint doch, dass man die Qualität einer Prognose daran erkennt, inwieweit sie von der Wirklichkeit abweicht. Bevor dies näher erläutert wird, zunächst noch die wichtige Vorüberlegung, dass man, sobald man zwei verschiedene Prognosen hätte, die bessere der beiden anhand der Höhe der Abweichung bestimmen könnte.

Nun, auf Schach bezogen (warum nicht, da es gleichgültig ist, dank der Analogie), heißt das doch dies: wenn man eine Prognose abgibt, auf eine einzelne Partie, von 0.62 Punkten für den Favoriten, dann wird man auf jeden Fall eine Abweichung erhalten. Wenn der Favorit gewinnt, wäre sie 0.38, wenn die Partie Remis ausgeht wären sie um 0.12 Punkte verfehlt, wenn der Außenseiter gewinnt, wären es gar 0.62 Punkte. Eine Abweichung ist unvermeidlich und es wäre fraglich (aber hier nicht näher erörtert), ob Gott es tatsächlich vorhersagen könnte, oder ob er es den kleinen, nichts ahnenden Menschenkindern überlässt, was sie ausbaldowern, er es also selbst nicht einmal weiß und auch nicht wissen möchte.

Falls die Partie denn nun Remis ausginge, so könnte der Favorit mit den Schultern zucken (natürlich jeder andere auch), und behaupten, dass er gerne ein Match über 100 Partien gegen den Gegner spielen würde, dann würde er sicher auf seine 62 Punkte kommen. Er könnte weiterhin behaupten, stets näher am Sieg gewesen zu sein, sich also von oben ans Remis angenähert zu haben, und damit seiner Favoritenrolle, selbst wenn nicht zählbar, so doch irgendwie „moralisch“ gerecht geworden ist.

Unstreitig dürfte aber dennoch sein, dass derjenige, der, mit einer alternativen Prognose, nur 0.61 Punkte prognostiziert hätte, im Falle des Remis eine geringere Abweichung und damit, für diese Partie, eine bessere Vorhersage getroffen hätte.

Wenn man dieses Verfahren nun fortsetzt, auf viele Partien anwendet, und jeder der beiden mit seinem eigenen Prognosesystem vorhersagt und anpasst, so würde man doch ziemlich gewiss einen Sieger küren können. Der hat eine geringere Abweichung insgesamt, dieses System wird demnach (erst einmal) als besser angesehen.

Nun verfügt man leider, im Sinne der Optimierung, nicht über zwei unabhängig voneinander eingehende Prognosen. Oder halt, vielleicht ja doch? Was, wenn man sie selbst und höchst eigenhändig einfach erzeugt? Man vergleicht zwei von einem selbst gefertigte Prognosen miteinander, wie wäre das denn?

Die Datenbasis ist da. Es muss nur die Chronologie eingehalten werden. Und eine gewisse Logik bei der Abarbeitung. Jede Partie wird, in chronologischer Reihenfolge, einzeln ausgewertet. Der Unterschied, den die zwei „Systeme“ haben, ist lediglich die Anpassungsgeschwindigkeit. Man tut dies selbstverständlich mit einem Programm, welches so instruiert wird (und dieses kennt zwar die Ergebnisse der zukünftigen Partien, jedoch berücksichtigt es diese nicht, um eine bessere, dann natürlich möglich: optimale Prognose, zu erstellen).

Also, sozusagen „heureka“, hier ist die Methode zur Ermittlung der optimalen Anpassungsgeschwindigkeit. Man arbeitet alle Daten systematisch ab, mit einer gewissen Anpassungsgeschwindigkeit. So erhält man pro Partie eine gewisse Abweichung zwischen prognostizierter Punkterwartung und eingetroffenem Ergebnis. Da, wo die Summe der Abweichungen am geringsten ist, hätte man den optimalen Wert.

Nun, so ganz ist man noch nicht am Ziel. Denn: was tut man mit den Neueinsteigern? Und dann noch diese Frage: sollte man davon ausgehen, dass es Spieler gibt, bei denen sich verlässlich weniger tut und solche, wo es sich garantiert mehr bewegt? (denn das ist, was tatsächlich im Elo-System vorausgesetzt, angenommen einfach so, getan wird). Dies betrifft einerseits die Neueinsteiger, die ja, selbst bei erfolgter Initialisierung, noch über ein höheres Entwicklungspotenzial (in der Regel nach oben) verfügen, andererseits aber womöglich auch die wirklich etablierten Spieler, bei welchen sich viel weniger bewegen sollte (dies zu überprüfen).

Einen Sinn ergäbe die Überlegung auf jeden Fall, nur stellen sich selbst da noch die folgenden, weiter gehenden Fragen: ist die Entwicklung der Neueinsteiger eine logische oder hängt sie doch viel mehr mit dem Alter zusammen? Neueinsteiger sind meist jung, aber vielleicht entwickelt sich ein älterer Neueinsteiger nicht sprunghaft sondern ähnlich gemächlich wie ein älterer, etablierter Spieler? Und diese noch: hängt die Entwicklungsgeschwindigkeit nicht doch vielleicht am meisten von der Höhe der Zahl ab? Kriterium dafür (dies jedoch ein speziell schachliches Problem): aufgrund der Komplexität des Spiels erscheinen die Ausgänge bei niedrigeren Spielstärkekategorien weitaus zufälliger. Es fehlt ein Turm – kein Problem, man bekommt ja gerade die Dame zurück, aufgrund eines Einstellers, oder hat eine Mattdrohung aufgestellt, die der Gegner übersieht. Mal ein Figürchen mehr, mal zwei Bauern weniger, mal einem eigentlich tödlichen Angriff ausgesetzt – für die Prognose der Partie unter Anfängern noch lange keine Anhaltspunkte.

Nun, sofern allseits akzeptiert (wie ja bei Elo wohl der Fall) könnte man diese Phänomene natürlich, nach ebenso festen Kriterien, mithilfe der Zahlenbasis und des beschriebenen Vorgehens überprüfen. Man versucht nach und nach, den insgesamt gemachten Fehler zu reduzieren mit den eigenen Prognosen. Sobald man das Minimum hat, hätte man die optimale Einstellung.

Zur Neueinsteiger Problematik noch dieser kurze Vorschlag: in Ermangelung anderer Kriterien (welche im Übrigen stets subjektiv und damit ungeeignet wären) habe ich beim Tennis alle Neueinsteiger stets mit dem Durchschnittsergebnis der Neueinsteiger belegt. Da sie insgesamt über die Jahre auf etwa 42% gewonnene Matches kamen, hatten sie auch diese Einstiegszahl (sie hatten natürlich eine Performance von 42%, was aber vermutlich in etwa 1:1 ist mit der Anzahl gewonnener Matches). Selbstverständlich könnte man zu jedem Zeitpunkt diesen Wert aktualisieren. Wenn es also in 20 Jahren im Schach so wäre, dass die Neueinsteiger auf 45% kämen, dann würde man sie vernünftigerweise auf diesen Wert initialisieren.

Dies ist nur eine Einstiegswertung, eine, die Grundannahme ist für die erste gespielte Partie (das erste gespielte Match). Das Ergebnis wird selbstverständlich ausgewertet, die Spielstärke angepasst und fortan mit diesem Wert weiter gerechnet. So weit man es beurteilen kann, dürfte es darüber keine besonderen Beschwerden geben. Zumal es natürlich klar ist, dass man in den ersten Partie stets (wie bei ICC und anderen Schachservern längst üblich) mit einem hohen – bei dem System jedoch derart optimierten – Anpassungswert startet. Die Anzahl der Partien, oder ob es mit jeder Partie abnehmend geschieht, sollte man zunächst abstimmen gut überlegen (nur wegen der Transparenz), und dann dem Optimierungsdurchlauf im Programm überlassen.

Da gäbe es natürlich noch ein paar weitere Verbesserungsmöglichkeiten, dies soll nur andeuten, dass man sich durchaus, und vor allem aus gegebenem Anlass, darüber Gedanken gemacht hat. 


Quicklinks zu den Teilen

Spielstärke Maßzahlen

Spielstärke Maßzahlen -- Teil 2

Spielstärke Maßzahlen -- Teil 3

Spielstärke Maßzahlen -- Teil 4

Donnerstag, 16 Februar 2012 13:43

Spielstärke Maßzahlen -- Teil 3

Da es nun offensichtlich sehr lebhafte Diskussionen gibt soll der dritte Teil schon jetzt angeführt werden. Dabei soll, anstatt in Kommentaren auf die einzelnen Problempunkte eingegangen zu werden, dieser Text im Wesentlichen an den vom Leser hinterlassenen Kommentaren orientiert sein, ohne selbstverständlich eine gewisse Weiterentwicklung des vorgestellten Systems gänzlich zu vernachlässigen.

1) Die Bandbreite der Zahlen

Ein angesprochenes Problem war die Bandbreite der Zahlen, wie es hier bezeichnet werden soll. Man möchte sich ungern als 30%-Spieler bezeichnen, so hieß es, und auch ein 53%-Spieler zu sein klänge nicht gerade prickelnd.

Dazu sei angemerkt:

Punkt 1: der allseits so bewunderte Albert Einstein hat uns beizubringen versucht, dass sich alle Dinge nur relativ zu einander verhalten. Es ist also ausgeschlossen, eine Sache als uneingeschränkt oder objektiv „groß“ zu bezeichnen. Sie ist es bestenfalls im Verhältnis zu einer anderen. Dies betrifft ebenso die Spielstärkemaßzahlen.

Punkt 2: Ein früherer Arbeitskollege brachte das Phänomen derart komödiantisch auf den Punkt: „Man gewöhnt sich an allem. Auch am Dativ.“ Ja, so ist es. Man gewöhnt sich zwangsläufig an die Höhe der Zahlen, ebenso in ihrer Vergleichbarkeit. Wenn jemand also tatsächlich in der Spielklasse der 30%er auftritt, so wird es ihm sicher nach einer Weile genau so viel Genugtuung verschaffen, von 30% auf 35% aufzusteigen durch gute Ergebnisse, wie es einem 1500er dereinst, wenn er auf 1600 anstieg, durch zwei gute Turniere als Beispiel.

Punkt 3: Zwischen zwei beliebigen reellen Zahlen befinden sich unendlich viele reelle Zahlen. Dieser mathematische Satz zeigt nur, dass man die Spielstärken auf jedes beliebige Intervall abbilden könnte, insofern bietet sich das Intervall 0 bis 1 viel mehr an als jenes zwischen –unendlich und +unendlich, weil es dort eben unbeschränkt wuchern kann, mit völlig unabsehbaren Folgen. So war beispielsweise jüngst nachzulesen (ohne die Quelle angeben zu können), dass das Problem von negativen Wertzahlen auftauchte, bei Nachwuchsturnieren. Die Elo-Inflation geht also nicht nur in den positiven (und auch dort unbeschränkten) Bereich, sondern auch anders herum. Man könnte dies virtuell beliebig erzeugen und damit das Problem nachweisen, indem man eben eine Vielzahl von Ergebnissen erzeugt, bei einer Menge von zugrunde gelegten Schachspieler, unter realistischen Bedingungen. Man könnte sehr wohl nach einer Zeit (seien es auch 100 simulierte Jahre) sehen, dass es sich um ein systemimmanentes Problem handelt. Sofern man sich mit möglichen, aber vorsätzlich unrealistischen, Ergebnissen müht, könnte man vermutlich nach einer gewissen Vielzahl von Partien das Intervall sowohl ins Positive, also zwischen 3000 und 6000 verschieben, als auch es auf –2000 bis +1000 tun. Dies soll nur die angeführte Willkür der Zahlen unterstreichen.

Übrigens wurde eine Bremse auch dort eingebaut, damit es nicht zu diesen negativen Zahlen kommt, in Form einer Untergrenze. Natürlich auch dieser „Kunstgriff“ mathematisch unsauber, wie vieles andere am Elo-System. Andererseits nachvollziehbar, da man sich gut vorstellen kann, dass ein Kind nach der ersten Auswertung, sobald es erfährt, dass es eine Spielstärke von –60 Punkten hat, die Figuren mitsamt dem sie befördernden Händen (möglichst nicht gleich dem Kopf!) an den Nagel hängt. „Ich hab gehört, du spielst Schach. Wie gut bist du denn?“ „Na, ich weiß nicht recht, wie ich es ausdrücken soll. Äh, meine Spielstärke lag im negat... aber ich spiele ja längst nicht mehr.“

Punkt 4: Gerade, um die Inflation unmöglich zu machen sollte ja das neue System vorgeschlagen werden (um nur einen Pluspunkt zu nennen). Die Inflation geschieht zwangsläufig bei Elo. Wobei gerade hier die Ansicht vertreten wird, dass der zwar zufällig aufgetretene(und nicht unbedingt gewollte) Effekt tatsächlich ebenso zufällig das Anwachsen der Spielstärken von Generation zu Generation zum Ausdruck bringt. So dürfte es kaum Zweifel geben, dass ein reinkarnierter Bobby Fischer, mit seiner exakten Spielstärke von 1972 – also dem Höhepunkt seiner Schaffenskraft – nicht mithalten könnte mit der Weltelite von heute. Bitte dabei berücksichtigen, dass er EXAKT MIT DEM WISSEN VON DEM ZEITPUNKT direkt ans Brett gerufen werden müsste. Sobald er eine „Vorbereitungszeit“ eingeräumt bekäme, wäre natürlich vieles denkbar, je nach ihrer Dauer (so dass er sich auf den Wissensstand bringen könnte).

Punkt 5: Da das angebotene System sich auf viele andere Sportarten übertragen ließe (selbst auf Mannschaftssportarten), wäre es möglich, diese Sportarten untereinander zu vergleichen. Also: jemand, der im Snooker bei 65% liegt könnte behaupten, dass er in seiner Sportart besser wäre als ein Schachspieler, der bei 60% liegt. So problematisch dies wäre (eine genaue Untersuchung dessen an anderer Stelle), es gäbe immerhin diese Möglichkeit. Dies führt direkt zu...

Punkt 6: Da man sich nun Sportarten übergreifend vergleichen könnte, bestünde natürlich die Möglichkeit, dass sich jemand noch mehr zu schämen hätte, sofern er angeben müsste, in seiner geliebten und betriebenen Sportart „lediglich bei 30%“ zu liegen. Andererseits: ist es denn wünschenswert, dass man einem Laien einfach seine 1500 an den Kopf knallt, und dieser dann, aus Unwissenheit, die Kinnlade runterklappt, um staunend zu erwidern: „Wow, bist du gut.“? Abgesehen davon könnte man dem Laien einfach anraten, einmal ein Turnier mitzuspielen, um zu sehen, wie schwer es ist, dort mitzuhalten. Er könnte keinesfalls unter 0% landen, jedoch sich bedrohlich in die Nähe bewegen...

Man würde dies wohl nach und nach sogar einstufen können. Vielleicht empfindet man 30% gar nicht mehr als so peinlich, wenn man erfährt, dass der Nachbar im Tennis nur bei 22% liegt und der Vorgesetzte sich im Badminton bei stattlichen 33% befindet, womit man gleich einen Motivationsschub erhält, ihn alsbald zu überflügeln?

2) Die Anpassungskoeffizienten

Dies jedenfalls ein heiß diskutiertes, aber zugleich heikles Thema. Bekannt ist noch aus sehr viel früheren Tagen, dass man zum Einstieg, altersunabhängig, mit einem Koeffizienten von 25 berechnet wurde. Dieser diente, im Vergleich zu den später verwendeten 15 beziehungsweise, ab Elo 2400 einem von 10 und ab 2600 nur noch von 5, der rascheren Anpassung an die wahre Spielstärke. Denn: es schien ausgeschlossen, dass ein Spieler gleich im ersten Turnier, durch puren Zufall, konsequent eine seinen Fähigkeiten entsprechende Leistung bringt. Das ist weit mehr als nur vernünftig.

Ebenso trifft es auf Jugendliche zu, dass sie sich schnell entwickeln und dabei meist in die eine Richtung: nach oben. Insofern wird diesen wohl bis heute eine raschere Entwicklung ermöglicht durch die Verwendung eines höheren Anpassungskoeffizienten. Die Realität wird damit abgebildet, es kann nicht falsch sein. Nur hat man sich damit zugleich das kleine, erst später erkannte Problem aufgehalst: dem gesamten System werden dadurch permanent mehr Punkte zugeführt als ihm entzogen werden. Ein sich entwickelnder Jugendlicher gewinnt mehr Punkte hinzu, als der ältere, von ihm soeben besiegte Gegner, dem System entzieht. Einer gewinnt 10 Punkte, der andere verliert 4. Im Übrigen wird es sich (in allen Sportarten) wohl verlässlich so verhalten, dass die Talente dabei bleiben und jene, die nach und nach erkennen müssen, über keines zu verfügen (sprich: sie stagnieren irgendwann in der Entwicklung), das Spiel aufgeben (beileibe nicht alle, aber sicher einige). Dies hat den zusätzlichen Effekt, dass jene, die dem System ihre Punkte nach und nach zurückgeben könnten (da sie eben stagnieren, nichts mehr für das Spiel tun, außer ab und an zu spielen und Punkte zu verlieren), dies eben durch den Rückzug nicht tun. Die Folge: die beobachtete Inflation, der man sich unmöglich verschließen kann.

Ein kleiner Beweis übrigens für den Effekt der Inflation: als im Internet beim ICC-Server, die Spielstärken recht rasch angepasst wurden, nur um für mehr Action zu sorgen, konnte man fast live und täglich (und in Farbe, ja, ja!) beobachten, wie die Zahlen explodierten. So waren bald Zahlen von 3200 keine Seltenheit mehr (und dies würde sich locker übertragen lassen, sofern die gleiche Anzahl von Turnierpartien gespielt würde wie Blitzpartien, fast noch unabhängig von der willkürlichen, schnelleren Anpassung).

Der nächste Teil dieses Problems lässt sich besser auf den folgenden Abschnitt, jenen mit dem Titel...

3) Beide Systems sind Prognosesysteme

übertragen.

Vor der Partie wird im Prinzip eine Punkterwartung berechnet. Dies bringt zum Ausdruck, dass man sich mühte, eine möglichst gute Prognose zu erstellen. Es besteht sowohl ein Erfordernis dafür, als auch hat dies Folgen: man muss möglichst gut liegen mit der Prognose, um die daran orientierte Anpassung möglichst gut vornehmen zu können. Wenn man also quasi willkürlich für eine Spieler in einem Turnier eine Gesamterwartung von 6.23 Punkte errechnen würde, diese aber in Wahrheit bei 5.48 liegen würde, dann würde er, sofern er denn 5.5 Punkte erzielt, trotz des objektiven Erfüllens der Erwartung eine Strafe in Form von einem Elo-Verlust erleiden. Nein, die Erwartungen sollen möglichst exakt die Wirklichkeit abbilden, no matter what...

Das Elo-System ist ein Prognosesystem, egal, wie sehr man es auch weiterhin als „Spielerei“ (was die Spieler selbst übrigens, wie auch unter anderem kritisch angemerkt wurde an manchen Stellen, in den Kommentaren, absolut nicht tun; eher im Gegenteil) ansehen mag: so ist es und so ist es auch beabsichtigt.

Nun sollen diese Vorhersagen also möglichst exakt sein, um vor allem für eine korrekte Anpassung zu sorgen. Jeder wird sicher seine eigene Entwicklung im Auge haben und sich vielleicht auch an sprunghafte Steigerungen erinnern (waren sie bei Ihnen zufällig auch in den Jugendjahren?), wird sich an die schlechte Phase erinnern, als man die Trennung hatte oder auch jene Zeit, als man frisch verliebt war und alles andere in Kopf und Gliedern hatte, nur noch so „nebenbei“ der Pflicht in den Mannschaftskämpfen nachgegangen ist und dabei, aus eigener Sicht „zwangsläufig“ nach und nach 100 Punkte einbüßte, wohingegen man später, mit neu gewonnenen Enthusiasmus heranging und tatsächlich einen Schub beobachten konnte bis zum persönlichen Peak, welchen man sicher, so meint man, dann wieder erreichen könnte, wenn einen Familie und Job nicht so sehr in Anspruch nehmen würden und man vor allem am Wochenende, wo Körper und Geist so dringend die Erholung nötig hätten, auch noch um 7 Uhr aus der Koje müsste, um sich rechtzeitig um 9 Uhr, weit außerhalb, zum Mannschaftskampf am Brett einzufinden, und unter diesen Umständen nun garantiert nicht zu der Höchstleistung fähig ist.

Also: man erkennt einen gewissen Zusammenhang zwischen Befähigungen, Leistungen, Engagement und auch zeitgleich der angegebenen Maßzahl für die Spielstärke. Sie entspricht, hier mehr, dort etwas weniger, den gezeigten Leistungen und, selbst wenn sich eigentlich jeder für besser hält, erkennt man doch an, dass sie so halbwegs stimmt (wehe nur, man gibt sich mal richtig Mühe!).

So soll es sein und möglichst für jeden bleiben. Insofern sind die veränderten Anpassungskoeffizienten erforderlich, da sie ein, selbst wenn nur frei ersonnenes, Abbild der Wirklichkeit darstellen. Also: die Bemerkung: „Es ist nicht gerecht, dass ein Jugendlicher mehr Punkte gewinnt als ein älterer, trotz des gleichen Ergebnisses“ ist schlichtweg falsch, irrig. Die schnellere Anpassung des Jugendlichen wird mit hoher Wahrscheinlichkeit zu einer besseren Prognose für die nächste Partie führen. Man nimmt seine Spielstärkeentwicklung ein wenig vorweg, aber dies aus gutem Grund. Bei dem Älteren, der doch schon so viele Partie gespielt hat, weiß man doch in etwa, was man von ihm zu erwarten hat. Heute Hui, morgen Pfui, das ist schon seit Jahrzehnten so bei ihm. Warum ihm den gleichen Zugewinn bescheren wie dem jüngeren? Er wird die Punkte nur schön brav im nächsten Turnier wieder abführen, da man nämlich mit der schnelleren Anpassung die Realität nicht abgebildet hätte.

Auch das eigens entwickelte, wirklich sehr schlichte, aber dadurch nicht schlechtere, System ist dafür geeignet, nein, noch mehr ist es so ausgelegt.

4) Die einfache Formel

Um nun noch ein bisschen voranzukommen, soll die einfach Formel hier einmal kurz vorgestellt werden: die Zahlen sollen in den Bereich von 0 und 1 abgebildet werden, und damit natürlich viel mehr Verwandtschaft mit dem hergestellt werden, was man tatsächlich erzielt. Man erzielt nämlich Prozente und nicht etwa eine Performance von 1755, die absolut nichts sagt, außer für den, der damit zufällig etwas anfangen kann. Diese Abbildung könnte einmalig erfolgen, als Beispiel könnte man zunächst in etwa den weltweiten Elo-Schnitt nehmen und diesen zur 50%-Marke erklären, nur um einen Einstieg zu haben.

Alle anderen Zahlen werden daran orientiert, gerne kann man dies tun mit der (keineswegs insgesamt schlechten) Elo-Formel. Wie gesagt, dabei handelt es sich um eine einmalige Initialisierung des Systems. Also, wie ein Schachfreund im Kommentar vorrechnete, entsprechen 80 Punkte Differenz in etwa 10 Prozentpunkten Unterschied, so könnte man jede Zahl in das Prozentsystem übersetzen. Wenn also der weltweite Elo-Schnitt derzeit, nehmen wir an, bei 2000 liegt, dann hätte ein Spieler mit Elo 2000 die Spielstärke 50%, jener mit 2080 hätte (in etwa) 60%, derjenige mit 1920 hätte 40% (wobei man auf den später wichtigen, erkennbar nicht linearen Verlauf der Kurve achten sollte).

Zu jedem Zeitpunkt übrigens könnte man, so man denn ein Erfordernis sieht, die Spielstärken wieder auf einen Schnitt von 50% „normieren“. Man nimmt alle gelisteten Spieler zusammen, errechnet also die Summe, dividiert sie durch die Anzahl der Spieler, hätte so einen Wert von 48.3% oder 54.6%, und würde jede Spielstärke mit dem Korrekturwert 50%/48.3% beziehungsweise, im anderen Fall, mit 50%/54.6%, multiplizieren, um im Anschluss bei Aufaddierung und Division wieder bei exakt 50% zu landen, dem Schnitt aller Spieler. Es würde in gewisser Weise der Realität entsprechen, da ja weiterhin nur 50% der Punkte zu vergeben sein werden (es sei denn, dass im Schach auch demnächst die 3-Punkte-Regel eingeführt würde!).

Dies nur für den Fall, dass weiterhin irgendjemand Angst vor einer Inflation hätte. Sie könnte jederzeit eingedämmt, nein, aufgehalten werden, man könnte dies sogar einmal jährlich routinemäßig durchführen. Der Aufschrei der einzelnen Spieler dürfte recht mäßig ausfallen, da jedem einzelnen bewusst sein dürfte, dass er absolut keine Punkte eingebüßt hätte durch den Eingriff (sofern der Schnitt zum Zeitpunkt des Eingriffs bei über 50% lag), sondern dass jeder vertretene Spieler die im Verhältnis exakt analoge Einbuße erfahren hat.

Übrigens gäbe es keinerlei Probleme mit dem System, an keiner Stelle, sofern man diese Normierung nicht, niemals, vornehmen würde. Eine „Inflation“ entstünde bestenfalls in dem Sinne, dass sich alle allmählich näher an 100% heranarbeiten (also der Schnitt, aufgrund der oben erklärten „Jugendlichenregelung“, sich langsam nach oben bewegen würde). Dies könnte jedoch tatsächlich, wie ebenfalls oben erklärt, ein Abbild der Wirklichkeit sei. Denn: von Generation zu Generation werden die Spieler wirklich besser. Es gibt mehr Wissen und es ist leichter zugänglich. Es kann nicht anders sein als in anderen Sportarten, selbst wenn der Weitsprungweltrekord in den letzten 40 Jahren nur einmal verbessert wurde (da allerdings von ZWEI Springern)...

So, nun wirklich die ganz schlichte Formel, zunächst intuitiv hergeleitet: wenn ein Spieler eine Spielstärke von 80% hätte, dann bedeutete dies, dass er 80% seiner Partien gewinnt und 20% verliert (Remisen bitte vergessen, es ist eine verbale Erklärung; man könnte hier auch sagen, dass er 80% erzielt und 20% abgibt, egal, wie viele Partie gewonnen oder verloren). Also ist sein Verhältnis eines von 80 geteilt durch 20. 80 macht er, 20 gibt er her, 80 geteilt durch 20 ist gleich 4.

Wenn sein Gegner nur 60% Spielstärke hat, dann hat dieser analog ein Spielstärkeverhältnis von 60 zu 40, also 60 geteilt durch 40, dies ist gleich 1.5. Es spielt also der Spieler mit einem Verhältnis von 4 gegen einen Spieler mit dem Verhältnis von 1.5. Für die Partie ergibt dies (noch unabhängig von dem später möglichen Schwarz-Weiß Korrekturfaktor) ein Verhältnis von 4 geteilt durch 1.5 zugunsten des Besseren. 4 geteilt durch 1.5 ist gleich 2.667.

In diesem Verhältnis nun, so erzählte uns die Erwartung, müssten sie sich die zu vergebenden 100% aufteilen. Der Bessere bekommt 2.667 Mal so viel von 100% als der Schwächere. Damit man auf diese Zahl kommt, muss man 100% durch 2.6667 + 1 teilen. Genau dann teilen sich diese beiden Werte so auf, dass beide Bedingungen erfüllt sind (wie man hoffentlich einfach erkennt). Der Schwächere erhält dadurch 100 geteilt durch 3.667.

Dies wären 27.27%, der Favorit hätte die verbliebenen 73.73%. Wenn man nun, nur zur Probe, 72.73 durch 27.27 teilt dann erhält man, oh Wunder der Mathematik, genau 2.667, das Verhältnis ihrer Spielstärken.

Eine Überprüfung der Formel ist wohl nicht weiter erforderlich, man könnte sich höchstens fragen, warum man so (scheinbar) kompliziert vorgehen muss. Es liegt daran, dass man eben im Bereich von 0 bis 1 (dort, wo sich Prozente befinden), immer in Verhältnismäßigkeiten rechnen muss. Der vorgestellte Weg ist der einzig richtige zur Berechnung.

So viel nun erstmal für heute, ob man nun wieder für angeregte Diskussionen sorgen kann oder möglicherweise etwas mehr Klarheit hineinbrachte?


Quicklinks zu den Teilen

Spielstärke Maßzahlen

Spielstärke Maßzahlen -- Teil 2

Spielstärke Maßzahlen -- Teil 3

Spielstärke Maßzahlen -- Teil 4

Freitag, 10 Februar 2012 10:02

Spielstärke Maßzahlen – Teil 2

Hier nun der Teil 2 der versprochenen Serie

Natürlich soll die Serie am Ende darauf hinauslaufen, dass ein verbessertes System vorgestellt wird. Die Mängel des Elo-Systems sind sicherlich zu einem Gutteil bekannt, sollen dennoch hier nach und nach angesprochen werden – um zugleich eine Umgehungsstrategie anzubieten.

Da nun ein vielfältiges Vorgehen möglich ist, soll es heute doch bereits geschehen, dass zumindest eine Beschreibung für das von mir als einfacher, besser und anschaulicher angebotene System vorgestellt wird.

Zunächst aber noch so viel über das Elo-System: die Grundannahme, dass die Spielstärken normal verteilt sind, kann natürlich nicht wirklich falsch sein. Nur hat es sich nach meiner Ansicht in der Praxis herausgestellt (dies sozusagen als „intuitive Qualitätskontrolle“, welche negativ ausfiel), dass die Berechnungen bei sehr hohen Elo-Differenzen falsch sind. Einerseits könnte man in diesem Zusammenhang nun nach Ursachen dafür forschen, andererseits die Auswirkung (damit die gemachte Beobachtung) erklären.

Zunächst: was konnte beobachtet werden, was einen bedenklich stimmt in Fragen der Zuverlässigkeit und Wirksamkeit des verwendeten Systems? Das größte wohl dieses: sofern eine große Differenz in der Elo-Zahl zweier Spieler vorliegt, entsprechen die errechneten Erwartungen nicht den tatsächlichen Ergebnissen. Darüber liegen mir keineswegs genauere Zahlen vor, jedoch die Beobachtung, dass sehr starke Spieler regelmäßig Elo-Punkte einbüßen, sobald sie bei Open Turnieren mitspielen und dort, zwangsläufig, gegen (meist deutlich) niedriger eingestufte Gegner spielen müssen.

Sicher könnte man nun meinen, dass dies zuerst nachzuweisen wäre. Das System ist so logisch aufgebaut – so die einhergehende Argumentation --, dass es ja gar nicht sein kann. Gegen einen 100 Punkte schlechteren Gegner hat man diese Erwartung, gegen 150 Punkte schlechter jene, dann muss sie doch, streng nach Formel, gegen einen 500 Punkte schlechteren so sein? Nein, ein Nachweis ist nicht ganz einfach zu führen, da man ja eine gewisse Festlegung der Auswahlkriterien für eine ausgewertete Partie für diese Statistik festlegen müsste, und dazu das Ergebnis eine zufällige Abweichung darstellen könnte, noch dazu vom die Statistik Anfertigenden zu dessen eigenen Gunsten (traue keiner Statistik, die du nicht selbst gefälscht hast, nicht wahr?) durch eine günstige Auswahl oder die frei wählbaren Auswahlkriterien manipuliert worden sein könnte.

Nein, verlässlicher ist diese Beobachtung: sehr gute Spieler meiden die Teilnahme an Turnieren, in denen sie deutlich niedriger eingestufte Konkurrenz zu erwarten hätten. So wurde schon mehr als einmal das Argument vernommen, von hochrangigen Spielern: „Ich spiel kein Open. Ich mach mir doch meine Zahl nicht kaputt.“ Trotz der zu erhoffenden günstigen Chance, das eigene Budget aufzubessern wird dies vermieden. Alternativ: man verzichtet auf die Eitelkeit und findet sich, als Open-Spieler, damit ab, etwas unter Wert eingestuft zu sein. Höheren Ambitionen steht dieses Verhalten jedoch im Wege.

Das Elo-System funktioniert recht gut, keine Frage. Man sollte eben nur wissen, dass man am besten stets mit ähnlich eingestuften Spielern spielen sollte, und dort nach und nach, bei besonderen Ambitionen, allmählich in den Klassen aufsteigen. Wenn man unter 2000ern spielt, dann kann man sich bis 2200 verbessern, mit normalem Spiel und normal (guten) Ergebnissen. Danach sollte man jedoch in der Klasse von etwa 2200ern spielen, um einen weiteren Aufstieg realistisch zu machen. Wenn man sich dann dort bis zur 2400 aufschwingt (beispielsweise als Heranwachsender) sollte man dringend (natürlich dann vom Verband gefördert) die Kräftemessen mit 2400ern suchen, um sich bis in die Großmeisterriege hochzukämpfen. So ein normaler, natürlicher Werdegang eines Talentes.

Eine Konsequenz übrigens dieser gemachten Beobachtung: ab Elo-Differenzen von 600 Punkten tritt der sehr bedenkliche Fall ein, dass die Erwartung des Favoriten (mit den verwendeten, vereinfachten Formeln) gegen 1 tendiert. Es gibt dadurch Fälle, die bedeuten, dass man, durch die Verschlechterung des Schnitts durch einen solchen Gegner, trotz des eingefahrenen Sieges, Elo-Punkte einbüßt. Und dies kann nun wirklich nicht Sinn der Sache sein. Da ist was faul, das ist offensichtlich. Bekannt dürfte das Problem ebenfalls sein, selbst wenn nur, auf die beschriebene Art „intuitiv“.

Um nur zwei praktische Beispiele aus der jüngsten Vergangenheit anzugeben, die dieses Problem plastisch machen: beim Pfingst Open in Berlin, ausgerichtet vom SC Zugzwang, im Mai 2011, erzielte Großmeister Jakob Meister ein, wie ich finde, achtbares Ergebnis mit 4.5 aus 5. Man kann einfach nicht erwarten, an seiner Stelle und auch sonst wohl kaum, alle Partien in so einem Turnier zu gewinnen. Gegen die Nummer 2, meine Wenigkeit, blieb das Duell bei der geringen Rundenzahl (und recht hoher Teilnehmerzahl) aus, dennoch kam er gegen einen seiner um 2000 rangierenden Spieler, nach meiner Ansicht „erwartungsgemäß“, nicht über ein Remis hinaus, übrigens mit den schwarzen Steinen (wofür Elo keine veränderte, geringere Erwartung anbietet). Die Folge: da seine Elo-Zahl weit über 2400 lag, so meinte das stupide System, hätte er 4.56 Punkte zu erzielen gehabt. Eine Einbuße von 3 Elo-Punkten waren die Folge – und die musste er in Kauf nehmen. Nicht verwunderlich, wenn er sich sagen würde: „Nun spiele ich ein wirklich gutes Turnier, ohne größere Wackler, und bin mit der Ausbeute durchaus zufrieden. Mehr war kaum drin. Ich verliere aber Elo? Nein, bei so etwas spiele ich nicht mehr mit.“ (Möge es der Leser der Eitelkeit zuschreiben, dass hier erwähnt wird, dass ich ihm den 1. Platz mit der gleichen Punktausbeute dennoch vor der Nase wegschnappen konnte. Dank meiner geringeren Elo-Zahl von um die 2370 habe ich ein kleines Plus erwirtschaftet. Nur spürt man einfach, dass man das Optimum erzielen muss, um nicht Punkte einzubüßen).

Ein anderes Beispiel war dieses: beim Winter Open Ende 2011 bekam ich es, als Nummer 2, mit der Nummer 1 und der Nummer 3 zu tun. Die Ausbeute von 5.5/7 war durchaus stattlich, zumal sie 1.5 Punkte gegen die beiden (mit)besten Spieler einschloss. Gegen den Rest, ebenfalls um die 2000 angesiedelt, reichte es „nur“ zu 4 aus 5. Insgesamt zu wenig, meint Professor Elo. Eine Einbuße von 0.6 Elo-Punkten ging einher. Kann das wirklich richtig sein?


Als Antwort auf die Frage, ob es denn nicht besser ginge – in vielerlei Hinsicht – und das erfolgte „Ja, es geht“, besteht natürlich die Aufgabe darin, dieses eigens entwickelte System vorzustellen.

Da es sich hierbei erst um den zweiten Teil der Serie handelt und auch längst noch nicht alle Probleme des Elo-Systems aufgedeckt wären (von denen hier nur kurz, in gewisser Weise zum Erwecken der Vorfreude gedacht, diese erwähnt sein mögen: Elo-Inflation; Schwarz-Weiß Problematik; Zufälligkeit der Zahlen, welche sich genauso zwischen 300 und 1000 oder 6 und 15 bewegen könnten anstatt zwischen 1000 und 2800, im Vergleich zu einem logischen Aufbau; Vorhersage der Remiswahrscheinlichkeit für ein wahrhaftiges Prognosesystem; vergleichbar machen von verschiedenen Spielen und/oder Sportarten), soll nur kurz, entgegen obiger Ankündigung, die Metrik dieses neuen, vorgeschlagenen Systems vorgestellt werden.

Da man jedermanns Turnierergebnisse auch gerne in Prozentangaben macht, und diese sogar für das Elo-System zwecks Auswertung errechnet werden müssen, erschiene es doch zweckmäßig, die Spielstärken in diesen Prozentzahlen zu messen? Ein Spieler der Spielstärke 70% hätte demnach in etwa, auf sein Leben gerechnet, 70% der möglichen Punkte erzielt, ein Spieler der Spielstärke 40% dementsprechend 40%.

Ganz klar, dass es hier nur lauten kann, von Lesers Seite aus: „Veto!“. Wurde doch gerade an dieser Stelle, ein paar Zeilen zuvor, darauf aufmerksam gemacht, dass sich jeder Spieler nach Möglichkeit innerhalb seines Spielniveaus vergnügen solle. Eine Folge des permanenten Spielens auf dem „eigenen Niveau“, also dem Nachkommen dieses Vorschlages, für alle Spieler, wäre ja diese: jeder Spieler spielt in etwa um die 50%. Demnach wären ja dann, diese Metrik zugrunde gelegt, alle Spieler gleichstark?

Nein, das genaue Gegenteil wäre der Fall. Selbst wenn man das Maßsystem verwenden würde, für jeden Spieler seine Spielstärke in Prozent anzugeben, würden sich die Unterschiede ganz zwangsläufig ergeben. Zunächst mal würde ja ein Aufstieg in eine höhere Klasse dann erfolgen, wenn ein Spieler sich aus der Klasse, aus welcher er gerade hervorgehen möchte, deutlich abhebt, also weit mehr als 50% erzielt. Angenommen, er spielte bisher in der Klasse der tatsächlich 50%-Spieler. Wenn er dort zuverlässig und regelmäßig 60% erzielen würde, so gehörte er, von der Spielstärke her, natürlich viel mehr in die Kategorie der 60% Spieler. Steigt er nun auf, so würde er, sofern er nun in der Klasse seiner tatsächlichen Spielstärke angelangt ist, zwar „nur noch“ in etwa 50% der Punkte erzielen, dies würde aber, da er ja gegen Gegner der Spielstärke 60% spielt, sein Niveau von 60% halten.

An dieser Stelle noch zwei kurze Anmerkungen, bevor dieser Abschnitt geschlossen werden soll: sobald man sich müht, mathematische Inhalte vorzutragen, hat man diese zwei Möglichkeiten: sich wirklich als mathematisch denkender Mensch zu „outen“ (denn, wie einem die Erfahrungen lehren, ist es tatsächlich ein „outen“) und zwar möglicherweise einigen Respekt zu ernten, jedoch keineswegs Verständnis geschweige denn, dass es gelänge, auf Menschen zu treffen, die sich die Mühe machen würden (außer vielleicht ein paar der sich bereits vorher selbst geoutet habenden Leidensgenossen), diesen mathematischen Argumentationen (in Form von Formeln) nachzugehen.

In diesem Sinne soll die erfolgte verbale Argumentation verwendet werden, welche jedoch zugleich die Gefahr beinhaltet, als absolut nicht mathematisch denkendes Hirn aufgefasst zu werden – und insofern der Sinn entfiele, den weiteren Ausführungen, da offensichtlich von einem blutigen Amateur ersonnen, Folge zu leisten. Dieser „Drahtseilakt“ wird versucht, in dieser kleinen Serie zu bewältigen. Hört man dennoch zu, obwohl einem Scharlatan aufgesessen? Hörte man dann zu, wenn mit Formeln bombardiert?


Eine kleine Geschichte am Rande, nicht unbedingt zum Studium empfohlen:

Eine weitere Anmerkung bezieht sich auf die folgende kleine Geschichte: da ich mit diesem System an der richtigen Stelle bei einem mathematischen Institut vorstellig wurde, gibt es natürlich eine, nennen wir es „Beurteilung“ (ohne dass der Leser das System anhand der wenigen einleitenden Worte bereits kennen würde). Diese fiel so aus: „Es gibt nichts Neues, Herr Paulsen, das kann ich Ihnen versprechen, dass das schon jemand vor Ihnen entdeckt hat.“

Tatsächlich förderte der Herr nach drei Nächte langer Suche zutage, dass ein gewisser Ernst Zermelo im Jahre 1929 bereits in diesem Sinne fündig wurde. Ich erhielt die Zuschrift per Mail – und damit war seinem Ego Genüge getan. Die Tatsache, dass das System dennoch unabhängig entdeckt wurde, spielte natürlich (und zurecht) gar keine Rolle. Dass es aber tatsächlich besser ist als das derzeit verwendete, war demzufolge kein Gesprächsthema mehr. Es gibt es, es gab es vor Ihnen, das genügt doch?

Nun, um die kleine Anekdote zum Abschluss zu bringen: ich hatte dem ungenannten Herren dieses kleine, von mir, so darf ich in unendlicher Arroganz behaupten, „nebenbei“ entdeckte System (es gelang in ein paar Tagen, ohne übertriebenen Zeitaufwand, damals aber noch in der festen Überzeugung, dass es, da so einfach, natürlich längst existieren würde, ich es also nur kurz für mich herleiten müsse anstatt nachzuschlagen, was ich eh nie tue), nur vorgestellt, um ihm zu zeigen, dass ich durchaus in der Lage bin, mathematische Modelle eigenständig zu entwickeln und logisch zu präsentierten.

Das, was ich ihm eigentlich vorstellen wollte, war ein ganz anderes, wirklich komplexes, aber nachweislich funktionstüchtiges System (zur Qualitätsprüfung von Wahrscheinlichkeitsvorhersagen), von welchem er selbstverständlich die gleichen Auffassungen vertrat: „Das gibt es schon.“ Als er nicht wirklich fündig wurde, begann er, alternativ dazu (aber natürlich logisch nachvollziehbar, da es nach seiner Ansicht nur deshalb nicht existiert, weil es nicht funktioniert, klar), die Schwächen des Systems zu suchen. Als er meinte, mit zwei Dingen fündig geworden zu sein, antwortete ich, dass mir diese beiden Schwachstellen bekannt seien, dass ich sie nur, da bisher nicht erforderlich, noch nicht behoben hätte, die Behebung aber spielend leicht nachliefern könnte.

Als er zwei Tage später die Nachricht mit den behobenen Schwachstellen erhielt, gab es gar keine Reaktion mehr. Wie deutet man das?


Quicklinks zu den Teilen

Spielstärke Maßzahlen

Spielstärke Maßzahlen -- Teil 2

Spielstärke Maßzahlen -- Teil 3

Spielstärke Maßzahlen -- Teil 4

Freitag, 13 Januar 2012 11:20

Spielstärke Maßzahlen

Dies soll der Beginn einer kleinen Serie werden, da mir Jörg Hickl gewisslich versichern konnte, dass ihr, liebe Leser, bevorzugt mundgerechte Häppchen gegenüber einem kompletten Menü, dies aber in einem Gang serviert, bekommt. Da ich mich nun gerne als völlig ungebildet bezeichne – und dies nicht aus Koketterie sondern aus voller Überzeugung heraus tue – überlasse ich euch die Freude, meine Ideen nicht nur als bekannt und uralt zu bezeichnen, sondern zugleich sie als weder praktikabel noch überhaupt richtig, sowie allesamt als längst verbessert, aber dennoch aus guten Gründen alsbald, von sicher weit klügeren Köpfen, verworfen, nachzuweisen.

Eine kleine Anekdote hier nur noch zum Nachweis meiner völligen Ahnungslosigkeit: als ich einen Schachfreund bei einer S-Bahn Anfahrt zu einem Schachturnier traf, welche er sich mit einem guten Buch vertrieb, ich hingegen mit dem Lösen eines Sudokus beschäftigt war, schaute ich zwar durchaus interessiert auf den Buchtitel und den Autoren, jedoch kannte ich weder dies noch jenes. Als ich dann von meinem eigenen Leseverhalten erzählte, meinte er, es gäbe dazu Vorbilder (und dies das Zitat eines mir ebenfalls namentlich nicht bekannten größeren Schriftstellers) : „Das bisschen, was ich lese, schreibe ich mir selbst.“ Genau so ist es. Wie, bitte schön, soll man nur auf diese Art den eigenen Horizont je erweitern können?

In gewisser und allmählicher Überleitung zum Thema: die Spielstärken werden in Elo-Zahlen gemessen. An dieser Stelle darf ich für mich in Anspruch nehmen, nicht völlig ungebildet zu sein, denn, ein befreundeter Schachspieler, zugleich Mathematik Professor (bei welchem ich einige Vorlesungen hörte), empfahl mir das Buch des Arpad Elo als Lektüre – und ich konnte seinen Vorschlag, welcher einer Bitte gleichkam, kaum ausschlagen. Sicher ist eine Menge Gutes daran, an diesem System.

Es ist sogar das beste mir bekannte Spielstärkemesssystem, welches wirklich und offiziell im Einsatz ist. Im Vergleich zum Tennis, dem Fußball oder noch schlimmer, dem Bridge: nur im Schach sind die Berechnungen halbwegs vernünftig (ohne die anderen Systeme an dieser Stelle mit all ihren offensichtlichen Mängeln vorstellen zu wollen).

Jedoch, man hört es  heraus, eben nur halbwegs. An dieser Stelle soll zunächst einmal die Frage aufgeworfen werden, wozu das System eigentlich verwendet wird und wozu es verwendet werden sollte. Denn: mathematisch gesehen müsste die Absicht sein, eine möglichst gute Prognose für den Ausgang einer Schachpartie zu liefern. 

An dieser Stelle beginnen bereits die erheblichen Mängel. Bevor ich jedoch darauf näher eingehe: Sicher nehme ich kaum an, dass es ein Schachspieler ernsthaft als „Prognosesystem“ auffasst?! Es wird eher als kleine, aber doch ziemlich realistische Zahlenspielerei aufgefasst, bei der man sich nach den gewissen und bekannten Gegebenheiten zu richten hat. Man muss sozusagen akzeptieren – und denkt selbst darüber nur in geringen Maßen nach --, dass man bei einer Niederlage gegen einen Schwächeren so und so viele Punkte einbüßt, bei einem Remis so viele und bei einem Sieg so wenige hinzugewinnt. So gehen die Berechnungen, so ist es halt. Was diese Veränderung in der Spielstärke für den Ausgang der nächsten Partie bedeutet, inwieweit sich die Chancen für die folgende Partie mit der eigentlich nun veränderten Zahl verschieben, das ist nun wirklich eine Frage, die nur Kleingeister interessiert. „Ich habe 10 Punkte verloren. Jetzt muss ich mich anstrengen, um die zurückzuholen.“ ist das Maximum, was einen gewöhnlichen Schachspieler interessiert. Und wenn es nicht in diesem Turnier oder in dieser Auswertungsperiode gelingt, dann vielleicht in der nächsten.

Eigentlich jedoch dient die Berechnung der Erwartung, welche im Anschluss mit dem tatsächlichen Ergebnis abgeglichen wird (und somit die Veränderungen der Zahlen der beiden Spieler bewirkt), als eine Prognose. Da es sich jedoch um eine Prognose handelt, bestünde ja die Möglichkeit, die Qualität dieser Prognose zu überprüfen. Eine mögliche Absicht davon wäre: die Berechungsformel der Veränderungen zu optimieren. Nun, die Qualität dieser Prognose kann auf zwei Arten überprüft werden – welche beide später vorgestellt werden sollen. Jedoch gibt es diese, und darauf möge sich der Leser zunächst verlassen.

Bevor ich aber auch darauf näher eingehe, möchte ich die im verwendeten System bereits verankerten „Korrekturparameter“ untersuchen. Tatsache ist nämlich, dass es offensichtlich als bekannt gilt, dass die Ergebnisse für jeden Spieler und dessen Entwicklung unterschiedliche Bedeutungen haben. Hierbei werden zwei Größen – welche, zugegebenermaßen am besten objektiv sein sollten, und nicht individuell (selbst dazu viel später ein paar Ideen) – verwendet: die eine ist die Spielstärke, die andere das Alter. Ohne ganz genau die Bedingungen dafür zu kennen, kann ich nur so viel gesichert sagen, dass die Folge diese ist, dass sich jüngere Spieler rascher entwickeln sollen (sicher der Realität entsprechend), und dass sich höher eingestufte Spieler, die einen gewissen Nachweis der Qualität ihres Spieles erbracht haben, sich danach langsamer entwickeln sollen. Sprich: der Einfluss des letzten Ergebnisses ist unterschiedlich je Spieler, jedoch ausschließlich abhängig von diesen beiden Größen.

Abgesehen davon gibt es, so weit mir bekannt, nur drei verschiedene Anpassungswerte, mit welchen gerechnet wird. Wenn dies der einzige Mangel wäre: nach meiner Einschätzung sind diese Werte eines Tages völlig willkürlich festgelegt worden. Selbst wenn sich ein vernünftiger Grund dahinter verbirgt – welchen ich nicht in Abrede stelle --, so wäre die Größe der Werte dennoch zunächst zu ermitteln und nicht einfach festzulegen. Im Internet Chess Club beispielsweise wird, rein zur Unterhaltung und, nach Ansicht der Veranstalter zum größeren Spielspaß, ein wesentlich höherer Anpassungsparameter verwendet, nur damit sich die Zahlen schneller bewegen und verändern. Hier wäre sogar der Nachweis, dass die reine Willkür Einzug gehalten hat, in der (anerkannten) Absicht, den Spielspaß zu erhöhen. Ob das wirkt ist die eine Frage, ob die Anpassungen etwas mit der Realität zu tun haben die andere, welche an dieser Stelle schlichtweg und ziemlich überzeugt sowie garantiert mit „Nein“ beantwortet werden kann.

Ob man nun mit diesen einleitenden Worten einen Vertrauensvorschub verdient hat, welcher den Verzehr des nächsten kleinen Häppchen schmackhaft macht, bleibt abzuwarten (und dem Leser überlassen). Dennoch soll dieser Text zunächst, quasi als Aperitif, genügen.


Quicklinks zu den Teilen

Spielstärke Maßzahlen

Spielstärke Maßzahlen -- Teil 2

Spielstärke Maßzahlen -- Teil 3

Spielstärke Maßzahlen -- Teil 4