Spielstärke Maßzahlen -- Teil 3

Da es nun offensichtlich sehr lebhafte Diskussionen gibt soll der dritte Teil schon jetzt angeführt werden. Dabei soll, anstatt in Kommentaren auf die einzelnen Problempunkte eingegangen zu werden, dieser Text im Wesentlichen an den vom Leser hinterlassenen Kommentaren orientiert sein, ohne selbstverständlich eine gewisse Weiterentwicklung des vorgestellten Systems gänzlich zu vernachlässigen.

1) Die Bandbreite der Zahlen

Ein angesprochenes Problem war die Bandbreite der Zahlen, wie es hier bezeichnet werden soll. Man möchte sich ungern als 30%-Spieler bezeichnen, so hieß es, und auch ein 53%-Spieler zu sein klänge nicht gerade prickelnd.

Dazu sei angemerkt:

Punkt 1: der allseits so bewunderte Albert Einstein hat uns beizubringen versucht, dass sich alle Dinge nur relativ zu einander verhalten. Es ist also ausgeschlossen, eine Sache als uneingeschränkt oder objektiv „groß“ zu bezeichnen. Sie ist es bestenfalls im Verhältnis zu einer anderen. Dies betrifft ebenso die Spielstärkemaßzahlen.

Punkt 2: Ein früherer Arbeitskollege brachte das Phänomen derart komödiantisch auf den Punkt: „Man gewöhnt sich an allem. Auch am Dativ.“ Ja, so ist es. Man gewöhnt sich zwangsläufig an die Höhe der Zahlen, ebenso in ihrer Vergleichbarkeit. Wenn jemand also tatsächlich in der Spielklasse der 30%er auftritt, so wird es ihm sicher nach einer Weile genau so viel Genugtuung verschaffen, von 30% auf 35% aufzusteigen durch gute Ergebnisse, wie es einem 1500er dereinst, wenn er auf 1600 anstieg, durch zwei gute Turniere als Beispiel.

Punkt 3: Zwischen zwei beliebigen reellen Zahlen befinden sich unendlich viele reelle Zahlen. Dieser mathematische Satz zeigt nur, dass man die Spielstärken auf jedes beliebige Intervall abbilden könnte, insofern bietet sich das Intervall 0 bis 1 viel mehr an als jenes zwischen –unendlich und +unendlich, weil es dort eben unbeschränkt wuchern kann, mit völlig unabsehbaren Folgen. So war beispielsweise jüngst nachzulesen (ohne die Quelle angeben zu können), dass das Problem von negativen Wertzahlen auftauchte, bei Nachwuchsturnieren. Die Elo-Inflation geht also nicht nur in den positiven (und auch dort unbeschränkten) Bereich, sondern auch anders herum. Man könnte dies virtuell beliebig erzeugen und damit das Problem nachweisen, indem man eben eine Vielzahl von Ergebnissen erzeugt, bei einer Menge von zugrunde gelegten Schachspieler, unter realistischen Bedingungen. Man könnte sehr wohl nach einer Zeit (seien es auch 100 simulierte Jahre) sehen, dass es sich um ein systemimmanentes Problem handelt. Sofern man sich mit möglichen, aber vorsätzlich unrealistischen, Ergebnissen müht, könnte man vermutlich nach einer gewissen Vielzahl von Partien das Intervall sowohl ins Positive, also zwischen 3000 und 6000 verschieben, als auch es auf –2000 bis +1000 tun. Dies soll nur die angeführte Willkür der Zahlen unterstreichen.

Übrigens wurde eine Bremse auch dort eingebaut, damit es nicht zu diesen negativen Zahlen kommt, in Form einer Untergrenze. Natürlich auch dieser „Kunstgriff“ mathematisch unsauber, wie vieles andere am Elo-System. Andererseits nachvollziehbar, da man sich gut vorstellen kann, dass ein Kind nach der ersten Auswertung, sobald es erfährt, dass es eine Spielstärke von –60 Punkten hat, die Figuren mitsamt dem sie befördernden Händen (möglichst nicht gleich dem Kopf!) an den Nagel hängt. „Ich hab gehört, du spielst Schach. Wie gut bist du denn?“ „Na, ich weiß nicht recht, wie ich es ausdrücken soll. Äh, meine Spielstärke lag im negat... aber ich spiele ja längst nicht mehr.“

Punkt 4: Gerade, um die Inflation unmöglich zu machen sollte ja das neue System vorgeschlagen werden (um nur einen Pluspunkt zu nennen). Die Inflation geschieht zwangsläufig bei Elo. Wobei gerade hier die Ansicht vertreten wird, dass der zwar zufällig aufgetretene(und nicht unbedingt gewollte) Effekt tatsächlich ebenso zufällig das Anwachsen der Spielstärken von Generation zu Generation zum Ausdruck bringt. So dürfte es kaum Zweifel geben, dass ein reinkarnierter Bobby Fischer, mit seiner exakten Spielstärke von 1972 – also dem Höhepunkt seiner Schaffenskraft – nicht mithalten könnte mit der Weltelite von heute. Bitte dabei berücksichtigen, dass er EXAKT MIT DEM WISSEN VON DEM ZEITPUNKT direkt ans Brett gerufen werden müsste. Sobald er eine „Vorbereitungszeit“ eingeräumt bekäme, wäre natürlich vieles denkbar, je nach ihrer Dauer (so dass er sich auf den Wissensstand bringen könnte).

Punkt 5: Da das angebotene System sich auf viele andere Sportarten übertragen ließe (selbst auf Mannschaftssportarten), wäre es möglich, diese Sportarten untereinander zu vergleichen. Also: jemand, der im Snooker bei 65% liegt könnte behaupten, dass er in seiner Sportart besser wäre als ein Schachspieler, der bei 60% liegt. So problematisch dies wäre (eine genaue Untersuchung dessen an anderer Stelle), es gäbe immerhin diese Möglichkeit. Dies führt direkt zu...

Punkt 6: Da man sich nun Sportarten übergreifend vergleichen könnte, bestünde natürlich die Möglichkeit, dass sich jemand noch mehr zu schämen hätte, sofern er angeben müsste, in seiner geliebten und betriebenen Sportart „lediglich bei 30%“ zu liegen. Andererseits: ist es denn wünschenswert, dass man einem Laien einfach seine 1500 an den Kopf knallt, und dieser dann, aus Unwissenheit, die Kinnlade runterklappt, um staunend zu erwidern: „Wow, bist du gut.“? Abgesehen davon könnte man dem Laien einfach anraten, einmal ein Turnier mitzuspielen, um zu sehen, wie schwer es ist, dort mitzuhalten. Er könnte keinesfalls unter 0% landen, jedoch sich bedrohlich in die Nähe bewegen...

Man würde dies wohl nach und nach sogar einstufen können. Vielleicht empfindet man 30% gar nicht mehr als so peinlich, wenn man erfährt, dass der Nachbar im Tennis nur bei 22% liegt und der Vorgesetzte sich im Badminton bei stattlichen 33% befindet, womit man gleich einen Motivationsschub erhält, ihn alsbald zu überflügeln?

2) Die Anpassungskoeffizienten

Dies jedenfalls ein heiß diskutiertes, aber zugleich heikles Thema. Bekannt ist noch aus sehr viel früheren Tagen, dass man zum Einstieg, altersunabhängig, mit einem Koeffizienten von 25 berechnet wurde. Dieser diente, im Vergleich zu den später verwendeten 15 beziehungsweise, ab Elo 2400 einem von 10 und ab 2600 nur noch von 5, der rascheren Anpassung an die wahre Spielstärke. Denn: es schien ausgeschlossen, dass ein Spieler gleich im ersten Turnier, durch puren Zufall, konsequent eine seinen Fähigkeiten entsprechende Leistung bringt. Das ist weit mehr als nur vernünftig.

Ebenso trifft es auf Jugendliche zu, dass sie sich schnell entwickeln und dabei meist in die eine Richtung: nach oben. Insofern wird diesen wohl bis heute eine raschere Entwicklung ermöglicht durch die Verwendung eines höheren Anpassungskoeffizienten. Die Realität wird damit abgebildet, es kann nicht falsch sein. Nur hat man sich damit zugleich das kleine, erst später erkannte Problem aufgehalst: dem gesamten System werden dadurch permanent mehr Punkte zugeführt als ihm entzogen werden. Ein sich entwickelnder Jugendlicher gewinnt mehr Punkte hinzu, als der ältere, von ihm soeben besiegte Gegner, dem System entzieht. Einer gewinnt 10 Punkte, der andere verliert 4. Im Übrigen wird es sich (in allen Sportarten) wohl verlässlich so verhalten, dass die Talente dabei bleiben und jene, die nach und nach erkennen müssen, über keines zu verfügen (sprich: sie stagnieren irgendwann in der Entwicklung), das Spiel aufgeben (beileibe nicht alle, aber sicher einige). Dies hat den zusätzlichen Effekt, dass jene, die dem System ihre Punkte nach und nach zurückgeben könnten (da sie eben stagnieren, nichts mehr für das Spiel tun, außer ab und an zu spielen und Punkte zu verlieren), dies eben durch den Rückzug nicht tun. Die Folge: die beobachtete Inflation, der man sich unmöglich verschließen kann.

Ein kleiner Beweis übrigens für den Effekt der Inflation: als im Internet beim ICC-Server, die Spielstärken recht rasch angepasst wurden, nur um für mehr Action zu sorgen, konnte man fast live und täglich (und in Farbe, ja, ja!) beobachten, wie die Zahlen explodierten. So waren bald Zahlen von 3200 keine Seltenheit mehr (und dies würde sich locker übertragen lassen, sofern die gleiche Anzahl von Turnierpartien gespielt würde wie Blitzpartien, fast noch unabhängig von der willkürlichen, schnelleren Anpassung).

Der nächste Teil dieses Problems lässt sich besser auf den folgenden Abschnitt, jenen mit dem Titel...

3) Beide Systems sind Prognosesysteme

übertragen.

Vor der Partie wird im Prinzip eine Punkterwartung berechnet. Dies bringt zum Ausdruck, dass man sich mühte, eine möglichst gute Prognose zu erstellen. Es besteht sowohl ein Erfordernis dafür, als auch hat dies Folgen: man muss möglichst gut liegen mit der Prognose, um die daran orientierte Anpassung möglichst gut vornehmen zu können. Wenn man also quasi willkürlich für eine Spieler in einem Turnier eine Gesamterwartung von 6.23 Punkte errechnen würde, diese aber in Wahrheit bei 5.48 liegen würde, dann würde er, sofern er denn 5.5 Punkte erzielt, trotz des objektiven Erfüllens der Erwartung eine Strafe in Form von einem Elo-Verlust erleiden. Nein, die Erwartungen sollen möglichst exakt die Wirklichkeit abbilden, no matter what...

Das Elo-System ist ein Prognosesystem, egal, wie sehr man es auch weiterhin als „Spielerei“ (was die Spieler selbst übrigens, wie auch unter anderem kritisch angemerkt wurde an manchen Stellen, in den Kommentaren, absolut nicht tun; eher im Gegenteil) ansehen mag: so ist es und so ist es auch beabsichtigt.

Nun sollen diese Vorhersagen also möglichst exakt sein, um vor allem für eine korrekte Anpassung zu sorgen. Jeder wird sicher seine eigene Entwicklung im Auge haben und sich vielleicht auch an sprunghafte Steigerungen erinnern (waren sie bei Ihnen zufällig auch in den Jugendjahren?), wird sich an die schlechte Phase erinnern, als man die Trennung hatte oder auch jene Zeit, als man frisch verliebt war und alles andere in Kopf und Gliedern hatte, nur noch so „nebenbei“ der Pflicht in den Mannschaftskämpfen nachgegangen ist und dabei, aus eigener Sicht „zwangsläufig“ nach und nach 100 Punkte einbüßte, wohingegen man später, mit neu gewonnenen Enthusiasmus heranging und tatsächlich einen Schub beobachten konnte bis zum persönlichen Peak, welchen man sicher, so meint man, dann wieder erreichen könnte, wenn einen Familie und Job nicht so sehr in Anspruch nehmen würden und man vor allem am Wochenende, wo Körper und Geist so dringend die Erholung nötig hätten, auch noch um 7 Uhr aus der Koje müsste, um sich rechtzeitig um 9 Uhr, weit außerhalb, zum Mannschaftskampf am Brett einzufinden, und unter diesen Umständen nun garantiert nicht zu der Höchstleistung fähig ist.

Also: man erkennt einen gewissen Zusammenhang zwischen Befähigungen, Leistungen, Engagement und auch zeitgleich der angegebenen Maßzahl für die Spielstärke. Sie entspricht, hier mehr, dort etwas weniger, den gezeigten Leistungen und, selbst wenn sich eigentlich jeder für besser hält, erkennt man doch an, dass sie so halbwegs stimmt (wehe nur, man gibt sich mal richtig Mühe!).

So soll es sein und möglichst für jeden bleiben. Insofern sind die veränderten Anpassungskoeffizienten erforderlich, da sie ein, selbst wenn nur frei ersonnenes, Abbild der Wirklichkeit darstellen. Also: die Bemerkung: „Es ist nicht gerecht, dass ein Jugendlicher mehr Punkte gewinnt als ein älterer, trotz des gleichen Ergebnisses“ ist schlichtweg falsch, irrig. Die schnellere Anpassung des Jugendlichen wird mit hoher Wahrscheinlichkeit zu einer besseren Prognose für die nächste Partie führen. Man nimmt seine Spielstärkeentwicklung ein wenig vorweg, aber dies aus gutem Grund. Bei dem Älteren, der doch schon so viele Partie gespielt hat, weiß man doch in etwa, was man von ihm zu erwarten hat. Heute Hui, morgen Pfui, das ist schon seit Jahrzehnten so bei ihm. Warum ihm den gleichen Zugewinn bescheren wie dem jüngeren? Er wird die Punkte nur schön brav im nächsten Turnier wieder abführen, da man nämlich mit der schnelleren Anpassung die Realität nicht abgebildet hätte.

Auch das eigens entwickelte, wirklich sehr schlichte, aber dadurch nicht schlechtere, System ist dafür geeignet, nein, noch mehr ist es so ausgelegt.

4) Die einfache Formel

Um nun noch ein bisschen voranzukommen, soll die einfach Formel hier einmal kurz vorgestellt werden: die Zahlen sollen in den Bereich von 0 und 1 abgebildet werden, und damit natürlich viel mehr Verwandtschaft mit dem hergestellt werden, was man tatsächlich erzielt. Man erzielt nämlich Prozente und nicht etwa eine Performance von 1755, die absolut nichts sagt, außer für den, der damit zufällig etwas anfangen kann. Diese Abbildung könnte einmalig erfolgen, als Beispiel könnte man zunächst in etwa den weltweiten Elo-Schnitt nehmen und diesen zur 50%-Marke erklären, nur um einen Einstieg zu haben.

Alle anderen Zahlen werden daran orientiert, gerne kann man dies tun mit der (keineswegs insgesamt schlechten) Elo-Formel. Wie gesagt, dabei handelt es sich um eine einmalige Initialisierung des Systems. Also, wie ein Schachfreund im Kommentar vorrechnete, entsprechen 80 Punkte Differenz in etwa 10 Prozentpunkten Unterschied, so könnte man jede Zahl in das Prozentsystem übersetzen. Wenn also der weltweite Elo-Schnitt derzeit, nehmen wir an, bei 2000 liegt, dann hätte ein Spieler mit Elo 2000 die Spielstärke 50%, jener mit 2080 hätte (in etwa) 60%, derjenige mit 1920 hätte 40% (wobei man auf den später wichtigen, erkennbar nicht linearen Verlauf der Kurve achten sollte).

Zu jedem Zeitpunkt übrigens könnte man, so man denn ein Erfordernis sieht, die Spielstärken wieder auf einen Schnitt von 50% „normieren“. Man nimmt alle gelisteten Spieler zusammen, errechnet also die Summe, dividiert sie durch die Anzahl der Spieler, hätte so einen Wert von 48.3% oder 54.6%, und würde jede Spielstärke mit dem Korrekturwert 50%/48.3% beziehungsweise, im anderen Fall, mit 50%/54.6%, multiplizieren, um im Anschluss bei Aufaddierung und Division wieder bei exakt 50% zu landen, dem Schnitt aller Spieler. Es würde in gewisser Weise der Realität entsprechen, da ja weiterhin nur 50% der Punkte zu vergeben sein werden (es sei denn, dass im Schach auch demnächst die 3-Punkte-Regel eingeführt würde!).

Dies nur für den Fall, dass weiterhin irgendjemand Angst vor einer Inflation hätte. Sie könnte jederzeit eingedämmt, nein, aufgehalten werden, man könnte dies sogar einmal jährlich routinemäßig durchführen. Der Aufschrei der einzelnen Spieler dürfte recht mäßig ausfallen, da jedem einzelnen bewusst sein dürfte, dass er absolut keine Punkte eingebüßt hätte durch den Eingriff (sofern der Schnitt zum Zeitpunkt des Eingriffs bei über 50% lag), sondern dass jeder vertretene Spieler die im Verhältnis exakt analoge Einbuße erfahren hat.

Übrigens gäbe es keinerlei Probleme mit dem System, an keiner Stelle, sofern man diese Normierung nicht, niemals, vornehmen würde. Eine „Inflation“ entstünde bestenfalls in dem Sinne, dass sich alle allmählich näher an 100% heranarbeiten (also der Schnitt, aufgrund der oben erklärten „Jugendlichenregelung“, sich langsam nach oben bewegen würde). Dies könnte jedoch tatsächlich, wie ebenfalls oben erklärt, ein Abbild der Wirklichkeit sei. Denn: von Generation zu Generation werden die Spieler wirklich besser. Es gibt mehr Wissen und es ist leichter zugänglich. Es kann nicht anders sein als in anderen Sportarten, selbst wenn der Weitsprungweltrekord in den letzten 40 Jahren nur einmal verbessert wurde (da allerdings von ZWEI Springern)...

So, nun wirklich die ganz schlichte Formel, zunächst intuitiv hergeleitet: wenn ein Spieler eine Spielstärke von 80% hätte, dann bedeutete dies, dass er 80% seiner Partien gewinnt und 20% verliert (Remisen bitte vergessen, es ist eine verbale Erklärung; man könnte hier auch sagen, dass er 80% erzielt und 20% abgibt, egal, wie viele Partie gewonnen oder verloren). Also ist sein Verhältnis eines von 80 geteilt durch 20. 80 macht er, 20 gibt er her, 80 geteilt durch 20 ist gleich 4.

Wenn sein Gegner nur 60% Spielstärke hat, dann hat dieser analog ein Spielstärkeverhältnis von 60 zu 40, also 60 geteilt durch 40, dies ist gleich 1.5. Es spielt also der Spieler mit einem Verhältnis von 4 gegen einen Spieler mit dem Verhältnis von 1.5. Für die Partie ergibt dies (noch unabhängig von dem später möglichen Schwarz-Weiß Korrekturfaktor) ein Verhältnis von 4 geteilt durch 1.5 zugunsten des Besseren. 4 geteilt durch 1.5 ist gleich 2.667.

In diesem Verhältnis nun, so erzählte uns die Erwartung, müssten sie sich die zu vergebenden 100% aufteilen. Der Bessere bekommt 2.667 Mal so viel von 100% als der Schwächere. Damit man auf diese Zahl kommt, muss man 100% durch 2.6667 + 1 teilen. Genau dann teilen sich diese beiden Werte so auf, dass beide Bedingungen erfüllt sind (wie man hoffentlich einfach erkennt). Der Schwächere erhält dadurch 100 geteilt durch 3.667.

Dies wären 27.27%, der Favorit hätte die verbliebenen 73.73%. Wenn man nun, nur zur Probe, 72.73 durch 27.27 teilt dann erhält man, oh Wunder der Mathematik, genau 2.667, das Verhältnis ihrer Spielstärken.

Eine Überprüfung der Formel ist wohl nicht weiter erforderlich, man könnte sich höchstens fragen, warum man so (scheinbar) kompliziert vorgehen muss. Es liegt daran, dass man eben im Bereich von 0 bis 1 (dort, wo sich Prozente befinden), immer in Verhältnismäßigkeiten rechnen muss. Der vorgestellte Weg ist der einzig richtige zur Berechnung.

So viel nun erstmal für heute, ob man nun wieder für angeregte Diskussionen sorgen kann oder möglicherweise etwas mehr Klarheit hineinbrachte?


Quicklinks zu den Teilen

Spielstärke Maßzahlen

Spielstärke Maßzahlen -- Teil 2

Spielstärke Maßzahlen -- Teil 3

Spielstärke Maßzahlen -- Teil 4

Kommentare   

#1 Spieler K 2012-02-17 13:31
Eine "Normierung" durch Multiplikation mit einem "Korrekturwert" (z.B. 50/48,3), wie vorgeschlagen, kann zu Werten außerhalb des Intervalls von 0 bis 1 führen und so das System sprengen.
#2 Umumba 2012-02-18 00:26
Das komplizierte Vorgehen lässt sich durch ein paar mathematische Umformungen aber auf eine übersichtliche Formel eindampfen. Die Umformungen werde ich hier jetzt nicht alle hinschreiben, die Formel hingegen schon:

x und y seien die Spielstärken (nicht in %, sondern entsprechend zwischen 0 und 1), dann ist der Erwartungswert für Spieler Y:

E(Y) = 100 * (y-xy) / (y-2xy+x)
#3 MiBu 2012-02-18 17:18
Das System überzeugt mich auf den ersten Blick nicht. Nehmen wir die Begegnung zweier Spieler mit den Paulsen-Zahlen px=0,6 und py=0,4. Intuitiv würde man annehmen, dass in diesem speziellen Fall die Erwartung des 60%-Spielers gar nicht errechnet werden muss, sondern eben bei 60% liegt und die des 40%-ers bei 40%, (da hier die Summe px + py gerade 1 bzw. 100% ergibt und man daher die Summe der Paulsen-Zahlen nicht auf 1 hoch- oder runterbrechen muss). Tatsächlich ist die Erwartung des stärkeren aber 69,23% und die des schwächeren 30,77%. Dieses kontraintuitive Ergebnis bedeutet aus meiner Sicht, dass das System ungeeignet ist (ohne dass ich ein besseres zur Verfügung hätte versteht sich).
#4 Spieler K 2012-02-19 15:53
Anmerkungen zum System (wie ich es verstehe).

Zur Notationsvereinfachung: Sei p(A) oder kurz p die Paulsen-Zahl im Intervall [0;1] eines Schachspielers. Sei p' = p/ (1-p). Dann berechnet man p aus p' durch p = p'/ (1+p'). Die Gewinnerwartung eines Spielers A gegen einen Spieler B, kurz g(A,B), soll dann gleich p'(A)/(p'(A)+p'(B)) sein. Warum das plausibel ist, wurde noch nicht näher begründet.

Betrachten wir nun den Fall, daß genau zwei Spieler A und B an diesem Wertungssystem teilnehmen, und g(A,B) = 0,75, also g(B,A) = 0,25. (Im Elo-System entspricht das einer Wertungsdifferenz von 193). Was sind nun die initialen Paulsen-Zahlen der beiden Spieler?
Die Annahme, A sei ein 75%-Spieler, da dies ja gerade seine Gewinnerwartung gegen den einzigen existierenden anderen Spieler ist, und B ein 25%-Spieler, führt zu p'(A) = 3, p'(B) = 1/3 und g(A,B) = 0,9 – ein eklatanter Widerspruch zur Voraussetzung. Berücksichtigen wir versuchsweise bei der Bestimmung der initialen Zahl ein Remis der Spieler gegen sich selbst. Dann holt Spieler A 0,75 gegen B und 0,5 gegen sich selbst, also im Durchschnitt 5/8. Man erhält p(A) = 5/8 =62,5%, p(B)= 3/8=37,5%, p'(A) = 5/3, p'(B) = 3/5, und g(A,B) = 25/34 = 73,53%. Das ist schon näher an der Voraussetzung, aber immer noch 1,5% daneben.
Bestimmen wir nun stattdessen rückwärts die Paulsen-Zahlen so, daß das gewünschte g(A,B)=0,75 herauskommt, so kommt man auf die Bedingung p'(A) = 3p'(B). Mit der Symmetriebedingung p'(A)p'(B)=1 erhält man p'(A)=Wurzel(3) und p(A)=63,4%, p(B)= 36,6%. Dies soll aber so interpretierbar sein, daß Spieler A ganz allgemein 63,4% erspielt (es wurde nicht gesagt, gegen wen).
#5 Dirk Paulsen 2012-02-21 10:27
Kurios, was ihr aus meiner so einfachen Formel macht.

Der 60% Spieler hat deshalb eine Spielstärkemaßzahl von 60%, da man von ihm erwarten dürfte, GEGEN DEN DURCHSCHNITTSSPIELER 60% zu erzielen. der Durchschnittsspieler hat nun mal 50%. Wenn er gegen einen anderen Spieler trifft, dann hat er die mithilfe der einfachen vorgestellten Formel berechnete Punkterwartung.

DIe beiden von euch gewählten Beispiele zeigen aber immerhin, dass ihr mit der Formel hantieren konntet. Nun muss aber das Verständnis noch nachziehen.

Kurios auch, dass es Zweifel an dem System gibt, obwohl ja das Eingeständnis von mir erfolgte, dass es von Ernst Zermelo (zum Zeitpunkt meiner "Entdeckung" mir unbekannt, jedoch hielt ich die Formel für längst bekannt, keine Frage) im Jahre 1929 vorgestellt wurde.

Paulsen ist nun ein wirklich ahnungsloser aber zugleich anmaßender Viel-aber-dafür-immer-däm lich-.Schwätzer. Das ist gewiss. Aber war es auch Herr Zermelo?
#6 Smitty 2012-02-21 15:55
Das ganze Konzept wird doch keinesfalls akzeptiert werden, als das Elo-System. Ich betrachte nur folgende Punkte:

A) Aussagekraft bei Top-Spielern:
Ich kann mir ja noch vorstellen, dass normale Spieler Paulsen-Zahlen von 0,4 oder 0,7 haben. Aber was soll Carlsen bekommen? Nimmt man die Elo-Liste von Jan 2011 und die zurundeliegende Normal-Verteilung an, so wird er mit 2814 gegen alle registrierten Spieler einen Erwartungswert von 99,0378% haben (Achtung: Elo-Schnitt ist 1987, aber 99,0378% ist die Erwartung von 2814 gegen 1987, sondern der Mittelwert aller Erwartungen von 2814 gegen jede andere vorkommende Ratingzahl).

Und was hätte Kramnik? Nach der gleichen Rechnung führt seine Elo-Zahl von 2784 auf 98,7911%.

Zumindest gewöhnungsbedürftig.

B) Transitivität:
Das Elo-System wurde so eingerichtet, dass es in gewisser Weise transitiv ist. Wenn Spieler A gegen B einen Erwartungswert von x hat, Spieler B gegen Spieler C einen von y, dann ist der Erwartungswert von A gegen C nur von x und y abhängig.

Das wäre beim Paulsen-System nicht so. Hier würde die Erwartung von A gegen C auch noch von der Paulsenzahl von A abhängen.

Zumindest gewöhnungsbedürftig.

C) Intuitivität:
Wenn ich mit Elo x gegen einen mit Elo y spiele, sehe ich die Differenz und weiß schon so etwas, woran ich bin. 100 Punkte Differenz heißt 64%, 200 Punkte 75% Punkterwartung, ab 300 Punkte wäre ein Remis ein Unglück.

Wenn ich aber mit Paulsen 0,7355 gegen 0,6702 spiele? Wie gut ist der denn dann? Da wird es jedenfalls keine Faustregeln geben, sondern jeder wird für sich eine entwickeln müssen.

Zumindest gewöhnungsbedürftig.
#7 Spieler K 2012-02-21 18:48
(1) In seinem Artikel „Die Berechnung der Turnier-Ergebnisse als ein Maximumproblem der Wahrscheinlichkeitsrechnu ng“ (Math.Z., 1918) untersucht E. Zermelo folgende Problemstellung: Gegeben seien n Schachspieler und die Ergebnisse von Partien dieser Spieler untereinander, z.B., aber nicht beschränkt auf, die Ergebnisse eines vollständigen Rundenturniers. Diesen Spielern sollen auf optimale Weise „Spielstärke-Zahlen“ u(r), r=1,...,n zugeordnet werden. Optimal soll heißen, daß unter der Annahme, daß die Gewinnerwartung von Spieler r gegen Spieler s =g(r,s) = u(r)/(u(r)+u(s)) ist, die Wahrscheinlichkeit der Gesamtheit der tatsächlichen Ergebnisse maximal ist, d.h. nicht niedriger als bei einer anderen Wahl von Spielstärkezahlen. (Die Werte u(r) entsprechen offenbar den Werten p'=p/(1-p)) im Paulsen-System.) Zermelos Ergebnis ist, daß mit dieser Maximum-Bedingung unter einer gewissen Voraussetzung die u(r) im Verhältnis zueinander eindeutig bestimmt sind. (Die Voraussetzung ist, daß die Menge der Spieler nicht in zwei Teilmengen X und Y zerlegt werden können, so daß alle zwischen einem Spieler aus X und einem Spieler aus Y ausgetragenen Partien vom Spieler aus der Teilmenge X gewonnen wurden.) Für vollständige Rundenturniere mit kleinen Teilnehmerzahlen zeigt er, wie man die optimalen u(r) berechnet. Theoretisch existieren diese optimalen Spielstärkezahlen auch, wenn man alle bekannten Partieergebnisse aller aktiven Schachspieler als ein riesiges Turnier betrachtet. (Sofern die genannte Bedingung erfüllt ist, d.h. Insbesondere: Spieler, die alle jemals gespielten Partien verloren haben oder alle Partien gewonnen haben, bereiten Probleme.)

(2) Der Artikel beschäftigt sich nicht damit, wie für Spieler die Spielstärke-Zahlen anzupassen sind, wenn neue Ergebnisse hinzukommen. Dies ist der Kern jedes praktischen Bewertungssystems. Man will ja nicht jedesmal wieder von der Gesamtheit aller Partien ausgehen. (Das wäre kaum machbar, außerdem würde die Entwicklung der Spieler nicht berücksichtigt – ein Sieg gegen den 10-jährigen Carlsen würde soviel zählen wie gegen den 20-jährigen – und auch die Wertung längst ausgeschiedener – z.B. toter – Spieler würde immer wieder verändert.) Insofern ist Zermelos Ansatz noch kein Wertungssystem.

(3) Es wird nicht behauptet, daß die Gewinnerwartung von Spieler r gegen Spieler s tatsächlich g(r,s) ist, sondern nur, daß sich mit dieser angenommenen Gewinnerwartung die Gesamtheit aller Ergebnisse am besten erklären läßt. Nehmen wir als extremes Beispiel drei Schachspieler 1, 2, 3 mit der kuriosen Spielstärkekonstellation, daß 1 immer gegen 2 gewinnt, 2 immer gegen 3 und 3 immer gegen 1. Wenn nun diese drei ein Rundenturnier austragen, gewinnen sie gleich viele Punkte. Die Spielstärkezahlen, die dieses Ergebnis am besten voraussagen (in obigem Sinne), haben die Eigenschaft u(1) = u(2) = u(3), also g(1,2) = g(2,3) = g(3,1) = ½, aber die wirklichen Gewinnerwartungen sind e(1,2) =e(2,3)=e(3,1) = 1.

(4) Um etwas realistischer zu argumentieren: Jedes System, das auf „Spielstärke-Zahlen“ u(r) und der Annahme, daß g(r,s) = u(r)/(u(r)+u(s)) der Gewinnerwartung von Spieler r gegen Spieler s entspricht, beruht, hat die Eigenschaft, daß die „Gewinnerwartung“ von Spieler 1 gegen Spieler 3 feststeht, wenn ich die von Spieler 1 gegen Spieler 2 kenne und die von Spieler 2 gegen Spieler 3. Warum soll das eigentlich so sein? [Beispiel: wenn g(1,2) = g(2,3) = 2/3, dann ist zwangsläufig g(1,3) = 4/5. @Smitty: in diesem Sinne ist es doch „transitiv“. Das gilt übrigens im Elosystem genauso, und ich vermute, daß das Elosystem tatsächlich auf demselben Prinzip beruht.]
+1 #8 Roggenossi 2012-02-21 19:26
Liegt's nur an mir oder... SCHNAAARCH! :D
#9 Smitty 2012-02-22 07:59
Na, kaum zitiert einer Zermelo mal so richtig, wird es doch interessant - oder?

Spieler K hat recht: Auch das Paulsen-System ist in dem Sinne transitiv, den ich ihm gestern noch abgesprochen hatte. Ich hatte mich da wohl verrechnet. Das wertet das System schon mal auf.
#10 Spieler K 2012-02-22 15:10
Das neue System ist, soweit es bisher beschrieben wurde, tatsächlich mit dem Elo-System identisch.
Elozahlen können einfach in "Paulsen-Zahlen" umgerechnet werden und umgekehrt.
Dazu sei q die Elozahl, die ein 50%-Spieler haben soll, z.B. q = 2000. Dann ist
p' = 10^((elo - q)/400) und wie gehabt p = p'/(1+p'). (Umgekehrt elo= 400log p' +q)
Rechnet man für zwei Spieler A und B die Elozahlen auf diese Weise ins Paulsen-System um, erhält man die Gewinnerwartung von A gegen B als
p'(A)/(p'(A)+p'(B)) = 1 / (1+ 10^((elo(B)-elo(A))/400),
und das ist genau die Gewinnerwartung im Elosystem*.
Beispiel: q=2000
elo(A) = 2000, p'(A) = 1, p(A) = 0,5
elo(B) = 2241, p'(B) = 10^(241/400) = 4,03, p(B) = 0,8
Gewinnerwartung im Elosystem = Gewinnerwartung im Paulsensystem = 0,8

*FIDE Rating regulation, 12.1: "The following formula gives a close approximation to tables 8.1a/b.
P = 1/(1 + 10^ -D/400). However the tables are used as shown."
#11 Smitty 2012-02-22 19:37
Hallo Spieler K,

du hast jetzt aber nur gezeigt, dass es eine bijektive (und monotone und stetige) Abbildung von Elo Paulsen gibt. Das ist aber kein Wunder, denn jeder der Schritte

Elo Gewinnerwartung nach Elo = Gewinnerwartung Paulsen Paulsen-Zahl

ist bijektiv, monoton und also stetig.


Tatsächlich unterscheiden sich die Systeme Elo und Paulsen in der Interaktion mehrerer Spieler, Stichwort Transitivität.

Wenn Spieler A gegen B 60% holt und B gegen C auch 60% - wieviel holt dann A gegen C? Und was ist, wenn man die Kette länger macht, etwa A->B->...->Z und jeder holt gegen den nächsten 60%.

Dann wird A gegen Z in beiden Sytemen mehr als 99% erwarten dürfen. Aber im Elo-System wird die Zahl exponentiell gegen 1 konvergieren, im Paulsen-System langsamer, nämlich geometrisch.

Dieser Unterschied hat überhaupt nichts mit den Normierungen auf (0,1) bei Paulsen bzw. (-infty, infty) bei Elo zu tun. Es geht rein um den Kern der Systeme: Die Fortpflanzung der Gewinnwahrscheinlichkeite n.


Dennoch kann man fragen, ob dieser Unterschied "am Rand der Verteilung" so gravierend ist.
#12 Spieler K 2012-02-22 23:45
Hallo Smitty, aufgrund der Bijektion zwischen Elo und Paulsen ist die Gewinnerwartung für beliebige zwei Spieler in der Kette in beiden Systemen gleich. Ich habe es mal ausgerechnet. Sei also eine Kette von Spielern A, B, C, …, Z gegeben, wobei jeder gegen den nächsten dieselbe Gewinnerwartung g (z.B. 60%) hat. Sei α= g/(1-g).
a) Nehmen wir an, daß die Spieler Elozahlen haben, die diesen Gewinnerwartungen entsprechen. Die Gewinnerwartung g entspricht einer festen Elodifferenz d. Nach der bereits zitierten Formel ist d= 400 log α. (Für g=0,6 müßte also d=400 log (3/2) = 70,4365... sein; die Tabellen sagen jedoch d=72.) Dann ist die Elodifferenz zwischen A und dem (n+1). Spieler in der Kette = nd. Die Gewinnerwartung von A gegen den (n+1). Spieler nach Elo ist dann 1/ (1+10^(-nd/400)) = 1/(1+α^-n).
b) Nehmen wir an, daß die Spieler Paulsenzahlen haben, die den Gewinnerwartungen entsprechen. Dann haben die p'-Zahlen benachbarter Spieler in der Kette den Quotienten α. Dann ist der p'-Quotient für A und den (n+1). Spieler in der Kette = α^n . Die Gewinnerwartung nach Paulsen ist dann ebenfalls 1/(1+α^(-n)).
Fazit: Die Gewinnerwartungen stimmen überein, wenn man für die Umrechnung zwischen Gewinnerwartung und Elo-Differenz die Formel verwendet und nicht die (warum auch immer) etwas abweichenden Tabellenwerte.
#13 Smitty 2012-02-23 07:58
Hallo K!

Ja, das stimmt - wenn man die Näherungsformel P = 1/(1 + 10^ -D/400) benutzt.

Tatsächlich ist aber die Normalverteilung Grundlage des Elo-Systems (also in Excel-Notation: P = NormVert(D;0;282,4;wahr) ) - und diese klingt eben schneller ab, wenn D wächst, als die Näherungsformel.


Dennoch ist das doch ein Ergebnis:

Paulsen ist im Kern wie Elo, wenn man die Näherungsformel benutzt, die ja für den praktisch relevanten Abschnitt gut ist.

Unterschiede gibt es darüber hinaus nur in der Normierung der veröffentlichten Zahlen (Interval (0,1) statt (-infty, infty)) und evtl. im noch nicht veröffentlichten Change-Management beim Auswerten von Turnieren.


Dirk, es wird Zeit für Teil 4!
:-)
#14 Spieler K 2012-02-23 08:45
ok, das erklärt die Abweichung zwischen den Tabellenwerten und der Näherungsformel. Im FIDE-Handbuch findet man nur die Tabellenwerte und nicht ihren Ursprung aus der Normalverteilung.

Die Teilnahme an unserer Kommentarfunktion ist nur registrierten Mitgliedern möglich.
Login und Registrierung finden Sie in der rechten Spalte.