Zur Erinnerung: Ich versuche auf Krautreporter, die Sieger der 17 Rückrunden-Spieltage der Fußball-Bundesliga vorherzusagen. Fünf neue Faktoren integriere ich ab sofort in meine Methodik. Damit steigt die Anzahl auf insgesamt 21 Faktoren. Neben den bekannten 16, deren ausführliche Erläuterungen jederzeit an dieser Stelle abrufbar sind, kommen folgende fünf hinzu:
17. Goalimpact:
Dabei handelt es sich um einen Algorithmus, der für jeden Spieler angibt, welchen Einfluss er bisher auf den Erfolg seines Teams hatte (Erläuterungen siehe hier). Auf Ligainsider.de finden sich die Goal-Impact-Werte der Bundesliga-Spieler, ich errechne für jedes Team den Durchschnitt der jeweiligen Top-Elf.
18. Heimstärke vs. Auswärtsstärke:
Das jeweilige Heim-Team kommt mit dem aktuellen Platz in der Heimtabelle in die Wertung, das jeweilige Auswärts-Team mit dem Platz in der Auswärtstabelle. Der bessere Rang bekommt die Punkte aus diesem Faktor.
19. Elo-Rating:
Ein ursprünglich für Schach erfundenes Wertungssystem zur Berechnung der Stärke eines Spielers. Gibt es auch für Fußball, die Mannschaft mit dem laut fussballelo.de höheren Elo-Score bekommt die Faktor-Punkte.
20. Kurzfrist-Tendenz:
Nur das Spiel vor dem aktuellen Spieltag zählt. Hat Team A das vorige Spiel verloren, der Gegner Team B gewonnen, gilt Team B als Favorit in diesem Faktor.
21. kicktipp:
Der Tippspiel-Faktor ist zurück. Beim größten deutschen Tippspiel-Anbieter gibt es so etwas wie eine Tipp-Statistik. Mit Hilfe der Regeln zur Punktevergabe kann - auch rückwirkend - geschaut werden, welches Team bei den Tippern als Favorit galt beziehungsweise gilt. Und der bekommt dann auch die Punkte aus diesem Faktor.
Natürlich muss sich angesichts der Erweiterung des Modells auch die Gewichtung der Faktoren ändern. Ich habe die Gelegenheit genutzt und die neue Gewichtung nicht nur auf Basis der Hinrundenergebnisse, sondern auf Basis der Ergebnisse bis einschließlich des 22. Spieltages berechnet. Dafür wurden die entsprechenden 198 Spiele also für die 21 Faktoren durchgespielt. Hat ein Faktor den Sieger korrekt vorausgesagt, hat er für das Match 100% bekommen, lag er falsch 0%, bei einem Unentschieden 50%. Folgende Durchschnittszahlen sind das Ergebnis:
Wie gehabt, habe ich die Prozentpunkte, die über der 50%-Marke liegen, in meine Gewichtung der einzelnen Faktoren übernommen. Das entsprach bei den 21 Faktoren einem Gesamtwert von 125. Um auf 100 Punkte zu kommen, wurden also alle Werte mit 0,8 multipliziert. Dadurch ergeben sich folgende neue Gewichtungen der einzelnen Faktoren:
Die einzelnen 21 Faktoren haben also jeweils einen noch geringeren Einfluss auf das Gesamtergebnis. Selbst die Wett-Quoten, die derzeit der stärkste Einzelfaktor sind, verantworten nur noch 10,7% der Gesamt-Prognose. Für meine Methodik ist das meiner Meinung nach vorteilhaft, da sich dann theoretisch noch besser die Teams durchsetzen, die in vielen einzelnen Faktoren vorn liegen - und nicht nur in wenigen starken. Schauen wir also auf die ersten Prognosen mit dem erweiterten Rechenmodell - die für den 23. Spieltag:
Das Spiel des Spieltags: Borussia Dortmund - FC Schalke 04
Das brisanteste Duell des Wochenendes ist definitiv das Ruhrderby zwischen Borussia Dortmund und Schalke 04. Und auch wenn die sportliche Situation - Dortmund ist 12., Schalke 4. - erwarten lässt, dass Schalke Favorit sein könnte, ist in meinen Berechnungen das Gegenteil der Fall. Der BVB hat demnach eine Siegchance von 73%. 12 der 21 Faktoren entscheiden die Dortmunder für sich, 7 Schalke, in den beiden restlichen Faktoren liegen beide gleichauf. Für den BVB spricht unter anderem die Form in den jüngsten fünf Spielen, in denen man immerhin 10 Punkte holte. Außerdem die gewichtigen Faktoren Heimrecht, Elo-Rating und Wett-Quoten. Auch die kicktipp-Spieler haben in der Mehrheit auf Dortmund gesetzt.
Die Top-Favoriten: Borussia Mönchengladbach, Bayern München und Bayer Leverkusen
Interessanterweise gibt es in meinen Berechnungen für den kommenden Spieltag keine enge Partie. In allen Spielen ist ein Team der klare Favorit - mindestens mit einer 67%-Siegchance. Die größten Favoriten sind dabei Mönchengladbach, München und Leverkusen - mit 86% bis 95%. Eine unglaubliche Siegchance von 98% hat Borussia Mönchengladbach gegen den SC Paderborn. Einzig im Sensations-Faktor - in dem wir den Tabellenstand mit dem im Marktwert-Ranking vergleichen und das Team favorisieren, das über seinen Möglichkeiten spielt - und bei der Zweikampfquote teilen sich Gladbach und Paderborn die Punkte. Alleiniger Favorit ist Paderborn in keinem der 21 Faktoren. Kaum besser sieht es für Köln in München aus. Der Sensations-Faktor und der Ausfall-Faktor mit Verletzungen und Sperren gehen an Köln, beim neuen Thema Heim- vs. Auswärtsstärke teilen sich die beiden Clubs die Punkte, weil die Kölner weiterhin sensationeller Zweiter in der Auswärtstabelle sind. Bayer Leverkusen dürfte nach unserem Modell dem SC Freiburg keine Chance lassen. Immerhin gehen vier Faktoren an die Freiburger: die Form der jüngsten fünf Spiele, die Zweikampfquote, die Passquote und der Ballbesitz.
Die Spieltags-Prognosen im Überblick:
Bayern München - 1. FC Köln | 95%-Favorit: Bayern München
Borussia Dortmund - FC Schalke 04 | 73%-Favorit: Borussia Dortmund
Bayer 04 Leverkusen - SC Freiburg | 86%-Favorit: Bayer 04 Leverkusen
TSG Hoffenheim - FSV Mainz 05 | 64%-Favorit: TSG Hoffenheim
Hannover 96 - VfB Stuttgart | 77%-Favorit: Hannover 96
Hertha BSC - FC Augsburg | 79%-Favorit: FC Augsburg
Eintracht Frankfurt - Hamburger SV | 67%-Favorit: Eintracht Frankfurt
Borussia Mönchengladbach - SC Paderborn 07 | 98%-Favorit: Borussia Mönchengladbach
Werder Bremen - VfL Wolfsburg | 81%-Favorit: VfL Wolfsburg
Exklusiv für Krautreporter-Mitglieder: Die komplette Übersicht mit allen Berechnungen und Faktoren für die neun Spiele könnt ihr in der Anmerkung rechts neben diesem Absatz aufrufen (wenn ihr eingeloggt seid)
Die Ergebnisse des 22. Spieltags
Der 22. Spieltag war bisher der mit Abstand erfolgreichste für unser kleines Daten-Experiment. Sechs der neun Ausgänge wurden korrekt prognostiziert, die restlichen drei Spiele sind Unentschieden ausgegangen. Rechne ich für diese drei Partien eine Korrektheit für 50% ein - so wie bei der Berechnung der Faktor-Gewichtungen - so ergibt sich eine Erfolgsrate von 83%. Was mich besonders freut: Kein Einzelfaktor war erfolgreicher. Genau solche Spieltage hatte ich mir erhofft.
Natürlich wird ein solches Ergebnis nun nicht an jedem Spieltag wiederholbar sein, dafür gibt es im Fußball - auch in einer Liga - nun mal zu viele Überraschungen und unvorhersehbare Ereignisse. Auch die Erweiterung meiner Methodik auf 21 Faktoren bringt natürlich eine neue Ungewissheit in mein Modell. Ich bin zwar der Meinung, dass ein Plus an Faktoren nur gut ist - allerdings kann sich natürlich auch herausstellen, dass die Menge an Faktoren nur noch die Teams als Favorit identifizieren, die man ohnehin vorn gesehen hätte. Die klaren Rechenergebnisse des 23. Spieltages lassen mich da etwas unsicher zurück.
Ich freue mich weiterhin über Diskussionen und weitere Ideen zur Methodik dieses Datenexperiments hier in den Kommentaren und in unserer Facebook-Gruppe (Den Link finden eingeloggte Mitglieder in der Anmerkung neben diesem Absatz).
Update von Chefredakteur Alexander von Streit:
Wir haben uns dazu entschieden, das Format einzustellen. Ich weiß, dass das einigen von euch nicht gefällt. Auch mir ist die Entscheidung nicht leicht gefallen. Ich möchte euch hier die Hintergründe erläutern:
Ich bin selbst kein Fußball-Fan, hatte aber große Lust auf dieses Datenexperiment. Denn es ist etwas, was man in dieser Form nicht an anderer Stelle finden kann. Es entsprach der Idee von Krautreporter, Themen gemeinsam mit interessierten Mitgliedern zu verfolgen und so die Berichterstattung zu verbessern. Gerade beim Datensport war die Diskussion sogar der zentrale Aspekt, denn, wie auch viele Mitglieder angemerkt haben: Vorhersagen auf Sportereignisse sind ja per se nicht das, wofür Krautreporter angetreten ist. Die Zusammenarbeit mit den Lesern allerdings schon.
Ob die gemeinsame Arbeit an der Methode funktionieren würde, wie wir uns das vorstellten, ließ sich im Vorfeld natürlich nicht abschätzen. Jens und ich hatten daher von Anfang an darüber gesprochen, dass wir überprüfen werden, wie das Format im Rahmen von Krautreporter funktioniert. Und gerade der Aspekt der gemeinsamen Arbeit an der Methode hat leider nicht ausreichend viele Mitglieder bewegt. Zwar wurden die Prognosen laufend besser, aber die Diskussion darüber hat kaum Fahrt aufgenommen. Gerade dadurch glichen sich die einzelnen Texte sehr und führten in der redaktionellen Mischung zu einer Unwucht. Mit der Analyse der Spielergebnisse dominierte so ein Nebenaspekt, während der Kernaspekt – die Diskussion über die Methode – kaum Dynamik erzeugte.
Wir haben eine große Verantwortung übernommen und müssen das uns anvertraute Geld richtig einsetzen. In diesem Fall ist der Einsatz zu hoch für das, was das Projekt in der Gesamtschau auf unser Programm leistet.
Darum wollen wir das Experiment nicht bis zum Saisonende fortsetzen. Wir überprüfen gerade mehrere Formate/Themen, die wir mit Begeisterung begonnen haben, die aber letztlich im Angebot nicht funktionieren. So werden wir auch die wöchentliche Graphic Novel beenden, um uns auf andere Themen konzentrieren zu können.
Wir hoffen, dass Jens weiter für Krautreporter schreiben wird. Wir hatten schon im Vorfeld des KR-Datensports über viele weitere Formate und Ideen gesprochen. Und es wäre großartig, wenn wir künftig einige davon mit ihm umsetzen könnten.