Krautreporter-Datensport: die Bundesliga-Prognose
Aus dem Archiv

Krautreporter-Datensport: die Bundesliga-Prognose

Mit diesem Text starte ich einen spannenden Versuch. Ich will testen, ob man die Sieger der Fußball-Bundesliga-Spiele berechnen kann – und wenn ja, welche Faktoren dafür am besten geeignet sind. Schlage ich mit meiner Methodik Wettbüros, Tippspieler und Experten? Oder ist der Fußball zu überraschend für Rechenmodelle?

Profilbild von Jens Schröder

Er ist das liebste Kind der Deutschen: der Fußball. Wenn eine Weltmeisterschaft ansteht, gibt es Millionen Bundestrainer, die meinen, alles besser zu wissen als der tatsächliche Bundestrainer. Egal, welches Spiel ausgetragen wird, die Deutschen wetten oder tippen auf das Ergebnis. Oft wird dann erzählt, dass diejenigen, die am wenigsten Ahnung von Fußball haben, die Tippspiele grundsätzlich gewinnen. Doch ist das so? Sollte man die Ergebnisse einfach auswürfeln statt sich den Kopf zu zerbrechen? Schließlich ist auch Zahlen-Guru Nate Silver bei der WM kläglich mit seinen Prognosen gescheitert.

Nun ist eine WM-Prognose - theoretisch - um ein Vielfaches schwieriger. Schließlich reichen eine, zwei miese Partien, um aus dem Wettbewerb auszuscheiden. Eine Bundesliga-Saison ist da – theoretisch – vorhersehbarer. Am Ende setzt sich immer ein Favorit durch. Oder? Die Hinrunde der aktuellen Saison hat diese These nicht wirklich bekräftigt. Oder gibt es auch nur einen Experten, der vorhergesehen hat, dass Borussia Dortmund zu Beginn der Rückrunde auf einem Abstiegsplatz liegen würde?

Über die Methodik habe ich mir im Vorfeld viele Gedanken gemacht. Sie sollte nachvollziehbar sein, auf offenen Daten basieren und für jedermann mit ein wenig Excel-Ahnung auch nachrechenbar sein. Zudem sollte sie nicht nur auf historischen Daten basieren, sondern möglichst gut die aktuelle Form der Teams einfangen. Eine Vielzahl von unterschiedlichsten Faktoren sollte somit in mein Modell integriert werden, um möglichst nichts dem Zufall zu überlassen und viel über die Dinge, die Fußballspiele beeinflussen, zu lernen.

Mehr von Krautreporter

Ziel meines Experiments ist die Erforschung, ob sich der Ausgang von Fußballspielen möglichst gut voraussagen lässt. Wenn ja, will ich offen zeigen, auf welche Art. Dabei könnte auch eine Methode entstehen, mit der Tippspieler erfolgreicher sein könnten als mit sturem 2:1-Tippen oder gar würfeln. Wer sich aber erhofft, dass ich die Sieger der Spiele mit hundertprozentiger Wahrscheinlichkeit vorberechnen könnte, wird enttäuscht sein. Denn dafür ist eine Sportart wie Fußball einfach zu sehr von Ereignissen abhängig, die nicht vorhergesagt werden können. Borussia Dortmund. Ihr wisst, was ich meine.

Als Vorbereitung für die Rückrunden-Prognosen habe ich die Ergebnisse der 153 Hinrunden-Partien mit den 20 von mir ausgewählten Faktoren verglichen. Welche der 20 Faktoren sind besonders geeignet für mein Experiment – und welche sind völlig ungeeignet. Gesammelt habe ich dabei Faktoren, die von kurzfristigem Erfolg bis zu historischen Daten reichen, vom Thema „Geld schießt Tore“ bis zur kämpferischen Leistung.


Von folgenden 20 Faktoren rede ich:

1. Langfrist-Erfolg:
Welcher der beiden Gegner hat in den fünf Bundesliga-Saisons vor der aktuellen Spielzeit die meisten Punkte erreicht?

2. Aktueller Erfolg:
Welches der beiden Teams findet sich in der aktuellen Bundesliga-Tabelle weiter oben?

3. Erzielte Tore:
Wer hat in der laufenden Saison mehr Tore geschossen?

4. Gegentore:
Wer hat in der laufenden Saison mehr Gegentore hinnehmen müssen?

5. Kurzfristige Form:
Welches Team hat in den jüngsten fünf Bundesliga-Spielen die meisten Punkte geholt?

6. Marktwert der Spieler:
Welche Mannschaft hat zum Zeitpunkt des Matches die wertvollsten Spieler in seinem Kader?

7. Direkter Vergleich:
Wie sieht es im historischen Vergleich aus? Welcher der beiden Gegner hat in der Bundesliga-Geschichte mehr Spiele im direkten Vergleich gewonnen?

8. Heimrecht:
Dieser Faktor geht davon aus, dass immer die Heimmannschaft gewinnt – egal, wer gegen wen antritt.

9. Wett-Quoten:
Wen sehen die internationalen Wettbüros als Favoriten in der Partie an?

10. Überraschungsfaktor:
Welches Team überrascht in der laufenden Saison? Ich berechne für diesen Faktor die Differenz aus aktuellem Tabellenstand und der Platzierung im Marktwert-Ranking. Das Team, das sportlich besser da steht als es der Wert der Mannschaft vermuten lässt, wird für diesen Faktor als Favorit in der Partie gewertet, da es ihm offenbar gelingt, mehr aus seinen Spielern herauszuholen.

11. Ausfälle:
Welche der beiden Mannschaften beklagt mehr Ausfälle durch Verletzungen und Sperren? In die Wertung kommen dafür die elf wertvollsten Spieler eines Kaders – auf den Positionen Torwart, zweimal Innenverteidiger, zweimal Außenverteidiger, zweimal defensives Mittelfeld, je einmal linkes und rechtes Mittelfeld, offensives Mittelfeld und Angriff. Die Mannschaft, bei denen weniger dieser ersten elf Spieler ausfallen, gilt für diesen Faktor als Favorit.

12. Trainer:
Wie viele Punkte hat der aktuelle Trainer in seiner Bundesliga-Karriere pro Spiel erzielt?

13. Torschüsse:
Welches Team hat in den fünf Spielen vor der aktuellen Partie am häufigsten auf das Tor geschossen?

14. Zweikampfquote:
Welcher der beiden Gegner war in den fünf Spielen vor der aktuellen Partie zweikampfstärker?

15. Angekommene Pässe:
Welche Mannschaft hatte in den fünf Spielen vor der aktuellen Partie die bessere Passquote?

16. Ballbesitz:
Wer erreichte in den fünf Spielen vor der aktuellen Partie die besseren Ballbesitz-Werte?

17. Laufdistanz:
Welche Mannschaft ist in den fünf Spielen vor der aktuellen Partie mehr gelaufen?

18. Effizienz:
Welches Team hat in den fünf Spielen vor der aktuellen Partie weniger Torschüsse für ein erzieltes Tor benötigt?

19. Tippspiel:
Wie haben die Tipper einer großen Online-Tippspiel-Plattform im Durchschnitt auf das entsprechende Spiel getippt?

20. Zufallszahl:
Der Würfel-Faktor: Ich habe Zufallszahlen generiert, die Mannschaft mit der höheren Zufallszahl gewinnt das Spiel.


Neben den einleuchtenden Quellen für Tore, Tabellenstand etc. habe ich mich dabei folgender Quellen bedient:

Faktoren 6 und 11: Den Marktwert der 18 Bundesliga-Mannschaften habe ich jeweils aktuell aus der Übersicht auf Transfermarkt.de entnommen. Auch für die erste Elf des Ausfall-Faktors habe ich die Marktwerte von Transfermarkt.de verwendet.

Faktor 9: Die Website Betbase1.info ist eine Art Aggregator für Wett-Quoten. In die Wertung kommen dort 42 internationale Wettanbieter. Durch die Nutzung der Website ist mein Wett-Faktor nicht von einzelnen Unternehmen abhängig.

Faktoren 13 bis 18: Die Zahlen für Torschüsse, Zweikämpfe, Pässe, Ballbesitz und Laufdistanz recherchiere ich bei kicker online. Hier werden zeitnah nach den Bundesliga-Spielen sämtliche dieser Daten im Punkt „Analyse“ veröffentlicht. Hier z.B. für den 17. Spieltag.

Faktor 19: Für den Tipp-Faktor habe ich die Plattform Ligaexperte.de verwendet. Es ist zwar nicht die größte Tipp-Website, doch immerhin spricht man dort von mehr als 4.000 Tippern für die aktuelle Bundesliga-Saison. Und: Nach den Spieltagen werden die Durchschnitts-Tipps der Mitspieler veröffentlicht. Hier z.B. für den 17. Spieltag


Sämtliche 153 Hinrunden-Spiele wurden also mit diesen Faktoren durchgerechnet. Gewann das im entsprechenden Faktor favorisierte Team das Spiel, bekam der Faktor für dieses Spiel 100 Punkte, bei einem Unentschieden 50, und gewann das andere Team, gab es für den Faktor 0 Punkte. So habe ich berechnet, welche Faktoren in den 153 Matches die besten Prognosen ablieferten.

Als beste Faktoren stellten sich in diesen umfangreichen Berechnungen die Tippspieler und die Wett-Quoten heraus: 63,7 Prozent beziehungsweise 63,1 Prozent der Sieger wurden durch die Tipps der Ligaexperte.de-Tipper und die Quoten der Wettbüros korrekt vorhergesagt. Die Schwarm-Intelligenz hat also alle sportlichen Faktoren besiegt. Dahinter folgen mit 60,5 Prozent der Heimrecht-Faktor, mit 59,5 Prozent der direkte historische Vergleich sowie mit je 56,9 Prozent der Marktwert der Spieler und die Zahl der Gegentore. Die komplette Liste:

Interessanterweise erreichte der Zufallszahl-Faktor also genau 50,0 Prozent. Statistisch gesehen musste dieses Ergebnis heraus kommen. Unter 50 Prozent blieb nur ein Faktor: die Laufleistung. Ein klarer Beweis dafür, dass die gelaufenen Kilometer nur wenig über die Leistung einer Mannschaft aussagen. Bayern München beispielsweise gehörte in der Vorrunde zu den vier Teams mit den wenigsten Kilometern – und ist unangefochten Erster der Tabelle. Am meisten gelaufen ist hingegen Borussia Dortmund – nach Punkten Vorletzter. Man könnte angesichts des Ergebnisses von 46,4 Prozent also sogar sagen, dass die Mannschaft in einem Spiel favorisiert ist, die generell weniger läuft als die andere.

Nur minimal über die 50-Prozent-Hürde gesprungen ist zudem der Faktor Effizienz. Das Verhältnis von Torschüssen zu Toren sagt also offenbar auch wenig über den Erfolg einer Mannschaft aus. Diese beiden Faktoren habe ich für meine Rückrunden-Prognose-System ausgeschlossen, da sie nicht besser als der Zufall sind. Auch die Zufallszahl wird bei den Prognosen keine Rolle spielen. Zudem schweren Herzens auch das Tippspiel. Auch wenn dieser Faktor der beste war, schließe ich ihn aus. Ich will für meine Methodik schließlich nur offen zugängliche Daten nutzen. Da die Tipps von Ligaexperte.de aber erst nach einem Spieltag veröffentlicht werden, sind sie nun einmal nicht offen. Und auch wenn es für mich eine Möglichkeit gäbe, vor einem Spieltag exklusiv an die Daten zu kommen, wären sie nicht für jedermann offen.

Übrig bleiben für meine Systematik also 16 Faktoren: alle außer den oben genannten Faktoren 17 bis 20. Diese 16 Faktoren werden aber keine gleichberechtigte Rolle in meinen Prognosen spielen, sondern eine nach den Ergebnissen der Vorrunde gewichtete Rolle. Die Prozentpunkte, die ein Faktor über der 50-Prozent-Marke lag, spielen für diese Gewichtung eine Rolle. Zusammengezählt erreichen die Faktoren 89,9 Punkte. Um auf 100 Punkte zu kommen, multipliziere ich sie jeweils mit 1,11 - denn ich will die Prognosen der einzelnen Bundesliga-Spiele auf einer Skala von 0 bis 100 veranschaulichen.

Heraus kommt diese Gewichtung der 16 Faktoren:

Je mehr Punkte aus den 16 Faktoren ein Team also erhält, desto größer sind nach meinem System seine Chancen, das Spiel zu gewinnen. Um es noch einfacher zu erklären: Ist ein Team Favorit bei den Wett-Anbietern, bekommt es in meinem Prognose-System für das Spiel 14,6 Punkte. Spielt es zu Hause, bekommt es weitere 11,7 Punkte. Und hat es im historischen direkten Vergleich die Nase vorn, weitere 10,6 Punkte. Zusammen wären das schon 36,9 Punkte – reichen die anderen Faktoren, um über die 50-Prozent-Marke zu kommen, wäre das Team Favorit und würde von mir als Sieger prognostiziert werden.


Durch die Vielzahl von Einflüssen unterschiedlichster Art erhoffe ich mir, die Spiele besser prognostizieren zu können. Ob das gelingt, weiß ich selbst noch nicht. Es handelt sich um ein offenes Experiment. Den offenen Charakter des Experiments will ich durch einen Aufruf zur Diskussion stärken: Macht mit! Ich freue mich über jede Kritik, jede Inspiration und andere Anmerkungen zu meiner Methodik, den Faktoren und zum gesamten Experiment. Neben der Kommentarfunktion und einer E-Mail kann das auch in der eigens eröffneten Facebook-Gruppe (Link in der Anmerkung neben diesem Absatz) geschehen. Dort werde ich auch abseits der wöchentlichen Prognose-Artikel über den aktuellen Stand des Experiments informieren - und möchte mit Euch gemeinsam über die Methodik diskutieren, Ideen zur Weiterentwicklung sammeln und darüber sprechen, warum die Prognosen bei einzelnen Spielen funktioniert haben, bei anderen aber nicht.


Die Prognosen für den 18. Bundesliga-Spieltag erscheinen am Freitag auf Krautreporter. Die Auswertung von Erfolg oder Misserfolg der Vorhersagen folgen dann zusammen mit den nächsten Prognosen in der Regel jeweils am Tag des ersten Matches eines Bundesliga-Spieltags.


Aufmacherbild: Nicola Delfino - Flickr (CC BY 2.0)