Die Tabelle lügt nie!? Profifußball als Anwendungsfall von Data Science

3366 Spiele, 9.661 Tore, 34 Mannschaften – die Informationen aus den letzten elf Jahren Bundesliga-Fußball sind ein Steilpass für Datenanalysten, um die unzähligen Mythen des Fußballs auf den Prüfstein zu stellen. Einer der bekanntesten von ihnen: Die Tabelle lügt nie.

Die Ausgangsfrage

Angenommen der weitverbreitete Ausspruch ‚‚Die Tabelle lügt nicht‘‘ ist wahr, dann müsste man meinen, sie repräsentiert das wahre Leistungsvermögen der Mannschaften. Leistungsvermögen ließe sich übersetzen in Gewinnwahrscheinlichkeiten und damit zu der Annahme führen: Je größer der Abstand zwischen zwei Gegnern in der Tabelle, desto höher die Gewinnwahrscheinlichkeit des favorisierten Teams. Die hier untersuchte Fragestellung lautet: Erhöht sich die Gewinnwahrscheinlichkeit einer Mannschaft mit größer werdendem Positionsabstand in der Tabelle? Dies würde auch die These eines ausgewiesenen Fußballfachmanns widerlegen: Felix Magath prägte den Satz „Die Tabelle, die ja nie lügt, täuscht ja oft.“

Methode

Um der Frage nachzugehen, haben wir auf Datenbasis der letzten elf Bundesligajahre die relativen Anteile von Sieg, Unentschieden und Niederlage für spezifische Tabellenkonstellationen extrahiert. Hat das Heimteam in der Konstellation „Die Heimmannschaft steht 5 Positionen über der Auswärtsmannschaft“ 50 Prozent der Spiele gewonnen, bezeichnen wir eben diesen Wert als Gewinnwahrscheinlichkeit. Um aussagekräftigere Ergebnisse zu erzielen, wurden nur Spiele ab dem zehnten Spieltag in die Analyse einbezogen. Denn natürlich wird die Tabelle, je weiter die Saison fortgeschritten ist, hinsichtlich des Leistungsvermögens eines Teams belastbarer. Die wesentlichen Kennzahlen der Untersuchung sind:

  • die Positionsdifferenz zweier Teams
  • die über alle Begegnungen ermittelte Gewinnwahrscheinlichkeit bei einer spezifischen Konstellation (zum Beispiel die Gewinnwahrscheinlichkeit für das Heimteam, wenn dieses in der Tabelle fünf Positionen über dem Auswärtsteam steht)

Um der Eingangsthese nachzugehen, wurden für die Gewinnwahrscheinlichkeiten lineare Modelle mit der erklärenden Variable „Positionsdifferenz“ erstellt. Haben die Modelle eine gute Anpassung und einen signifikanten Koeffizienten, kann davon ausgegangen werden, dass die Tabelle nicht lügt und die Mannschaftsstärke repräsentiert. Bei der Untersuchung ist entscheidend, dass eine Differenzierung zwischen „das Heimteam ist favorisiert“ (und steht in der Tabelle über dem Auswärtsteam) und „das Auswärtsteam ist favorisiert“ gemacht wird, um den Effekt des Heim- und Auswärtsspiels weitestgehend zu eliminieren.

Analyse

Die Visualisierungen zeigen die Wahrscheinlichkeiten für einen Heimsieg, wenn das Heimteam als Favorit, bzw. als Underdog ins Spiel gegangen ist. Die linearen Modelle haben eine gute Anpassung an die Daten und erweisen sich als signifikant. Geht das Heimteam als Favorit ins Spiel, erklärt die Positionsdifferenz respektable 65 Prozent der Gesamtvarianz in den Wahrscheinlichkeiten für einen Heimsieg.

Wahrscheinlichkeit für einen Heimsieg, wenn die Heimmannschaft Favorit ist (Bundesliga).
Wahrscheinlichkeit für einen Heimsieg, wenn die Heimmannschaft Favorit ist (Bundesliga).

Geht das Heimteam als Underdog ins Spiel, können immerhin noch rund 36 Prozent der Varianz in der Wahrscheinlichkeit für einen Heimsieg erklärt werden.

Wahrscheinlichkeit für einen Heimsieg, wenn die Auswärtsmannschaft Favorit ist (Bundesliga).
Wahrscheinlichkeit für einen Heimsieg, wenn die Auswärtsmannschaft Favorit ist (Bundesliga).

Für beide Szenarien lässt sich konstatieren, dass durchaus eine lineare Entwicklung in den Gewinnwahrscheinlichkeiten abzulesen ist.

Auffallend sind die existenten, teilweise extremen Ausreißer in den Residuen der Modelle beispielsweise in dem Fall, dass das Heimteam zwei Plätze vor der Auswärtsmannschaft steht. 62 Prozent der 129 Begegnungen die in diese Kategorie fallen, wurden von der Heimmannschaft gewonnen. Zum Vergleich: Beträgt die Positionsdifferenz 3 Plätze, konnte die Heimmannschaft nur in 41 Prozent aller Fälle als Sieger vom Platz gehen (bei immerhin noch 109 Begegnungen).

Große Abweichungen bei deutlichen Differenzen der Positionen (wie im Falle 16) lassen sich hingegen durch die geringe Anzahl an Spielen erklären, die dem Model zugrunde liegen. Nur 11 Begegnungen mit der Konstellation 1 vs. 17, beziehungsweise 2 vs. 18 fallen, in diese Kategorie.

Durch die Trennung der Analysefälle in Favorit und Außenseiter zeigt sich zudem der Heimspieleffekt. Geht das Heimteam als Underdog in das Spiel, beträgt die Gewinnwahrscheinlichkeit bei einer Positionsdifferenz von 1 rund 34 Prozent und ist damit genauso hoch, wie die Gewinnwahrscheinlichkeit für die Auswärtsmannschaft, welche als vermeintlich leistungsstärkere Mannschaft in die Partie geht. Erstaunlich auch der deutliche Unterschied zu der Konstellation „die Heimmannschaft steht eine Position über der Auswärtsmannschaft“. In dieser Konstellation wurden nahezu die Hälfte der Heimspiele gewonnen.

Der Vergleich: Deutschland vs. England

Um zu erforschen, ob den Ausreißern eine Systematik innewohnt, gehen wir einen Schritt weiter und wollen die Daten der Bundesliga mit denen der englischen Premier League vergleichen. Zeigen sich auch dort Abweichungen bei eben jenen Tabellenkonstellationen und werden die Beobachtungen damit möglicherweise durch andere (beispielsweise psychologische) Effekte in ihre Richtung gelenkt?

Die Ausreißer, welche sich in der Bundesliga finden, zeigen sich in der Premier League nicht. Die Daten der Premier League verlaufen zudem deutlich linearer als die der Bundesliga und das Model, in dem das Heimteam als Favorit ins Spiel geht, weist eine Erklärungskraft von rund 84 Prozent auf.

Wahrscheinlichkeit für einen Heimsieg, wenn die Heimmmannschaft Favorit ist (Premier League).
Wahrscheinlichkeit für einen Heimsieg, wenn die Heimmmannschaft Favorit ist (Premier League).

Ist das Heimteam der Underdog, können 72 Prozent der Gewinnwahrscheinlichkeit durch die Positionsdifferenz aufgeklärt werden.

Wahrscheinlichkeit für einen Heimsieg, wenn die Auswärtsmannschaft Favorit ist (Premier League).
Wahrscheinlichkeit für einen Heimsieg, wenn die Auswärtsmannschaft Favorit ist (Premier League).

Ein Erklärungsansatz für die bessere Anpassung liegt in der Anzahl der Spiele, welche in der Analyse berücksichtigt wurden. In der Premier League spielen 20 Teams, in der Bundesliga hingegen nur 18, wodurch, nach Abzug der ersten 10 Spieltage, 3080 Spiele in die Analyse gehen – 704 Spiele mehr als in der Bundesligastatistik.

Bei den Modellen von Bundesliga und Premier League ist der Steigungskoeffizient der Modelle im Übrigen sehr ähnlich. Für den Fall „Heimteam ist favorisiert“ liegt er in der Bundesliga bei ~0.022, in der Premier League bei ~0.024. Interpretiert wird er auf diese Art: Steigt die Positionsdifferenz um 1, erhöht sich die Gewinnwahrscheinlichkeit für das Heimteam in der Bundesliga um 2.2 Prozent, in der Premier League um 2,4 Prozent. Die englische Eliteklasse gilt gemeinhin als arm an Überraschungen. Dies belegen diese Analyseergebnisse.

Bewertung der Ergebnisse

Die Tabelle lügt nicht! Zumindest nicht dann, wenn man die Spielausgänge für die spezifischen Tabellenkonstellationen von einem ausreichend langen Zeitraum in die Analyse einbezieht. Die Tabellensituation eines Teams erweist sich damit tatsächlich als äußerst belastbarer Leistungsindikator. Die Analyse offenbart außerdem erstaunlich lineare Verläufe in der Anteilsentwicklung gewonnener Spiele des Favoriten beziehungsweise des Underdogs.

Durch den Vergleich von Bundesliga und Premier League zeigt sich, dass der Wahrscheinlichkeitsverlauf nur geringfügig unterschiedlich ist. Dennoch kann man aus den Ergebnissen ableiten, dass in der Bundesliga das „Überraschungspotenzial“, also die Wahrscheinlichkeit für einen Außenseitersieg, etwas größer ist.

Für die nächsten Spieltage in der Tipprunde lässt sich empfehlen: Hat man keine Vorstellung davon, welche Mannschaft das Rennen machen wird, sollte man sich von der Tabelle leiten lassen. Klingt logisch, ist aber in der Realität nicht immer ganz so einfach. Das jüngste Beispiel hat die Premier League geboten: Der aktuelle Meister Leicester City. Die standen zwar in der Tabelle oben, wurden aber als deutlich leistungsschwächer eingeschätzt, mit entsprechend hohen Quoten versehen und eilten doch von Sieg zu Sieg – die Tabelle lügt eben nicht.


Tobias Titze - Beitrag vom 06.09.2016

Tobias Titze betreut seit 2013 das Marketing der eoda GmbH. Seine tägliche Aufgabe ist der Brückenschlag zwischen einem komplexen Thema und den Anforderungen des Marktes. Er interessiert sich für Daten und Algorithmen und begeistert sich für die Vorteile, die sich für Unternehmen daraus ergeben.

Abonnieren Sie unseren Datenanalyse-Blog