Das Jahr neigt sich dem Ende entgegen: Draußen wird es kälter, die Tage werden kürzer und der erste Schnee ist bereits gefallen. Es ist die Zeit, auf die sich besonders die  Kleinsten schon das ganze Jahr freuen. Der Duft der Weihnachtsmärkte liegt in der Luft, drinnen riecht es nach selbstgebackenen Plätzchen und dem frisch aufgestellten Weihnachtsbaum. Geschenke werden verpackt, das Haus geschmückt und die Familie kommt für die Feiertage zusammen. Doch ein entscheidendes Detail fehlt noch zur vollkommenen Weihnachtsstimmung. Sobald wir ins Auto steigen, den Schlüssel im Zündschloss umdrehen und das Radio anspringt, ist es wieder allgegenwärtig: die Weihnachtsmusik.

Wie ein verschneiter Wald: Ein Überblick über die unterschiedlichen Liedklassen des Datensatzes - visualisiert mit dem Algorithmus t-SNE
Wie ein verschneiter Wald: Ein Überblick über die unterschiedlichen Liedklassen des Datensatzes – visualisiert mit dem Algorithmus t-SNE

Ob „Driving Home for Christmas“, „Winter Wonderland“, „Let it Snow!“ oder „Last Christmas“, der Klassiker schlechthin – Jahr für Jahr erobern Weihnachtssongs erneut die Musikcharts. Jeder hat dabei seine persönlichen Favoriten, doch kaum jemand kennt immer den zum Song gehörenden Interpreten oder die vollständigen Texte.

57.000 Songs: Eine Entdeckungsreise für Datenanalysten

Wenn der Otto Normalverbraucher genüsslich das nächste Weihnachtslied auflegt, beginnt der Data Scientist mit seiner Entdeckungsreise durch die verschneite Musikgeschichte. Der Ausgangspunkt dafür ist ein Kaggle-Datensatz mit über 57.000 überwiegend englischsprachigen Songtiteln, den dazugehörigen Interpreten und Texten. 500 davon tragen bereits „Christmas“ „X-Mas“ oder „Xmas“ im Titel und lassen sich daher schnell und mit großer Wahrscheinlichkeit als Weihnachtslieder identifizieren. Doch nicht alle Lieder machen es uns so leicht: Ob „Jingle Bells“ oder „Rudolph The Red-Nosed Reindeer“, nicht überall steht Christmas drauf, wo Weihnachtsstimmung drinsteckt. Dies gilt sogar für die überwiegende Zahl der Fälle.

Um diese versteckten Weihnachtslieder dennoch zu identifizieren, haben wir nach der Bereinigung der Daten mittels Naive-Bayes-Algorithmus „versteckte“ Weihnachtslieder identifiziert. Dazu werden die Songtexte aller Lieder des Datensatzes im Hinblick auf vorhandene Muster und verwendete Wörter in den 500 bereits mit „Christmas“ gelabelten Songs analysiert. Das Ergebnis des selbstlernenden Algorithmus sind über 2.800 weitere Lieder, die den vorher definierten Weihnachtsliedern sehr ähnlich sind. Da zum Beispiel prägnante Wörter wie „Love“ nicht nur in Weihnachtsliedern vorkommen, können sich auch ein paar Liebesschnulzen und Sommer Hits untergemischt haben. Data Scientists finden hier einen guten Anknüpfungspunkt, um die Auswahl der Weihnachtslieder weiter zu verfeinern.  Ein weiteres Ergebnis der Naive-Bayes-Analyse sind zwei Lieder, die zwar „Christmas“ im Namen tragen, aber in der Struktur ihres Songtextes stark von den anderen Weihnachtsliedern abweichen und daher nicht als Weihnachtslied klassifiziert wurden. Eines von Ihnen „Christmas In the Trenches“ von John McDermott – ein Lied, in dem die Erfahrung Weihnachten im Krieg thematisiert wird.

Love, Tree, Bell: Weihnachten mit allen Facetten

Ein Weihnachtsstern gefüllt mit allem, was die besinnliche Zeit des Jahres ausmacht. Mit ganz viel Liebe, gerne mit Schnee und häufig mit Santa ohne Claus. Die oben stehende Wordcloud zeigt die beliebtesten Wörter in den Liedtexten der „versteckten“ Weihnachtssongs. Je größer das Wort, desto häufiger kommt es vor.

Ein Weihnachtsstern: Wordcloud mit den beliebtesten Wörtern der versteckten Weihnachtslieder.
Sternförmig: Wordcloud mit den beliebtesten Wörtern der versteckten Weihnachtslieder.

Korrelationsanalysen: Verbindungen erkennen, Kontexte verstehen

Neben der reinen Häufigkeit spielt natürlich auch der Kontext eine entscheidende Rolle. Mit welchen Wortfeldern beschreiben die Songwriter Schnee?  Was macht sie besonders glücklich? Bei der Korrelationsanalyse werden die Abhängigkeiten zweier Merkmale untersucht, indem die Stärke des Zusammenhangs zwischen den Merkmalen analysiert wird. Wir haben neben der Korrelation zwischen den Songtexten auch die Verbindung der Songtitel und der Interpreten untersucht und mittels interaktiver Netzwerkvisualisierungen dargestellt.

Zunächst haben wir die Korrelation zwischen Wörtern aus den Songtexten untersucht. Dazu haben wir ein Korrelationsmaß von >0,55 gewählt und eine Mindestanzahl eines Wortes von 100 festgelegt, um aussagekräftige Ergebnisse und belastbare Wortverbindungen zu finden.

Die Netzwerkvisualisierung zeigt die Korrelation zwischen den Songs. Die Größe der Knoten gibt dabei an, wie zentral ein Song ist. Die Zentralität ergibt sich aus der Anzahl der kürzesten Wege, die durch diesen Knoten verlaufen.

Netzwerkvisualisierung: Entdecken Sie die Zusammenhänge zwischen den Songtexten. Mit einem Klick auf die Grafik öffnet sich die interaktive Visualisierung.
Netzwerkvisualisierung: Entdecken Sie die Zusammenhänge zwischen den Songs. Mit einem Klick auf die Grafik öffnen Sie die interaktive Visualisierung.

Pop trifft Reggae: Was verbindet Katy Perry und Bob Marley?

Die Korrelationsanalyse im Hinblick auf die Interpreten ergibt zumindest auf den ersten Blick teils erstaunliche Verknüpfungen. Der Hintergrund ist aber schnell erklärt: Weihnachtssongs sind beliebte Coversongs – so haben zum Beispiel Katy Perry und Bob Marley den gleichen Song im Repertoire.

Über ein Weihnachtslied verbunden: Die Korrelation zwischen Bob Marley und Katy Perry.
Über ein Weihnachtslied verbunden: Die Korrelation zwischen Bob Marley und Katy Perry.

Apropos Repertoire: Im Notebook auf GitHub haben wir den eingesetzten R-Code und noch weitere Analyseergebnisse für Sie bereitgestellt. Datenanalysten finden dort den Code der vorgestellten Analysen und ihren Ausgangspunkt für eigene Analysen der Weihnachtslieder.

Alle anderen können die verbleibende Adventszeit mit ihren Lieblingssongs weiter genießen. Wir wünschen frohe Weihnachten und einen guten Rutsch ins neue Jahr.