Seit dem 22. Dezember läuft unser Gewinnspiel anlässlich der nahenden 10.000 R-Pakete Marke. Viele interessante Lösungsvorschläge sind seitdem bei uns eingegangen, zum Teil sogar mit detaillierten Prognosemodellen in Form von R-Code. Natürlich wollten auch wir eine Vorhersage treffen und haben zwei unterschiedliche Herangehensweisen mit R getestet, welche wir in diesem Blogartikel vorstellen.

Visualisierung des Wachstums der Anzahl an R-Paketen
Prognostizierte Anzahl R-Pakete pro Tag

Bei der ersten Methode haben wir die Pakete-Liste nach Erscheinungsdatum auf CRAN als Datengrundlage herangezogen. Da diese Liste nicht nur neu erschienene Pakete sondern auch Aktualisierungen erfasst, wurde sie mit den Informationen aus dem Pakete-Archiv abgeglichen und um die Pakete bereinigt, die bereits vorhanden waren und lediglich aktualisiert wurden.

Mithilfe des forecast Pakets wurde eine Vorhersage für die nächsten 30 Tage getroffen.

Anschließend wurde die Anzahl der Pakete bis zur 10.000 Marke ermittelt und das Ergebnis als Plot dargestellt.

Hieraus ergab sich eine Dauer von 25 Tagen vom Berechnungszeitpunkt (02.01.) bis zur Erreichung des 10.000 Pakets und somit der 27.01.2017 als Erscheinungsdatum.

In einer zweiten Methode haben wir die Daten unseres eigens für das Gewinnspiel entwickelten Twitter-Bots als Datengrundlage genutzt und mithilfe einer linearen Regression die Dauer bis zur Veröffentlichung des 10.000 Pakets errechnet. Auch mit diesem Vorgehen erhielten wir als Lösung den 27.01.2017.

Ob wir mit diesem Datum richtig liegen, werden wir in den nächsten Tagen erfahren, denn aktuell trennen uns nur noch knapp 30 Pakete von der 10.000 Marke. Doch bis dahin wünschen wir weiterhin allen Teilnehmern viel Erfolg