AutoML in der Praxis: Mit YUNA elements ML-Skripte optimal steuern

In einem vorherigen Blogbeitrag haben wir Ihnen die Chancen und Herausforderungen von AutoML vorgestellt. Der Einsatz von AutoML ermöglicht die schnelle und unkomplizierte Anwendung von Machine-Learning-Algorithmen ohne sich mit der Frage auseinanderzusetzen zu müssen, welche Modelle oder Modellkonfigurationen sich für den jeweiligen Anwendungsfall eignen, geschweige denn besagte Modelle selbst trainieren und anwenden zu müssen. Somit kann man als Fachanwender ohne weitreichende Expertise im Bereich des Machine Learning die Möglichkeiten von ML-Modellen nutzen oder als Data Scientist schnell zu ersten Analyseergebnissen zu kommen. Im Folgenden beleuchten wir, wie YUNA elements eine sinnvolle und nachhaltige Nutzung von AutoML ermöglicht und dabei gleichzeitig Chancen von AutoML wahrzunehmen und Risiken zu minimieren.

Infografik zu den Vorteilen von YUNA elements im Einsatzgebiet AutoML

YUNA elements als zentrale Ausführungsschicht für AutoML-R/Python-Skripte

In erste Linie bietet YUNA elements die Möglichkeit R- oder Python-Skripte auszuführen, in denen ML Modelle mittels AutoML trainiert werden. In der Praxis kann man dafür zwei Szenarien unterscheiden. Einerseits können in den Skripten AutoML-Frameworks, wie z.B. h2o oder Amazon SageMaker Autopilot, über die verfügbare Python- bzw. R-Schnittstellen genutzt werden, um ML Modelle zu trainieren. In Kombination mit besagten Skriptsprachen hat der Anwender einen hohen Grad an Flexibilität beim Einsatz der etablierten Frameworks. Voraussetzung dafür ist jedoch die Bereitstellung einer Instanz der jeweiligen Services, da die Modelle dort verwaltet werden. Andererseits können aber auch eigene AutoML-Algorithmen in der bevorzugten Skriptsprache implementiert werden. Die Skripte können in anderen Systemkomponenten (z.B. in YUNA oder Shiny-Applikationen) auf Knopfdruck gestartet werden, sodass die Modelle automatisch trainiert und zur Verfügung gestellt werden.

Neben der Funktion einer zentralen Ausführungsschicht dient YUNA elements außerdem als unternehmensweiter Speicher für AutoML-Skripte. Dies ist besonders dann interessant, wenn die Skripte so aufgebaut sind, dass man Sie an verschiedenen Stellen für verschiedene Use Cases einsetzen kann. Die integrierte Markdown Oberfläche bietet außerdem die Möglichkeit, Skripte ausführlich zu dokumentieren. So kann unter anderem die von den Skripten erwartete Eingangsdatenstruktur oder das Ergebnis der Skripte nachhaltig dokumentiert werden.

Zyklisches Training inklusive Überwachung von AutoML-Modellen

Sind die Skripte zum Training der (Auto)ML-Modelle einmal implementiert, müssen die Modelle zyklisch neu trainiert werden, damit sie auf die aktuellen Daten abgestimmt sind. YUNA elements ermöglicht die zyklische Ausführung der Trainingsskripte als Jobs, sodass die Modelle nicht nur auf Knopfdruck, sondern auch in einem vom Nutzer definierten Zyklus neu berechnet werden können.

In der Praxis kann der Anwender in einem Tool seiner Wahl die Daten aufbereiten und das jeweilige AutoML-Skript auf Knopfdruck benutzen, um ein geeignetes Modell zu finden. Ist der Anwender mit den Modellergebnissen zufrieden, kann das Modelltraining mit genau den gleichen Konfigurationen (eingehende Features etc.) in einen zyklischen Job überführt werden. Die Jobdurchläufe können in YUNA elements genauestens überwacht werden. Das ausführliche Skriptlog und die Übersicht der Jobdurchläufe stellen zum einen sicher, dass Fehler beim Modelltraining schnell erkannt und analysiert werden können. Andererseits können zu jedem Trainingsdurchlauf auch zusätzliche modellspezifische Informationen bereitgestellt werden. Beispielsweise kann die Modellperformance oder die Gewichtung der einzelnen Features im Modell als Endpunkt bereitgestellt werden. Somit kann ein Data Scientist die automatisch trainierten Modelle überwachen und prüfen, ob die Modelle noch verlässlich und inhaltlich sinnvoll sind.

Via REST-API AutoML-Skripte flexibel steuern und Ergebnisse ausliefern

Die umfangreiche REST-API von YUNA elements ermöglicht eine nahtlose Integration in die bestehende Systemlandschaft. So können AutoML-Skripte aus anderen Systemkomponenten per Knopfdruck gestartet werden. Der Anwender kann zunächst die Ursprungsdaten in einem anderen Tool aufbereiten und Features für das Modelltraining erstellen. Die bearbeiteten Daten können dann (bspw. in Form von JSON oder einem SQL Query) via REST-API im Analytic-Storage Modul von YUNA elements gespeichert und den Skripten somit zur Verfügung gestellt werden.

Der Anwender hat außerdem die Möglichkeit den AutoML-Algorithmus selbst zu konfigurieren, in dem er vorher definierte Parameter festlegt, die dann ebenfalls via REST-API im Analytic-Storage gespeichert werden. Diese Konfigurationen stehen dem Skript bei Ausführung zur Verfügung und können vom Skript aus dem Analytic-Storage abgerufen werden. Ist das Modelltraining abgeschlossen kann das Skript wiederum Ergebnisse im Analytic-Storage speichern, sodass diese in das restliche System zurückgespielt werden können. So kann zum Beispiel das Modell gespeichert werden und in anderen Tools genutzt werden. Außerdem können Modellperformance und Ergebnisse zur Modellinterpretierbarkeit zur Überwachung des Modelltrainings unter anderem in Form eines HTML-Reports entweder als ständig erreichbarer Endpunkt bereitgestellt oder als Mailanhang versendet werden.

Modularisierung durch Projektstruktur

Nicht zuletzt bietet die Projektstruktur und das ausgearbeitete Rechte-und-Rollen-Konzept von YUNA elements die Möglichkeit die einzelnen Bestandteile des automatisierten Machine Learnings zu modularisieren und flexibel zu nutzen. So können die einzelnen Schritte –Preprocessing, Modelltraining, Messung der Modellperformance, Modellerklärbarkeit– flexibel eingesetzt und für jeden Anwendungsfall neu zusammengesetzt werden. Use Cases, die grundsätzlich das gleiche AutoML-Skript nutzen, aber andere Anforderungen im Hinblick auf die Datenvorverarbeitung haben, können durch die Definition zweier Jobs ohne großen Mehraufwand in YUNA elements abgebildet werden. Zunächst werden dabei die benötigten Vorvearbeitungsschritte in Skriptform und dann das AutoML-Skript ausgeführt. Das Rechtemanagement stellt sicher, dass kritische AutoML-Skripte nur von entsprechend berechtigten Personen, wie zum Beispiel einem Data Scientist angepasst werden können.

Fazit

YUNA elements dient als zentrale Organisations- und Ausführungskomponente für AutoML-Skripte, die durch eine umfangreiche REST-API problemlos in bestehende Systeme integriert werden kann. Grundsätzlich steht den Möglichkeiten von AutoML-Lösungen der inhärente Black-Box-Charakter gegenüber. Oftmals werden AutoML-Tools verwendet ohne dabei auf interpretierbare und nachvollziehbare Modellentscheidungen zu achten. Es besteht die Gefahr, dass AutoML-Algorithmen und –Modelle ohne Überwachung durch einen Data Scientist oder ML-Engineer eingesetzt werden –im Worst Case in vollautomatisierten Geschäftsprozessen. YUNA elements adressiert genau diese Problematik. Die Ausführung der Skripte als Jobs ermöglicht eine detaillierte Überwachung und befähigt den Nutzer dazu, jeden Skriptdurchlauf bestens nachvollziehen zu können. In Kombination mit Ansätzen zur Modellinterpretierbarkeit können die trainierten Modelle jederzeit geprüft werden, um so dem Black-Box-Charakter entgegenzuwirken.

Die Projektstruktur und das Rechte-und-Rollen Konzept sichern den Einsatz von AutoML zusätzlich ab, sodass die Skripte auch in vollständig automatisierten Prozessen eingesetzt werden können – ohne dabei auf Flexibilität durch Modularisierung und variable Ausführungspläne zu verzichten.

Erfahren Sie mehr zu YUNA elements oder sprechen Sie uns direkt an und erhalten Sie im persönlichen Austausch weitere Impulse für die erfolgreiche Umsetzung von AutoML in Ihrem Unternehmen. Ihr Ansprechpartner ist Andreas Ernst Rössler


Florian Schmoll - Beitrag vom 26.08.2020

Florian Schmoll hat Mathematik an der Universität Kassel studiert und arbeitet seit 2017 als Data Scientist bei eoda. Seine Hauptaufgaben beinhalten unter anderem die Entwicklung von R-Paketen und die Analyse von Daten im Industriekontext. Die Arbeit als Data Scientist ermöglicht es ihm, sein im Studium erworbenes theoretisches Wissen für die Lösung von Problemen aus der Unternehmenspraxis einzusetzen.

Abonnieren Sie unseren Datenanalyse-Blog