Ausreißer in der Datenflut: Mit der Anomalieerkennung Maschinenausfälle vermeiden

Von der Erkennung betrügerischer Handlungen bis zur Prognose von Kundenabwanderungen: Das schnelle Erkennen von Anomalien in Daten kann in vielen Bereichen gewinnbringend eingesetzt werden. Ein besonders relevantes Anwendungsszenario der Anomalierkennung ist die Ermittlung von Problemen und Risiken an Maschinen und Anlagen. Im Industriekontext können Anomalien in den erfassten Sensordaten auf eine Fehlfunktion bestimmter Maschinenteile hindeuten. Auch hier gilt, dass eine schnelle Identifizierung von Anomalien die frühzeitige Prävention eines Maschinenversagens entscheidend unterstützen kann. Der Grundgedanke von Predictive Maintenance.

Doch was sind Datenausreißer? Geht man von einer beliebigen Datengrundlage aus, so spricht man von Ausreißern bzw. Anomalien, wenn Datenpunkte existieren, deren Ausprägungen sich signifikant von der Merkmalsverteilung der restlichen Datenpunkte unterscheiden. Dabei ist zunächst nicht festgelegt, anhand welcher Kriterien die Unterschiedlichkeit bzw. Ähnlichkeit der Datenpunkte gemessen wird. Je nach Datenquelle gibt es eine Vielzahl an Gründen für Anomalien. Neben technisch bedingten Messfehlern oder Datenqualitätsproblemen entstehen Anomalien oft durch zufällige Schwankungen der zugrunde liegenden Datenstruktur.

Erkenntnisgewinn durch Anomalieerkennung

Ist das Auftreten von Anomalien strukturell bedingt, können Anomalien wichtige Information über den Zustand eines bestehenden Systems liefern. So können beispielsweise anomale Sensormesswerte auf einen Fehler innerhalb der Maschine hindeuten. Die Problemstellung besteht darin, in einer Zeitreihe von Messwerten Anomalien zu erkennen, um somit frühzeitiges Maschinenversagen zu verhindern. Dabei will man das singuläre Auftreten von zufälligen Schwankungen klar von gehäuften Anomalien mit kleinen Zeitabständen unterscheiden können. An dieser Stelle ist eine intelligente Kombination von Ausreißererkennung und Erfahrungswerten gefragt, um beispielsweise zu definieren ab welcher Menge beziehungsweise in welchem Zeitraum Anomalien tatsächlich als kritisches Verhalten interpretiert werden. In anderen Fällen wiederum sind Anomalien lediglich zufällige Ausreißer einer ansonsten gut ermittelbaren Verteilung. In solchen Situationen erschweren Anomalien die Ermittlung der zugrundeliegenden Beziehungen zwischen den Variablen.

Die Hauptaufgabe besteht also darin, Anomalien zu erkennen und zu bereinigen, um eine konsistente und „saubere“ Datengrundlage zu erhalten.

Die Vorteile von Machine Learning

Ein entscheidender Vorteil einer auf Machine-Learning-Algorithmen basierenden Anomalieerkennung ist es, dass man nicht mehr bloß mit einfachen Grenzwerten arbeitet, die normale Datenpunkte von Ausreißern unterscheiden. Vielmehr erkennt der Algorithmus auch saisonale Schwankungen. So sind hohe Maschinenauslastungen zu bestimmten Tageszeiten womöglich deutlich ungewöhnlicher als sonst. Außerdem erkennt der Algorithmus ein sich änderndes Niveau in den Daten. Steigt die durchschnittliche Maschinenauslastung kurzfristig an, da die Maschine mehr genutzt wird, verändert sich wahrscheinlich auch das normale Maschinenverhalten. Im Gegensatz zu Grenzwerten, die in einem solchen Fall händisch angepasst werden müssen, erlernt der Algorithmus diese Veränderung und passt somit seine Anomalie-Einschätzung im Zeitverlauf an.

Der richtige Umgang mit Anomalien in der Praxis

In der Praxis hängt der Umgang mit Anomalien sehr stark vom Use Case ab. Will man den Verlauf einer Zeitreihe vorhersagen, ist es ratsam zunächst Ausreißer zu identifizieren, da diese die zugrundeliegende Struktur der Zeitreihe verfälschen. Ein Algorithmus könnte die Daten somit in einem ersten Schritt von Anomalien bereinigen, um erst im zweiten Schritt eine zugrunde liegende Struktur zu finden, die dann die Grundlage für die Prognose werden soll.

Wie zuvor beschrieben, ist häufig aber gerade das Erkennen von Anomalien von großem Interesse. In einem Wasserversorgungsnetzwerk könnte man einen Druckabfall durch das Auftreten von mehreren in kurzer Zeit aufeinanderfolgenden Anomalien erkennen, die sich im Verlauf des Wasserdrucks abzeichnen. Somit kann man beispielsweise einen Rohrbruch frühzeitig identifizieren. Entscheidend dabei ist die Wahl des passenden Algorithmus, abhängig von der bestehenden Datenstruktur. Hat man sich für einen Algorithmus entschieden, sollte man für die nötige Infrastruktur sorgen, um die Ergebnisse so gewinnbringend wie möglich nutzen zu können. Dies schließt beispielsweise eine Anbindung an aktuelle -womöglich sogar Streamingdaten- oder eine regelmäßige Ausführung der Analyse auf den aktuellsten Daten mit ein. Somit können die Ergebnisse der Anomalieerkennung produktiv für weitere Analyseschritte oder zur frühzeitigen Fehlererkennung genutzt werden.

Sie wollen mit der Anomalieerkennung die Verfügbarkeit Ihrer Systeme und Anlagen erhöhen? Mit unserer innovativen Analyseplattform YUNA integrieren wir die Anomaly Detection nahtlos in Ihre Unternehmensprozesse und helfen Ihnen dadurch Ihre Instandhaltung entscheidend zu optimieren. Sprechen Sie uns an. 


Florian Schmoll - Beitrag vom 22.08.2019

Florian Schmoll hat Mathematik an der Universität Kassel studiert und arbeitet seit 2017 als Data Scientist bei eoda. Seine Hauptaufgaben beinhalten unter anderem die Entwicklung von R-Paketen und die Analyse von Daten im Industriekontext. Die Arbeit als Data Scientist ermöglicht es ihm, sein im Studium erworbenes theoretisches Wissen für die Lösung von Problemen aus der Unternehmenspraxis einzusetzen.

Abonnieren Sie unseren Datenanalyse-Blog