Data Science kommt Ausreißern auf die Spur – Wie Outlier Detection Fehler in der Produktion behebt – oder vorab verhindert

Eine Bohrung wird fehlerhaft ausgeführt. Ein Bauteil wird falsch im Bauraum platziert. Der Materialnachschub wird unterbrochen. All das sind typische Szenarien, die sich negativ auf die Produktion auswirken und sie im schlimmsten Fall lahmlegen können. Hilfe bietet hier die so genannte Ausreißererkennung, englisch Outlier Detection – eine effiziente Methode, um Fehler anhand von Maschinendaten zu erkennen und zu beheben. Oder noch besser: Fehler schon im Voraus zu vermeiden.

Data Science kommt Ausreißern auf die Spur – Wie Outlier Detection Fehler in der Produktion behebt – oder vorab verhindert

Das Zeitalter von Industrie 4.0 liefert uns mehr Maschinendaten als je zuvor. Warum treten trotzdem immer wieder Fehler in der Produktion auf?

Dr. David Breyel, Data Scientist bei connyun, sieht das so:

„Das Sammeln von Daten allein bringt keinen Mehrwert. Nur in wenigen Fällen liefert ein Messwert direkte Informationen, zum Beispiel ob ein Ersatzteil benötigt wird.“

Es gilt also, aus den unzähligen Daten aussagekräftige Erkenntnisse zu gewinnen und daraus Handlungsempfehlungen abzuleiten. Genau das ist Aufgabengebiet der Data Science Expertenbei connyun. Eine zentrale Rolle spielt dabei die Ausreißererkennung oder Outlier Detection.

Der Datenfachmann erläutert:

„Als Ausreißer bezeichnet man einfach gesagt Datenpunkte, die nicht den Erwartungen entsprechen. Im Falle von ein- oder zweidimensionalen Datenmengen ist der Mensch oft noch in der Lage, Ausreißer zu erkennen. Aber: Heutzutage liefern Maschinen große, hochdimensionale Datensätze. Ohne Computerunterstützung geht da nichts.“

Wie aber funktioniert die Outlier Detection?

Schritt 1: Ausreißer identifizieren

Eine Vielzahl an Verfahren – wie etwa one-class support vector machinesoder nearest neighbor distance – orientiert sich am menschlichen Denken.

Breyel formuliert das folgendermaßen:

„Miss die Abstände von den Datenpunkten zueinander und markiere diejenigen, die weit entfernt von allen anderen sind.“

Sind die Abstände zwischen Datenpunkten nicht sinnvoll messbar, greifen der Data Scientist und seine Kollegen von connyun auf Verfahren zurück, die nicht abstandsbasiert sind, wie etwa die isolation forests.

Breyel weiter:

„In der Regel wenden wir verschiedene Methoden auf einen Datensatz an und verwenden die erfolgreichste dann weiter, denn kein Datensatz gleicht dem anderen und oft verursachen schon die kleinsten Details deutliche Unterschiede.“

weiter zu Schritt 2: Ausreißer klassifizieren – Fehler, Zufall oder Anomalie?