Machine Learning: Datenqualität ist das A & O – Wie Big Data dank Datenkonsistenz zu Smart Data wird

Künstliche Intelligenzen wie Machine Learning oder Deep Learning werden immer relevanter. Die wichtigste Basis dieser KI-Technologien ist und bleibt dabei die Datengrundlage. Lumir Boureanu, CEO von compacer GmbH, erklärt was beim Einsatz von Machine Learning zu beachten ist und welche Rolle Big Data dabei spielt.

Machine Learning: Datenqualität ist das A & O – Wie Big Data dank Datenkonsistenz zu Smart Data wird

Wer verstehen möchte, welche Relevanz die Konsistenz von Daten für Machine Learning hat, muss zunächst wissen, wie Machine Learning grundsätzlich funktioniert. Wichtig ist in diesem Kontext die Abgrenzung zum Deep Learning, denn diese beiden Begriffe werden vielfach miteinander verwechselt, was problematisch ist, weil sie sich nicht nur hinsichtlich der Funktionsweise, sondern auch in der Datennutzung unterscheiden.

Machine Learning wird landläufig als Teilbereich der künstlichen Intelligenz betrachtet und bezeichnet einen Vorgang, bei dem IT-Systeme in die Lage versetzt werden, auf Basis vorhandener Datenbestände und Algorithmen Gesetzmäßigkeiten zu erkennen und Lösungen zu entwickeln.

Deep Learning geht noch einen Schritt weiter: Deep Learning ist ein Teilbereich des maschinellen Lernens, der sich an der Funktionsweise des menschlichen Gehirns orientiert und schlussendlich sogar in der Lage ist den Algorithmus, den er verwendet, anzupassen und zu verbessern.

Datenqualität ist das A & O

Für beide KI-Methoden ist – unabhängig von ihrer Wirkungsweise – die Datenbasis entscheidend. Deshalb ist im Vorfeld eines Machine Learning Projekts zu definieren, welche Resultate bzw. Ergebnisse angestrebt werden. Davon wiederum hängt ab, welche Daten und wie viele benötigt werden, um einen Machine Learning Prozess aufzusetzen. So kann es durchaus Machine Learning Prozesse geben, die mit wenigen Daten auskommen und trotzdem für valide Ergebnisse sorgen – beispielsweise ein Kühltransporter. Hier erkennt das System anhand der Sensorwerte, welche Temperatur herrscht und kann bei Veränderungen entsprechend reagieren. Die Herausforderung in diesem Fall ist die Konvertierung der Sensordaten zu Daten, die der Rechner verarbeiten und auswerten kann; die Datenqualität ist wichtig – die Datenmenge dagegen eher zweitranging.

Betrachtet man dagegen beispielsweise eine Gussmaschine, die aus flüssigem Kunststoff Spielzeugautos herstellt und deren Qualität mittels Ultraschall überprüft wird, so kommt recht schnell eine Vielzahl an Daten zusammen. Die Daten des Ultraschallgeräts werden so aufbereitet, dass sie verarbeitet werden und – basierend auf Algorithmen – erkannt wird, in welchem Zustand sich das gefertigte Spielfahrzeug befindet. Wichtig ist zunächst einmal regelbasiert vorzugehen, um erste Korrelationen oder Anomalien zu erkennen. Die Datenquantität hat in diesem Fall Auswirkungen auf das Ergebnis, denn die vielen Werte des Ultraschallgeräts helfen, dass der Algorithmus des Rechners kleinste Abweichungen sofort erkennt. Neben der Quantität ist allerdings die Relevanz noch viel entscheidender – sich daraufhin zu reduzieren und relevante Daten zu verarbeiten hilft am Ende des Tages mehr, als an der Vielzahl der Daten zu ersticken und den Wald vor lauter Bäumen nicht mehr zu sehen.

Dieses Beispiel zeigt, dass die Datenmenge oftmals nicht das Problem ist, denn Daten sind recht schnell erhoben. Was eher eine Herausforderung darstellt, sind die sogenannten negativen Ereignisse, die im Produktionsalltag vermieden werden sollten und von denen es folglich kaum Erhebungen gibt. Solche Fälle sollten deshalb simuliert werden, damit die Daten eingespielt werden können.

Big Data wird zu Smart Data

Bei den modernen Technologien geht es darum, heterogene Datenformate und -bestände zu konsolidieren und mittels Algorithmen bestimmte Strukturen aus der Datenmenge zu extrahieren, so dass sich daraus spezifische smarte Daten und Informationen für den Nutzer ableiten lassen, die einen Mehrwert erzeugen. Diese Vorgehensweise hat neben der Auswertbarkeit einen weiteren Vorteil: Weil man von einer großen Datenmenge (Big Data) ausgeht, fällt es nicht sofort ins Gewicht, wenn eine kleine Anzahl davon Fehler aufweist. Bei einer geringen Datenmenge wiederum, hätten Fehler gravierende Folgen. Dennoch spielt für diesen Konsolidierungsprozess die Datenkonsistenz grundsätzlich eine zentrale Rolle, denn nur wenn die den Algorithmen zugrundeliegende Datenbasis einer guten Qualität entspricht, kann Machine Learning auch für gute Ergebnisse sorgen.

Wie aber funktioniert dieser Prozess und wie lassen sich konsistente Daten erzeugen? Grundsätzlich werden dabei vier Phasen unterschieden: Die Datenerfassung, Basisverständnis und Interpretation der Daten, die Aufbereitung und der Transport für Analysezwecke.

1. Datenerfassung

Um Daten erfassen zu können, gibt es – je nach Alter und Zustand der Maschine – unterschiedliche Szenarien. In einigen Fällen kann man mit bereits vorhandenen Signalen arbeiten oder es müssen Sensoren installiert werden. Oftmals können aber bereits Daten über Schnittstellen direkt aus der Maschinensteuerung gewonnen und in ein IIoT Gateway geschrieben werden.

weiter zu: 2. Basisverständnis und Interpretieren der Daten