Künstliche Intelligenzen wie Machine Learning oder Deep Learning werden immer relevanter. Die wichtigste Basis dieser KI-Technologien ist und bleibt dabei die Datengrundlage. Lumir Boureanu, CEO von compacer GmbH, erklärt was beim Einsatz von Machine Learning zu beachten ist und welche Rolle Big Data dabei spielt.
Machine Learning: Datenqualität ist das A & O – Wie Big Data dank Datenkonsistenz zu Smart Data wird
Wer verstehen möchte, welche Relevanz die Konsistenz von Daten für Machine Learning hat, muss zunächst wissen, wie Machine Learning grundsätzlich funktioniert. Wichtig ist in diesem Kontext die Abgrenzung zum Deep Learning, denn diese beiden Begriffe werden vielfach miteinander verwechselt, was problematisch ist, weil sie sich nicht nur hinsichtlich der Funktionsweise, sondern auch in der Datennutzung unterscheiden.
Machine Learning wird landläufig als Teilbereich der künstlichen Intelligenz betrachtet und bezeichnet einen Vorgang, bei dem IT-Systeme in die Lage versetzt werden, auf Basis vorhandener Datenbestände und Algorithmen Gesetzmäßigkeiten zu erkennen und Lösungen zu entwickeln.
Deep Learning geht noch einen Schritt weiter: Deep Learning ist ein Teilbereich des maschinellen Lernens, der sich an der Funktionsweise des menschlichen Gehirns orientiert und schlussendlich sogar in der Lage ist den Algorithmus, den er verwendet, anzupassen und zu verbessern.
Datenqualität ist das A & O
Für beide KI-Methoden ist – unabhängig von ihrer Wirkungsweise – die Datenbasis entscheidend. Deshalb ist im Vorfeld eines Machine Learning Projekts zu definieren, welche Resultate bzw. Ergebnisse angestrebt werden. Davon wiederum hängt ab, welche Daten und wie viele benötigt werden, um einen Machine Learning Prozess aufzusetzen. So kann es durchaus Machine Learning Prozesse geben, die mit wenigen Daten auskommen und trotzdem für valide Ergebnisse sorgen – beispielsweise ein Kühltransporter. Hier erkennt das System anhand der Sensorwerte, welche Temperatur herrscht und kann bei Veränderungen entsprechend reagieren. Die Herausforderung in diesem Fall ist die Konvertierung der Sensordaten zu Daten, die der Rechner verarbeiten und auswerten kann; die Datenqualität ist wichtig – die Datenmenge dagegen eher zweitranging.
Betrachtet man dagegen beispielsweise eine Gussmaschine, die aus flüssigem Kunststoff Spielzeugautos herstellt und deren Qualität mittels Ultraschall überprüft wird, so kommt recht schnell eine Vielzahl an Daten zusammen. Die Daten des Ultraschallgeräts werden so aufbereitet, dass sie verarbeitet werden und – basierend auf Algorithmen – erkannt wird, in welchem Zustand sich das gefertigte Spielfahrzeug befindet. Wichtig ist zunächst einmal regelbasiert vorzugehen, um erste Korrelationen oder Anomalien zu erkennen. Die Datenquantität hat in diesem Fall Auswirkungen auf das Ergebnis, denn die vielen Werte des Ultraschallgeräts helfen, dass der Algorithmus des Rechners kleinste Abweichungen sofort erkennt. Neben der Quantität ist allerdings die Relevanz noch viel entscheidender – sich daraufhin zu reduzieren und relevante Daten zu verarbeiten hilft am Ende des Tages mehr, als an der Vielzahl der Daten zu ersticken und den Wald vor lauter Bäumen nicht mehr zu sehen.
Dieses Beispiel zeigt, dass die Datenmenge oftmals nicht das Problem ist, denn Daten sind recht schnell erhoben. Was eher eine Herausforderung darstellt, sind die sogenannten negativen Ereignisse, die im Produktionsalltag vermieden werden sollten und von denen es folglich kaum Erhebungen gibt. Solche Fälle sollten deshalb simuliert werden, damit die Daten eingespielt werden können.
Big Data wird zu Smart Data
Bei den modernen Technologien geht es darum, heterogene Datenformate und -bestände zu konsolidieren und mittels Algorithmen bestimmte Strukturen aus der Datenmenge zu extrahieren, so dass sich daraus spezifische smarte Daten und Informationen für den Nutzer ableiten lassen, die einen Mehrwert erzeugen. Diese Vorgehensweise hat neben der Auswertbarkeit einen weiteren Vorteil: Weil man von einer großen Datenmenge (Big Data) ausgeht, fällt es nicht sofort ins Gewicht, wenn eine kleine Anzahl davon Fehler aufweist. Bei einer geringen Datenmenge wiederum, hätten Fehler gravierende Folgen. Dennoch spielt für diesen Konsolidierungsprozess die Datenkonsistenz grundsätzlich eine zentrale Rolle, denn nur wenn die den Algorithmen zugrundeliegende Datenbasis einer guten Qualität entspricht, kann Machine Learning auch für gute Ergebnisse sorgen.
In 4 Phasen zu konsistenten Daten
Wie aber funktioniert dieser Prozess und wie lassen sich konsistente Daten erzeugen? Grundsätzlich werden dabei vier Phasen unterschieden: Die Datenerfassung, Basisverständnis und Interpretation der Daten, die Aufbereitung und der Transport für Analysezwecke.
1. Datenerfassung
Um Daten erfassen zu können, gibt es – je nach Alter und Zustand der Maschine – unterschiedliche Szenarien. In einigen Fällen kann man mit bereits vorhandenen Signalen arbeiten oder es müssen Sensoren installiert werden. Oftmals können aber bereits Daten über Schnittstellen direkt aus der Maschinensteuerung gewonnen und in ein IIoT Gateway geschrieben werden.
2. Basisverständnis und Interpretieren der Daten
Nachdem die Daten gewonnen wurden, muss zunächst semantisch verstanden werden, welche verschiedenen Werte, Angaben oder Daten für was stehen. Nur wenn ich weiß, dass ein Sensorwert für eine bestimmte Temperatur steht, lässt sich der einzelne Wert einordnen. Was bei genanntem Temperaturbeispiel sehr einfach anmutet, ist bei anderen Aufgabenstellungen durchaus komplexer. Die Dateninterpretation ist wichtig, denn das ist die Grundlage für die Algorithmen, die dann wiederum Basis für das Machine Learning sind. Hier kommt aber auch die menschliche Erfahrung ins Spiel, denn letztendlich muss bewertet werden, was z.B. ein bestimmter Grenzwert oder ein Widerstand aussagt, um mit ihm etwas anfangen zu können.
3. Aufbereitung der Daten
Schließlich sind die Daten aufzubereiten und zu aggregieren, damit die verschiedenen Werte einer oder mehrerer Maschinen konsistent und vereinheitlicht werden. Für diesen Konsolidierungsprozess gibt es bereits Lösungen und Plattformen, z.B. edbic, die Datenformate entsprechend für das Zielsystem umwandeln und auf Basis von Regeln interpretieren.
4. Transport der Daten für Analysezwecke
Ein IIoT Hub bereitet die Daten so auf, dass verschiedene Auswertungen möglich sind. Außerdem dient er als „Transporteur“, um sie z.B. in ein vorhandenes ERP- oder MES-System zu überspielen, in ein Analytics Tool oder sogar in Siemens Mindsphere, IBM Watson oder Microsoft Azure und ähnliche Systeme. Erst wenn das alles umgesetzt wurde und Datenkonsistenz vorhanden ist, kann man den Algorithmus anwenden und den Machine Learning Prozess abschließen.
Machine Learning, Deep Learning – was kommt dann?
Schon heute zeichnet sich der Trend einer zunehmenden Nutzung von Algorithmen ab. Es wird nicht bei Machine Learning und Deep Learning bleiben, sondern es werden sich weitere Formen von KI entwickeln. Die Datenqualität und -konsistenz ist dabei eine wichtige Voraussetzung, insbesondere vor dem Hintergrund, dass sogenannte „schlechte Daten“ nicht ohne weiteres aus einem Machine Learning Prozess wieder herausgenommen werden können. Der Grund: Machine Learning baut konsequent und konsistent aufeinander auf. Würde man dem System Daten entziehen, die bisher Teil der Berechnung waren, würde alles in sich zusammenfallen.
Autor: Lumir Boureanu, CEO von compacer GmbH