Redaktionsbeitrag

Machine Learning: Datenqualität ist das A & O – Wie Big Data dank Datenkonsistenz zu Smart Data wird

Um was geht es in diesem Beitrag:

Lesen sie hier den Beitrag:

Machine Learning: Datenqualität ist das A & O – Wie Big Data dank Datenkonsistenz zu Smart Data wird

Künstliche Intelligenzen wie Machine Learning oder Deep Learning werden immer relevanter. Die wichtigste Basis dieser KI-Technologien ist und bleibt dabei die Datengrundlage. Lumir Boureanu, CEO von compacer GmbH, erklärt was beim Einsatz von Machine Learning zu beachten ist und welche Rolle Big Data dabei spielt.

Machine Learning: Datenqualität ist das A & O – Wie Big Data dank Datenkonsistenz zu Smart Data wird

Wer verstehen möchte, welche Relevanz die Konsistenz von Daten für Machine Learning hat, muss zunächst wissen, wie Machine Learning grundsätzlich funktioniert. Wichtig ist in diesem Kontext die Abgrenzung zum Deep Learning, denn diese beiden Begriffe werden vielfach miteinander verwechselt, was problematisch ist, weil sie sich nicht nur hinsichtlich der Funktionsweise, sondern auch in der Datennutzung unterscheiden.

Machine Learning wird landläufig als Teilbereich der künstlichen Intelligenz betrachtet und bezeichnet einen Vorgang, bei dem IT-Systeme in die Lage versetzt werden, auf Basis vorhandener Datenbestände und Algorithmen Gesetzmäßigkeiten zu erkennen und Lösungen zu entwickeln.

Deep Learning geht noch einen Schritt weiter: Deep Learning ist ein Teilbereich des maschinellen Lernens, der sich an der Funktionsweise des menschlichen Gehirns orientiert und schlussendlich sogar in der Lage ist den Algorithmus, den er verwendet, anzupassen und zu verbessern.

Datenqualität ist das A & O

Für beide KI-Methoden ist – unabhängig von ihrer Wirkungsweise – die Datenbasis entscheidend. Deshalb ist im Vorfeld eines Machine Learning Projekts zu definieren, welche Resultate bzw. Ergebnisse angestrebt werden. Davon wiederum hängt ab, welche Daten und wie viele benötigt werden, um einen Machine Learning Prozess aufzusetzen. So kann es durchaus Machine Learning Prozesse geben, die mit wenigen Daten auskommen und trotzdem für valide Ergebnisse sorgen – beispielsweise ein Kühltransporter. Hier erkennt das System anhand der Sensorwerte, welche Temperatur herrscht und kann bei Veränderungen entsprechend reagieren. Die Herausforderung in diesem Fall ist die Konvertierung der Sensordaten zu Daten, die der Rechner verarbeiten und auswerten kann; die Datenqualität ist wichtig – die Datenmenge dagegen eher zweitranging.

Betrachtet man dagegen beispielsweise eine Gussmaschine, die aus flüssigem Kunststoff Spielzeugautos herstellt und deren Qualität mittels Ultraschall überprüft wird, so kommt recht schnell eine Vielzahl an Daten zusammen. Die Daten des Ultraschallgeräts werden so aufbereitet, dass sie verarbeitet werden und – basierend auf Algorithmen – erkannt wird, in welchem Zustand sich das gefertigte Spielfahrzeug befindet. Wichtig ist zunächst einmal regelbasiert vorzugehen, um erste Korrelationen oder Anomalien zu erkennen. Die Datenquantität hat in diesem Fall Auswirkungen auf das Ergebnis, denn die vielen Werte des Ultraschallgeräts helfen, dass der Algorithmus des Rechners kleinste Abweichungen sofort erkennt. Neben der Quantität ist allerdings die Relevanz noch viel entscheidender – sich daraufhin zu reduzieren und relevante Daten zu verarbeiten hilft am Ende des Tages mehr, als an der Vielzahl der Daten zu ersticken und den Wald vor lauter Bäumen nicht mehr zu sehen.

Dieses Beispiel zeigt, dass die Datenmenge oftmals nicht das Problem ist, denn Daten sind recht schnell erhoben. Was eher eine Herausforderung darstellt, sind die sogenannten negativen Ereignisse, die im Produktionsalltag vermieden werden sollten und von denen es folglich kaum Erhebungen gibt. Solche Fälle sollten deshalb simuliert werden, damit die Daten eingespielt werden können.

Big Data wird zu Smart Data

Bei den modernen Technologien geht es darum, heterogene Datenformate und -bestände zu konsolidieren und mittels Algorithmen bestimmte Strukturen aus der Datenmenge zu extrahieren, so dass sich daraus spezifische smarte Daten und Informationen für den Nutzer ableiten lassen, die einen Mehrwert erzeugen. Diese Vorgehensweise hat neben der Auswertbarkeit einen weiteren Vorteil: Weil man von einer großen Datenmenge (Big Data) ausgeht, fällt es nicht sofort ins Gewicht, wenn eine kleine Anzahl davon Fehler aufweist. Bei einer geringen Datenmenge wiederum, hätten Fehler gravierende Folgen. Dennoch spielt für diesen Konsolidierungsprozess die Datenkonsistenz grundsätzlich eine zentrale Rolle, denn nur wenn die den Algorithmen zugrundeliegende Datenbasis einer guten Qualität entspricht, kann Machine Learning auch für gute Ergebnisse sorgen.

In 4 Phasen zu konsistenten Daten

Wie aber funktioniert dieser Prozess und wie lassen sich konsistente Daten erzeugen? Grundsätzlich werden dabei vier Phasen unterschieden: Die Datenerfassung, Basisverständnis und Interpretation der Daten, die Aufbereitung und der Transport für Analysezwecke.

1. Datenerfassung

Um Daten erfassen zu können, gibt es – je nach Alter und Zustand der Maschine – unterschiedliche Szenarien. In einigen Fällen kann man mit bereits vorhandenen Signalen arbeiten oder es müssen Sensoren installiert werden. Oftmals können aber bereits Daten über Schnittstellen direkt aus der Maschinensteuerung gewonnen und in ein IIoT Gateway geschrieben werden.

2. Basisverständnis und Interpretieren der Daten

Nachdem die Daten gewonnen wurden, muss zunächst semantisch verstanden werden, welche verschiedenen Werte, Angaben oder Daten für was stehen. Nur wenn ich weiß, dass ein Sensorwert für eine bestimmte Temperatur steht, lässt sich der einzelne Wert einordnen. Was bei genanntem Temperaturbeispiel sehr einfach anmutet, ist bei anderen Aufgabenstellungen durchaus komplexer. Die Dateninterpretation ist wichtig, denn das ist die Grundlage für die Algorithmen, die dann wiederum Basis für das Machine Learning sind. Hier kommt aber auch die menschliche Erfahrung ins Spiel, denn letztendlich muss bewertet werden, was z.B. ein bestimmter Grenzwert oder ein Widerstand aussagt, um mit ihm etwas anfangen zu können.

3. Aufbereitung der Daten

Schließlich sind die Daten aufzubereiten und zu aggregieren, damit die verschiedenen Werte einer oder mehrerer Maschinen konsistent und vereinheitlicht werden. Für diesen Konsolidierungsprozess gibt es bereits Lösungen und Plattformen, z.B. edbic, die Datenformate entsprechend für das Zielsystem umwandeln und auf Basis von Regeln interpretieren.

4. Transport der Daten für Analysezwecke

Ein IIoT Hub bereitet die Daten so auf, dass verschiedene Auswertungen möglich sind. Außerdem dient er als „Transporteur“, um sie z.B. in ein vorhandenes ERP- oder MES-System zu überspielen, in ein Analytics Tool oder sogar in Siemens Mindsphere, IBM Watson oder Microsoft Azure und ähnliche Systeme. Erst wenn das alles umgesetzt wurde und Datenkonsistenz vorhanden ist, kann man den Algorithmus anwenden und den Machine Learning Prozess abschließen.

Machine Learning, Deep Learning – was kommt dann?

Schon heute zeichnet sich der Trend einer zunehmenden Nutzung von Algorithmen ab. Es wird nicht bei Machine Learning und Deep Learning bleiben, sondern es werden sich weitere Formen von KI entwickeln. Die Datenqualität und -konsistenz ist dabei eine wichtige Voraussetzung, insbesondere vor dem Hintergrund, dass sogenannte „schlechte Daten“ nicht ohne weiteres aus einem Machine Learning Prozess wieder herausgenommen werden können. Der Grund: Machine Learning baut konsequent und konsistent aufeinander auf. Würde man dem System Daten entziehen, die bisher Teil der Berechnung waren, würde alles in sich zusammenfallen.


Autor: Lumir Boureanu, CEO von compacer GmbH

Transparenzhinweise zum Beitrag:

compacer
Lumir Boureanu

Lumir Boureanu ist Geschäftsführer und CTO der compacer GmbH. Als studierter Informatiker, Wirtschaftsinformatiker und MBA entwickelt er neue Ideen, Visionen und Strategien in Verbindung mit digitalen Geschäftsmodellen der Zukunft. Seine Leidenschaft für Architecting, Implementierung und Verbesserung kritischer Business Prozesse bildet eine stabile Grundlage für Themen wie Smart Services und Industrie 4.0. Als ehemals aktiver Schachspieler weiß er sehr wohl, wie wichtig es ist, immer einige Züge im Voraus zu planen und mehrere Varianten bereit zu halten.

Hinter compacer steckt ein dynamisches und motiviertes Team, dessen Kernkompetenz seit über 20 Jahren auf dem Gebiet der Integration und Automatisierung geschäftskritischer Prozesse liegt. Die umfassenden Lösungen für den formatunabhängigen Datenaustausch zwischen IT-Systemen, Maschinen und Geräten sorgen für schnelle, zuverlässige Geschäftsprozesse. Für internationale Konzerne und mittelständische Unternehmen konzipiert und realisiert compacer Smart Services Lösungen „made in Germany“ aus den Bereichen EDI, e-Invoicing, Retrofit sowie Predictive Maintenance und bringt die zukunftsweisende Datenbank-Technologie Blockchain zum Einsatz. In den zahlreichen Projekten hat compacer eine nachhaltige nationale wie internationale Expertise gesammelt. Die Kunden schätzen compacer als unabhängigen Technologiepartner, der mit dem Auf- und Ausbau sicherer Ecosysteme ihre Wertschöpfungskette optimiert.

weitere Beiträge zum Thema:

KI - Künstliche Intelligenz

Vier Fallstricke bei KI-Projekten

Einer aktuellen Databricks-Umfrage setzen bereits 94 Prozent der Unternehmen künstliche Intelligenz und maschinelles Lernen über alle Geschäftsbereiche hinweg ein; mehr als die Hälfte erwartet, dass

Weiterlesen »