Lesen sie hier den Beitrag:

Vor dem erfolgreichen Machine Learning kommt die Datenjagd

Adarsh Kyadige, Senior Data Scientist im KI-Team von Sophos, nennt erste Schritte und Unwägbarkeiten beim Erstellen von Machine-Learning-Modellen.

Vor dem erfolgreichen Machine Learning kommt die Datenjagd

Künstliche Intelligenz bzw. Machine Learning hat in den letzten zehn Jahren einen enormen Aufschwung erlebt. Viele Branchen investieren jetzt massiv in Lösungen, die auf maschinellem Lernen basieren. Auch die Nachfrage nach qualifizierten Spezialisten ist sprunghaft gestiegen. Mehrere Universitäten weltweit bieten Abschlüsse mit dem Schwerpunkt Data Science oder Künstlicher Intelligenz an. Und auch an deutschen Hochschulen gewinnen diese Inhalte deutlich an Bedeutung.

Während sich Universitäten dabei vor allem auf die mathematischen und theoretischen Konzepte konzentrieren, können die erforderlichen Fähigkeiten und Kenntnisse für das Training von Machine-Learning-Modellen bei Problemstellungen in der realen Welt ganz anders aussehen.

Verfügbarkeit der notwendigen Daten

Meistens entscheidet die Verfügbarkeit von Daten darüber, ob maschinelles Lernen zur Lösung eines bestimmten Problems eingesetzt werden kann. Vor dem Start eines neuen Projekts steht daher die Frage: Wird ein auf diesen Daten trainiertes Modell die meiste Zeit die richtigen Antworten liefern?

Diese Frage gilt unabhängig von dem Modell, der Bibliothek oder der Sprache, die für das ML-Experiment gewählt ist. Und es gibt weitere entscheidende Kriterien. Ein Modell ist immer nur so gut, wie die Daten, die ihm zugeführt werden. Wichtig ist daher zu klären:

  • Sind ausreichend Daten vorhanden, um ein gutes Modell zu trainieren? Sofern es das Hardware-Budget nicht überschreitet, ist es fast immer richtig, mehr Daten zu verwenden.
  • Sind die Prognosen bei einem überwachten Lernprozess belastbar? Wird das Modell mit den richtigen Informationen gefüttert?
  • Sind diese Daten eine genaue Darstellung der realen Verteilung? Sind genügend Variationen in den Proben, um den Problembereich abzudecken?
  • Besteht konstanter Zugang zu einem ständigen Strom neuer Daten, mit denen das Modell aktualisiert und auf dem neuesten Stand gehalten werden kann?

Zusammenstellen der Daten

Die notwendigen Daten für die Erstellung eines Datensatzes für eine ML-Lösung befinden sich häufig verteilt auf mehrere Quellen. Verschiedene Teile einer Stichprobe werden über verschiedene Produkte gesammelt und von diversen Teams auf unterschiedlichen Plattformen verwaltet. Daher besteht der nächste Schritt im Prozess oft darin, all diese Daten in einem einzigen Format zusammenzufassen und so zu speichern, dass sie leicht zugänglich sind.

Weitere Herausforderungen und ein Fluch

Wenn die Daten gesammelt und aggregiert sind, würde man meinen, dass es nun losgehen könnte mit dem fabelhaften neuen ML-Algorithmus. Doch noch sind weitere Schritte notwendig, denn es werden unweigerlich noch einige Herausforderungen zu bewältigen sein:

  • Fehlende Daten: Manchmal sind vielleicht nicht für alle Beobachtungen gültige Werte verfügbar. Daten könnten während der Sammlung, Speicherung oder Übertragung beschädigt worden sein. Es gilt, diese fehlenden Datenpunkte zu finden und sie ggfs. aus dem Datensatz zu löschen.
  • Doppelte Daten: Auch wenn dies im Hinblick auf die Modell-Performance kein besonders alarmierendes Problem darstellt, sollten doppelte Daten aus dem Datenspeicher entfernt werden, um den Modelltrainingsprozess effizienter zu gestalten und möglicherweise eine Überanpassung zu vermeiden.
  • Verschiedene Normalisierungsschemata: Geringe Unterschiede in der Art und Weise, wie die Daten verarbeitet und gespeichert werden, können beim Training eines Modells große Kopfschmerzen verursachen. Beispielsweise können verschiedene Produkte dasselbe Freitextfeld auf unterschiedliche Längen beschneiden oder Daten unterschiedlich anonymisieren, was zu Inkonsistenzen in den Daten führt. Wenn eine dieser Quellen überwiegend Malware und eine andere Quelle gutartige Muster enthält, kann das ML-Modell lernen, sie z.B. anhand der Beschnitt-Länge zu identifizieren.
  • Freitextfelddaten: Dies verdient eigentlich eine Kategorie für sich allein, weil es so schwierig sein kann, damit umzugehen. Freitextfelder sind der Fluch des Daten-Ingenieurs, da er sich mit Tippfehlern, Umgangssprache, Beinahe-Duplikaten, Variationen in der Groß- und Kleinschreibung, Leerzeichen, Interpunktion und einer ganzen Reihe anderer Inkonsistenzen auseinandersetzen muss.

Stetige Aktualisierung

Der Datendrift schließlich ist ein wichtiges Problem, das beim Entwurf eines ML-Systems angegangen werden muss. Sobald ein Modell trainiert ist, wird es im Laufe der Zeit immer ungenauer. Denn die Verteilung der neu eingehenden Daten ändert sich. Daher sollte eine regelmäßige Aktualisierung des Modells festgelegt werden, um sicherzustellen, dass die Leistung weiterhin innerhalb der erwarteten Grenzen liegt.

Im Sicherheitsbereich sehen wir zum Beispiel eine große Volatilität. Denn Bedrohungsakteure ändern ihre Exploits und ihr Verhalten im Laufe der Zeit und Schwachstellen werden entdeckt und behoben.

Dies war eine kurze Zusammenfassung der typischen Schritte, die unternommen werden müssen, um Daten für eine ML-Lösung auszuwählen, zu sammeln und zu bereinigen. Sind diese alle erfolgt, steht vermutlich ein sauberer Datensatz zur Verfügung.

Das Experiment kann beginnen.

Autor: Adarsh Kyadige

weitere Beiträge zum Thema:

 

Der EAS-Insider – Ihr Navigator zu einem erfolgreichem Business!

So kann Sie Unternehmenssoftware erfolgreicher machen:

Was ist Unternehmenssoftware?

Unternehmenssoftware ist eine Sammlung von Anwendungen und Tools, die speziell entwickelt wurden, um Geschäftsprozesse effizienter zu gestalten. Sie deckt eine Vielzahl von Funktionen ab, darunter Buchhaltung, Personalwesen, Kundenbeziehungsmanagement (CRM), Lieferkettenmanagement und Enterprise Resource Planning (ERP). Diese Softwarelösungen unterstützen Unternehmen dabei, ihre Abläufe zu automatisieren, Daten effizient zu verwalten und die Zusammenarbeit zwischen Abteilungen zu verbessern. Durch den Einsatz von Unternehmenssoftware können Unternehmen fundierte Entscheidungen treffen, indem sie Echtzeitdaten und Analysen nutzen. Darüber hinaus ermöglicht sie die Skalierung von Geschäftsaktivitäten, die Reduzierung von Kosten und die Verbesserung der Kundenzufriedenheit, was letztendlich zur Steigerung der Wettbewerbsfähigkeit beiträgt.

Wie kann Unternehmenssoftware ein Unternehmen digital erfolgreicher machen?

Unternehmenssoftware kann Unternehmen digital erfolgreicher machen, indem sie Geschäftsprozesse automatisiert und optimiert, wodurch Effizienz und Produktivität steigen. Sie ermöglicht die Integration verschiedener Abteilungen und fördert eine nahtlose Zusammenarbeit, indem sie Echtzeitdaten bereitstellt. Durch präzise Datenanalysen können Unternehmen fundierte Entscheidungen treffen und Markttrends schneller erkennen. Unternehmenssoftware verbessert zudem die Kundenbeziehungen durch effektives Kundenbeziehungsmanagement (CRM), was zu gesteigerter Kundenzufriedenheit und -bindung führt. Die Automatisierung von Routineaufgaben reduziert menschliche Fehler und spart Zeit und Ressourcen. Darüber hinaus unterstützt sie Unternehmen dabei, flexibel auf Veränderungen zu reagieren und ihre digitale Transformation voranzutreiben, um im Wettbewerbsumfeld erfolgreich zu bleiben.

Wichtige Schlagworte im Kontext von Unternehmenssoftware:

Digitalisierung

Der Prozess, bei dem analoge Geschäftsprozesse in gute und sinvolle digitale umgewandelt werden, um Effizienz und Produktivität zu steigern.

Integration

Die Verbindung verschiedener Softwarelösungen und Systeme, um einen reibungslosen Informationsfluss und eine einheitliche Datenbasis im Unternehmen zu gewährleisten.

Automatisierung

Der Einsatz von Software zur Durchführung wiederkehrender Aufgaben ohne menschliches Eingreifen, um Fehler zu reduzieren und Ressourcen zu sparen.

Aktuelle Beiträge zum Thema Unternehmenssoftware:

So kann Sie künstliche Intelligenz erfolgreicher machen:

Was ist künstliche Intelligenz?

Im Kontext von Unternehmenssoftware bezieht sich künstliche Intelligenz (KI) auf Technologien, die Geschäftsprozesse automatisieren und optimieren, indem sie menschenähnliche Intelligenz auf spezifische Aufgaben anwenden. KI-gestützte Software kann große Datenmengen analysieren, Muster erkennen und Vorhersagen treffen, um fundierte Entscheidungen zu ermöglichen. Anwendungen umfassen Chatbots für den Kundenservice, die Automatisierung von Routineaufgaben, personalisierte Marketingstrategien und vorausschauende Wartung. KI verbessert die Effizienz und Genauigkeit, reduziert Kosten und steigert die Produktivität. Durch die Integration von KI in Unternehmenssoftware können Unternehmen Wettbewerbsvorteile erlangen, da sie schneller und agiler auf Marktveränderungen reagieren können, während sie gleichzeitig die Kundenerfahrung verbessern.

Wie kann künstliche Intelligenz ein Unternehmen digital erfolgreicher machen?

Künstliche Intelligenz (KI) kann ein Unternehmen digital erfolgreicher machen, indem sie Prozesse automatisiert, Entscheidungsfindung verbessert und Effizienz steigert. KI-gestützte Analysen bieten tiefe Einblicke in Daten, ermöglichen präzisere Vorhersagen und helfen, Geschäftsstrategien zu optimieren. Durch Automatisierung können Routineaufgaben effizienter erledigt werden, was Kosten senkt und menschliche Ressourcen für strategische Aufgaben freisetzt. KI verbessert auch die Kundenerfahrung durch personalisierte Empfehlungen und schnelle Reaktionen auf Anfragen. In der Produktion optimiert KI die Lieferkette und verringert Ausfallzeiten durch vorausschauende Wartung. Insgesamt fördert KI Innovation, Agilität und Wettbewerbsfähigkeit, indem sie Unternehmen befähigt, schneller und intelligenter auf Marktveränderungen zu reagieren.

Wichtige Schlagworte im Kontext von künstliche Intelligenz:

Automatisierung

Der Einsatz von KI, um wiederkehrende Aufgaben in Unternehmensprozessen zu automatisieren, wodurch Effizienz gesteigert und menschliche Ressourcen für strategische Aufgaben freigesetzt werden.

Predictive Analytics

Die Verwendung von KI-Techniken, um aus Daten Vorhersagen über zukünftige Ereignisse oder Trends zu treffen, die Unternehmen helfen, bessere Geschäftsentscheidungen zu treffen.

Chatbots

KI-gesteuerte Programme, die in Unternehmenssoftware integriert sind, um Kundenanfragen automatisiert zu beantworten, den Kundenservice zu verbessern und die Benutzererfahrung zu optimieren.

Aktuelle Beiträge zum Thema künstliche Intelligenz:

Unsere aktuellen Blog-Beiträge!

Das sind die aktuellen Beiträge zum Thema:

Aktuelle Beiträge zum Thema:
 

DAS EAS-MAG-Glossar für den Beitrag:

Vor dem erfolgreichen Machine Learning kommt die Datenjagd

EAS-MAG-Glossar:

KI - Künstliche Intelligenz

Künstliche Intelligenz (KI) bezeichnet die Fähigkeit von Computern und Maschinen, Aufgaben zu übernehmen, die normalerweise menschliche Intelligenz erfordern. Dazu gehören Lernen, Problemlösung, Mustererkennung und Entscheidungsfindung. KI-Systeme nutzen Algorithmen und Daten, um eigenständig zu lernen und sich zu verbessern. Beispiele sind maschinelles Lernen, neuronale Netze und natürliche Sprachverarbeitung. KI findet Anwendung in vielen Bereichen, darunter autonome Fahrzeuge, Spracherkennung, personalisierte Empfehlungen und medizinische Diagnosen. Sie bietet das Potenzial, Effizienz und Innovation zu steigern, bringt jedoch auch ethische Herausforderungen und Diskussionen über Datenschutz und Arbeitsplatzveränderungen mit sich. KI verändert die Art und Weise, wie wir leben und arbeiten.

 
Transparenzhinweis für Pressemitteilung
Vor dem erfolgreichen Machine Learning kommt die Datenjagd

Unternehmen

Sophos

Autor

Adarsh Kyadige