Während der erste Teil der Beitragsreihe einen Überblick über die Grundlagen der Data Ingestion und die unterschiedlichen Datenquellen vermittelte, widmet sich dieser Beitrag nun den konkreten Verfahren der Datenaufnahme, häufigen Herausforderungen sowie praxisbewährten Lösungsansätzen.
Architekturen und Muster für Data Ingestion
Batch vs. Microbatch vs. Streaming
Bei der Datenaufnahme in industriellen Datenplattformen gibt es verschiedene Strategien, die je nach Anwendungsfall und Anforderungen ausgewählt werden können. In diesem Beitrag konzentrieren wir uns auf die Batch-Ingestion, während wir die Streaming-Ingestion und Microbatch-Ingestion kurz vorstellen. In einem weiteren Teil der Artikelreihe werden wir uns jedoch eingehender mit diesen beiden Themen befassen.
Streaming-Ingestion bezieht sich auf die kontinuierliche Aufnahme von Datenströmen in Echtzeit. Diese Methode ermöglicht es Unternehmen, Daten sofort zu verarbeiten und darauf zu reagieren, was besonders vorteilhaft für Anwendungen ist, die Echtzeitanalysen erfordern. Die Vorteile der Streaming-Ingestion liegen in der Fähigkeit, sofortige Einblicke zu gewinnen und schnell auf Veränderungen in den Produktionsprozessen zu reagieren. Ein Beispiel hierfür wären Daten von Sensoren, die die Umgebungstemperatur in der Fertigung erfassen und und als Einflussgröße für die Prozesssteuerung genutzt werden.
Batch-Ingestion hingegen befasst sich mit der Verarbeitung großer Datenmengen in regelmäßigen Abständen. Diese Methode ist besonders geeignet für Szenarien, in denen die Daten nicht in Echtzeit benötigt werden, sondern in großen Mengen gesammelt und zu einem späteren Zeitpunkt verarbeitet werden können. Batch-Ingestion ist oft kosteneffizienter und einfacher zu implementieren, da sie weniger Ressourcen benötigt und die Verarbeitung in geplanten Intervallen erfolgt. Hier wären u.a. Daten einzuordnen, die für Reportings zu festgelegten Zeiten, wie zum Beispiel Morgenrunde oder KVP, benötigt werden.
Microbatch-Ingestion stellt eine Zwischenlösung zwischen Batch- und Streaming-Ingestion dar. Bei diesem Ansatz werden Daten in sehr kurzen, regelmäßigen Intervallen gesammelt und verarbeitet, oft in Minuten oder Sekunden. Microbatching bietet eine Balance zwischen der Effizienz von Batch-Verarbeitung und der Aktualität von Streaming-Verarbeitung. Es eignet sich gut für Anwendungen, die eine nahezu Echtzeit-Verarbeitung erfordern, aber nicht die Komplexität und Infrastruktur von vollwertigem Streaming benötigen. Ein Beispiel wären Q-Daten, die nicht zur automatischen Prozesssteuerung verwendet werden, auf die aber trotzdem zeitnah reagiert werden sollte.
Der Zusammenhang zwischen diesen Methoden liegt in der Frequenz und Granularität der Datenverarbeitung:
- Batch-Ingestion ist ideal für Anwendungen, die große Datenmengen in weniger zeitkritischen Intervallen verarbeiten.
- Microbatch-Ingestion bietet eine schnellere Reaktionszeit als Batch, ohne die Komplexität von Streaming, und ist ideal für Anwendungen, die häufige, aber nicht kontinuierliche Aktualisierungen benötigen.
- Streaming-Ingestion ist die beste Wahl für Anwendungen, die kontinuierliche Datenströme in Echtzeit verarbeiten müssen.
Die differenzierte Auswahl der Ingestion-Methoden ermöglicht es, sowohl Kosten zu optimieren als auch eine anwendungsnahe Datenversorgung sicherzustellen.
ETL vs. ELT
Ein weiterer wichtiger Aspekt der Datenaufnahme sind die Muster ETL (Extract, Transform, Load) und ELT (Extract, Load, Transform). Bei ETL werden die Daten zuerst extrahiert, dann transformiert und schließlich in das Zielsystem geladen. Dieses Muster eignet sich gut für strukturierte Daten, wie z.B. Transaktionsdaten aus ERP-Systemen, und bietet den Vorteil, dass die Daten vor dem Laden bereinigt und optimiert werden. Dadurch wird sichergestellt, dass nur qualitativ hochwertige Daten in das Zielsystem gelangen, was die Datenintegrität erhöht.
Im Gegensatz dazu lädt ELT die Daten zuerst in das Zielsystem und transformiert sie dann dort. Dies ist besonders vorteilhaft für große Datenmengen und unstrukturierte Daten, wie z.B. Sensordaten aus IoT-Geräten oder Log-Dateien, da es die Flexibilität erhöht und die Verarbeitungsgeschwindigkeit verbessert. Durch die Nutzung von Cloud-basierten Datenbanken, die elastische Skalierung ermöglichen, können Unternehmen große Datenmengen effizienter verarbeiten. In der Fertigungsindustrie kann die Wahl zwischen ETL und ELT je nach spezifischen Anforderungen und Datenarten variieren. Beispielsweise könnte ein Unternehmen, das hauptsächlich strukturierte Daten verarbeitet, ETL bevorzugen, während ein Unternehmen, das große Mengen an unstrukturierten Daten analysiert, eher zu ELT tendieren würde.
Datenpipelines
Datenpipelines spielen eine entscheidende Rolle bei der Automatisierung des Data Ingest-Prozesses. Insbesondere Ingestion Pipelines sind dafür verantwortlich, Daten aus verschiedenen Quellen zu sammeln und in die zentrale Datenplattform zu übertragen. Diese Pipelines können sowohl Batch- als auch Streaming-Daten aufnehmen und ermöglichen eine nahtlose Integration von Daten in die Datenarchitektur.
Gängige Architekturen für Datenpipelines umfassen:
- Batch-Pipelines: Diese Pipelines sammeln Daten in festgelegten Intervallen und laden sie in die Datenplattform. Sie sind ideal für die Verarbeitung großer Datenmengen, die nicht in Echtzeit benötigt werden.
- Streaming-Pipelines: Diese Pipelines verarbeiten kontinuierliche Datenströme in Echtzeit und ermöglichen sofortige Analysen und Reaktionen auf Veränderungen.
Anwendungsfälle und Szenarien in der Fertigungsindustrie
Die Wahl der richtigen Data-Ingestion-Methode hängt stark von den spezifischen Anwendungsfällen und Szenarien in der Fertigungsindustrie ab. Hier sind einige Beispiele:
- Predictive Maintenance: Data Ingestion wird verwendet, um Sensordaten von Maschinen kontinuierlich zu erfassen. Diese Daten können analysiert werden, um Muster zu erkennen und Vorhersagen über mögliche Geräteausfälle zu treffen. Durch die rechtzeitige Identifizierung von Problemen können Unternehmen Ausfallzeiten minimieren und Wartungskosten senken. Ein Beispiel ist die Überwachung von Temperaturen, Druck und Leistungsdaten von Maschinen, um kurzfristig Anomalien zu erkennen und langfristig Trends zu Verschleiß und Wartung vorhersagen zu können.
- Prozessoptimierung: Die Echtzeitüberwachung von Produktionsprozessen ist entscheidend für die Effizienz. Data Ingestion ermöglicht es, Daten über Maschinenleistung, Produktionsgeschwindigkeit und Materialverbrauch in Echtzeit zu sammeln. Diese Informationen können genutzt werden, um Prozesse zu optimieren und Engpässe zu identifizieren, was zu einer höheren Produktivität führt. In der Praxis ist dies beispielsweise bei der Bottleneck-Analyse der Fall.
- Qualitätskontrolle: Data Ingestion spielt auch eine wichtige Rolle in der Qualitätskontrolle. Durch die Analyse von Produktionsdaten können Unternehmen Abweichungen von den Qualitätsstandards frühzeitig erkennen und entsprechende Maßnahmen ergreifen. Dies führt zu einer Verbesserung der Produktqualität und einer Reduzierung von Ausschuss und Nacharbeit. Hier lässt sich zum Beispiel die Trenderkennung nennen, um mögliche Fehler anhand kontinuierlicher Abweichungen möglichst noch innerhalb der Toleranzgrenzen vorhersagen und vermeiden zu können.
Entscheidungsmatrix
Um die geeignete Data Ingestion-Methode für spezifische Anwendungsfälle auszuwählen, können Unternehmen eine Entscheidungsmatrix verwenden, die Faktoren wie Datenvolumen, Verarbeitungsfrequenz und Echtzeitbedarf berücksichtigt. Diese Matrix hilft dabei, die beste Strategie für die Datenaufnahme zu bestimmen, um die gewünschten Ergebnisse in der Fertigungsindustrie zu erzielen.
Insgesamt ist die Wahl der richtigen Architektur und Muster für Data Ingestion entscheidend für den Erfolg einer industriellen Datenplattform. Durch die Berücksichtigung der spezifischen Anforderungen und Anwendungsfälle können Unternehmen sicherstellen, dass sie die richtigen Daten zur richtigen Zeit zur Verfügung haben, um fundierte Entscheidungen zu treffen und ihre Prozesse zu optimieren.
Herausforderungen und Best Practices
Die Implementierung eines effektiven Data Ingestion-Prozesses in einer industriellen Datenplattform bringt eine Reihe von Herausforderungen mit sich. Um diese Herausforderungen zu meistern und die Effizienz der Datenaufnahme zu maximieren, sollten Unternehmen Best Practices befolgen.
Datenqualität und -validierung
Die Sicherstellung der Datenqualität ist von entscheidender Bedeutung für den Erfolg jeder Datenstrategie. Während des Ingestion-Prozesses müssen Daten kontinuierlich validiert werden, um sicherzustellen, dass sie korrekt, konsistent und vollständig sind. Unzureichende Datenqualität kann zu fehlerhaften Analysen und Entscheidungen führen. Best Practices zur Sicherstellung der Datenqualität umfassen:
- Automatisierte Validierungsregeln: Implementieren Sie Regeln zur Überprüfung der Datenintegrität, wie z.B. Formatprüfungen, Bereichsprüfungen und Erkennung von Duplikaten. Je nach vorliegendem Szenario muss entschieden werden, ob fehlerhafte oder unvollständige Daten bei der Datenaufnahme verworfen werden, oder sie mit entsprechender Markierung trotzdem gespeichert werden.
- Datenbereinigung: Führen Sie regelmäßige Datenbereinigungen durch, um inkonsistente oder fehlerhafte Daten zu identifizieren und zu korrigieren.
- Monitoring: Richten Sie Monitoring-Tools ein, um die Datenqualität kontinuierlich zu überwachen und Probleme in Echtzeit zu erkennen.
Schema-Management
Das Schema-Management stellt eine weitere Herausforderung dar, insbesondere wenn Daten aus verschiedenen Quellen integriert werden. Unterschiedliche Datenquellen können unterschiedliche Datenformate und -strukturen aufweisen, was die Harmonisierung der Daten erschwert. Best Practices für das Schema-Management umfassen:
- Schema-Evolution: Entwickeln Sie Strategien zur Handhabung von Schemaänderungen, um sicherzustellen, dass neue Datenformate problemlos integriert werden können, ohne bestehende Prozesse zu stören.
- Zentralisierte Metadatenverwaltung: Nutzen Sie Metadatenkataloge, um Informationen über die Struktur und den Inhalt der Daten zu verwalten. Dies erleichtert die Integration und das Verständnis der Daten.
- Standardisierung: Implementieren Sie Standards für Datenformate und -strukturen, um die Integration zu vereinfachen und die Konsistenz zu gewährleisten.
Sicherheit, Datenschutz, Governance
Die Sicherheit und der Datenschutz sind kritische Aspekte des Data Ingestion-Prozesses. Unternehmen müssen sicherstellen, dass sensible Daten geschützt sind und dass sie alle relevanten Datenschutzrichtlinien einhalten. Best Practices in diesem Bereich umfassen:
- Zugriffskontrollen: Implementieren Sie strenge Zugriffskontrollen, um sicherzustellen, dass nur autorisierte Benutzer auf sensible Daten zugreifen können.
- Datenverschlüsselung: Verschlüsseln Sie Daten sowohl während der Übertragung als auch im Ruhezustand, um sie vor unbefugtem Zugriff zu schützen.
- Compliance-Management: Stellen Sie sicher, dass alle Datenprozesse den geltenden Datenschutzgesetzen und -richtlinien entsprechen, wie z.B. der GDPR oder dem CCPA.
Skalierbarkeit und Leistung
Die Skalierbarkeit und Leistungsoptimierung von Data Ingestion-Systemen sind entscheidend, um mit dem wachsenden Datenvolumen und den steigenden Anforderungen an die Datenverarbeitung Schritt zu halten. Best Practices zur Optimierung der Skalierbarkeit und Leistung umfassen:
- Verteilte Architekturen: Nutzen Sie verteilte Systeme, die horizontal skalierbar sind, um die Verarbeitung großer Datenmengen zu ermöglichen.
- Optimierte Abfragen: Reduzieren Sie die Belastung der Datenquellen, indem Sie wiederholte Abfragen aus denselben Quellen vermeiden. Nutzen Sie wenn möglich vorhandene Datenströme und Topics.
- Caching-Mechanismen: Implementieren Sie Caching-Mechanismen, um häufig abgerufene Daten schnell bereitzustellen und die Last auf den Datenquellen zu reduzieren.
- Lastverteilung: Verwenden Sie Lastverteilungstechniken, um die Datenverarbeitung gleichmäßig über mehrere Ressourcen zu verteilen und Engpässe zu vermeiden.
Essenzielle Fragestellungen aus Sicht der Architektur
Um die Herausforderungen im Data Ingestion-Prozess zu bewältigen, sollten Unternehmen sich grundlegende Fragen stellen, die als Ausgangspunkt für die Lösungsfindung dienen können:
- Wie stellen wir die Datenqualität während des Ingestion-Prozesses sicher?
- Welche Strategien haben wir für das Schema-Management implementiert?
- Wie schützen wir sensible Daten und stellen die Einhaltung von Datenschutzrichtlinien sicher?
- Sind unsere Data Ingestion-Systeme skalierbar und leistungsfähig genug, um mit dem Wachstum unserer Daten umzugehen?
- Welche Technologien und Tools können wir nutzen, um unsere Data Ingestion-Prozesse zu optimieren?
- Wie können Redundanz und Ausfallsicherheit des Ingestion-Systems sichergestellt werden?
Durch die Beantwortung dieser Fragen und die Umsetzung der genannten Best Practices können Unternehmen die Herausforderungen im Data Ingestion-Prozess erfolgreich meistern und eine robuste Dateninfrastruktur aufbauen, die den Anforderungen der modernen Fertigungsindustrie gerecht wird.
Fazit
Data Ingestion ist ein wesentlicher Bestandteil jeder industriellen Datenplattform und spielt eine entscheidende Rolle für deren Erfolg. In der Fertigungsindustrie ermöglicht eine effektive Datenaufnahme die Sammlung, Integration und Verarbeitung großer Mengen an Daten aus verschiedenen Quellen, wie Sensordaten von Maschinen, ERP-Systemen, MES- und SCADA-Systemen sowie Qualitätskontrollsystemen.
Die Wahl der richtigen Ingestion-Methode – sei es Batch, Microbatch oder Streaming – hängt von den spezifischen Anforderungen und Anwendungsfällen ab. Während Batch-Ingestion für die Verarbeitung großer Datenmengen in regelmäßigen Abständen geeignet ist, bieten Microbatch und Streaming-Ingestion Vorteile für Anwendungen, die nahezu Echtzeit- oder Echtzeitdatenverarbeitung erfordern.
Herausforderungen wie Datenqualität und -validierung, Schema-Management, Sicherheit, Datenschutz und Governance sowie Skalierbarkeit und Leistung müssen adressiert werden, um eine robuste und effiziente Datenarchitektur zu gewährleisten. Durch die Implementierung von Best Practices und die Beantwortung essenzieller Fragestellungen können Unternehmen diese Herausforderungen meistern und ihre Datenplattformen erfolgreich betreiben.
Insgesamt ist eine effektive Data Ingestion ein entscheidender Grundbaustein für die Optimierung von Produktionsprozessen, die Verbesserung der Qualitätskontrolle und die Vorhersage von Geräteausfällen in der Fertigungsindustrie. Sie bildet die Grundlage für fundierte Entscheidungen und trägt wesentlich zur Steigerung der Effizienz und Wettbewerbsfähigkeit bei.
Dieser Beitrag wurde verfasst von:

Christian Heinemann
Christian Heinemann ist Diplom-Informatiker und arbeitet als Solution Architect bei der ZEISS Digital Innovation am Standort Leipzig. Seine Arbeitsschwerpunkte liegen in den Bereichen verteilte Systeme, Cloud-Technologien und Digitalisierung im Bereich Manufacturing. Christian verfügt über mehr als 20 Jahre Projekterfahrung in der Softwareentwicklung. Er arbeitet mit verschiedenen ZEISS-Einheiten sowie externen Kunden zusammen, um innovative Lösungen zu entwickeln und umzusetzen.