Data Preprocessing
Um Daten in einen verwertbaren Zustand zu überführen und eine höchstmögliche Datenqualität für nachfolgende Analysen sicherzustellen, hat das Fraunhofer IPT eine Pipeline für ein standardisiertes Data Preprocessing entwickelt: Die Data Preprocessing Pipeline stellt Methoden für eine strukturierte Vorverarbeitung der Daten in mehreren methodischen Schritten zur Verfügung:
- Integration (z.B. Join und Union)
- Cleaning (z.B. Outlier Detection und Imputation)
- Augmentation (z.B. Interpolation und Feature Engineering)
- Reduction (z.B. Principal Component Analysis und Feature Extraction)
- Transformation (z.B. One-Hot Encoding und Diskretisierung)
Als Ergebnis des Data Preprocessing liegt ein aufbereiteter Datensatz vor, der für statistische Datenanalysen und Machine Learning genutzt werden kann. Durch die aktuellen Entwicklungen des Automated Machine Learning wird intensiv an der Automatisierung der Datenvorverarbeitung gearbeitet. Das Fraunhofer IPT untersucht den Einsatz des Automated Data Preprocessing im Produktionskontext, um die bisherige manuelle Datenvorverarbeitung zu beschleunigen und Data Scientists zukünftig von diesen monotonen Aufgaben zu entlasten.
Unsere Leistungen im Überblick
- Data Quality Check zur Beurteilung der Datenqualität von Unternehmen und Roadmapping zur Verbesserung der Datenqualität
- Implementierung einer wiederverwendbaren Data Preprocessing Pipeline zur standardisierten Aufbereitung von Daten im Unternehmen
- Data Preprocessing Seminar für die Befähigung der Mitarbeiter zur Entwicklung einer unternehmenseigenen Data Preprocessing Pipeline