Datenqualität und Datenvorverarbeitung

Schritte der Datenvorverarbeitung

Datenqualität für erfolgreiche Datenanalyse

Eine hohe Datenqualität gilt heute als notwendige Bedingung für erfolgreiche statistische Datenanalysen und Machine Learning. Im Produktionskontext existiert eine Vielzahl von Daten, die aus unterschiedlichen Quellen wie Sensoren einer Werkzeugmaschine, Messgeräten oder manuellen Einträgen stammen. Solche Rohdaten liegen zunächst nicht in einem direkt verwertbaren Zustand vor und können darüber hinaus Fehlstellen bei Sensorausfall oder falsche Angaben bei manuellen Einträgen aufweisen.

Data Preprocessing

Um Daten in einen verwertbaren Zustand zu überführen und eine höchstmögliche Datenqualität für nachfolgende Analysen sicherzustellen, hat das Fraunhofer IPT eine Pipeline für ein standardisiertes Data Preprocessing entwickelt: Die Data Preprocessing Pipeline stellt Methoden für eine strukturierte Vorverarbeitung der Daten in mehreren methodischen Schritten zur Verfügung:

  • Integration (z.B. Join und Union)
  • Cleaning (z.B. Outlier Detection und Imputation)
  • Augmentation (z.B. Interpolation und Feature Engineering)
  • Reduction (z.B. Principal Component Analysis und Feature Extraction)
  • Transformation (z.B. One-Hot Encoding und Diskretisierung)

Als Ergebnis des Data Preprocessing liegt ein aufbereiteter Datensatz vor, der für statistische Datenanalysen und Machine Learning genutzt werden kann. Durch die aktuellen Entwicklungen des Automated Machine Learning wird intensiv an der Automatisierung der Datenvorverarbeitung gearbeitet. Das Fraunhofer IPT untersucht den Einsatz des Automated Data Preprocessing im Produktionskontext, um die bisherige manuelle Datenvorverarbeitung zu beschleunigen und Data Scientists zukünftig von diesen monotonen Aufgaben zu entlasten.

Unsere Leistungen im Überblick

  • Data Quality Check zur Beurteilung der Datenqualität von Unternehmen und Roadmapping zur Verbesserung der Datenqualität
  • Implementierung einer wiederverwendbaren Data Preprocessing Pipeline zur standardisierten Aufbereitung von Daten im Unternehmen
  • Data Preprocessing Seminar für die Befähigung der Mitarbeiter zur Entwicklung einer unternehmenseigenen Data Preprocessing Pipeline

Seien Sie dabei!

Data Scientist Schulung

Zusammen mit dem Fraunhofer IAIS bieten wir ein Online-Seminar zu »Data Quality and Data Preprocessing« an. Schöpfen Sie das volle Potenzial Ihrer Daten aus.

7. - 9. Dezember 2020 (Online)

15. - 17. Juni 2021 (Online)

Relevante Projekte

Schlankes Datenmanagement

Das Forschungsprojekt »charMant« entwickelt Konzepte, um kleinen und mittleren Unternehmen effiziente und kostengünstige Prozess- sowie Produktanalysen zu ermöglichen.

Vernetzung optischer Fertigungsketten

Das Forschungsprojekt »EverPro« widmet sich der Erstellung technologieübergreifender, transferierbarer Infrastrukturkonzepte für die Vernetzung von Prozessketten komplexer Produkte der Optikfertigung. 

Technologischer Wandel der Industrie 4.0

Industrie- und Forschungspartner entwickeln gemeinsam im »International Center for Networked, Adaptive Production« Lösungsansätze zu den Entwicklungsfeldern der Industrie 4.0.

Innovationen im Turbomaschinenbau

Das »International Center for Turbomachinery Manufacturing« bietet eine integrierte sowie interdisziplinäre Plattform für die Entwicklung von Produktions- und Reparaturtechnologien im Turbomaschinenbau.