Blog

Datenfluss-Orchestrierung mit Apache Airflow – so bringen wir Wind in die Datenverarbeitung

In unserer Reihe „Gespräche mit der Entwicklung“ stellen wir Ihnen regelmäßig Projekte und Tools aus unserem Arbeitsalltag vor. Unser Data Warehouse Team hat seit letztem Jahr Apache Airflow, eine Open-Source-basierte Workflow-Management-Plattform, im Einsatz. In unserem Interview erfahren Sie mehr zu unseren Erfahrungen sowie den Vorteilen und Einsatzmöglichkeiten.

Key-Work Tech Talk, Gespräche mit der Entwicklung

Simon, du hast berichtet, dass euer Team vergangenes Jahr Apache Airflow eingeführt hat. Wieder ein Stück Software aus dem „Apacheverse“? Warum?

Simon Arnu: Ja, wir haben eine Eigenentwicklung abgelöst, die uns viele Jahre gute Dienste geleistet hat. Die zunehmenden Anforderungen nach Cloud- und Hybrid-Fähigkeit führten dazu, dass wir eine Ablösung für das bestehende Tool gesucht haben. Wir haben Apache Airflow als erstes evaluiert, liebgewonnen und in kurzer Zeit stückweise in Produktion gebracht.

Airflow, Screenshot, Key-Work

Oh, das Customer Centric Data-Warehouse läuft in der Cloud?

Simon Arnu: Ja, klar 😊 Unsere Datenprozesse sind so aufgesetzt, dass sie on-premise und oder in der Cloud, also hybrid laufen.

Was macht Apache Airflow genau?

Simon Arnu: Es ist ein Baustein aus der ETL-Prozesswelt. Kurz: Du hast mehrere Quellen und willst deren Daten zusammenführen, und dabei willst du noch Zwischenschritte einbauen, die irgendetwas mit den Daten anstellen oder zumindest jemanden informieren oder oder.

Die verschiedenen Datenströme stehen meist in komplexen Abhängigkeiten zueinander, weswegen eine einfache zeitgesteuerte Verarbeitung nicht ausreicht, da muss ein Orchestrierungs-Werkzeug her. Für unsere Kunden, die das Customer Centric Data-Warehouse im Einsatz haben, werden sowohl Beladung als auch Verarbeitung der verteilten Daten aus ERP, CRM und Web von Apache Airflow gesteuert.

Kommen wir zu den Vorteilen. Warum hat Apache Airflow in Eurer Auswahl gewonnen? Und hält es, was es verspricht?

Simon Arnu: Airflow ist ein Open-Source Projekt. Abgesehen von den wirtschaftlichen Vorteilen gegenüber teuer lizenzierten Produkten bekannter Firmen gilt es als robust. Es hat eine große Community und entwickelt sich zum Industrie-Standard. Und es besticht darüber hinaus durch eine schöne Visualisierung der Daten-Pipelines und deren Abhängigkeiten.

Für uns ist auch die gute Integration in unseren Technologie-Stack wichtig, so z.B. mit NiFi aber auch der Umstand, dass viele das Werkzeug kennen und wissen, wie sie mit wenig Python-Background Workflows deployen, aber auch ganze Machine Learning-Modelle bauen können.

Und enorm wichtig für uns und unsere Kunden sind die fertigen Integrationen mit einer Vielzahl von Datenmanagementsystemen.

Während der Migration unserer Projekte gab es dann Schwierigkeiten. Ihr musstet tricksen?

Simon Arnu: Jein! Glücklicherweise gibt es mit Airflow 2 eine neue Version der Software, die für uns genau zum richtigen Zeitpunkt kam. Bestimmte Performance-Engpässe für den operativen Betrieb konnten wir schmerzlos lösen. Und, um das noch zu sagen, wir sind sehr zufrieden im Betrieb der Plattform.

Wunderbar! Vielen Dank für deine Zeit, Simon.

Simon Arnu ist Data Engineer und Data Architect bei der Key-Work Consulting GmbH, Experte für Data Platform Development und Spezialist für ETL-Prozesse sowie ETL-Tools. Er spielt die ganze Klaviatur der modernen Virtualisierung und Containerisierung. Nach der Arbeit auf dem Rad, freut sich Simon analog und diebisch über jedes von ihm überholte E-Bike.

Sie wollen auch Projekte mit Apache Airflow umsetzen? Wir unterstützen Sie dabei. Sprechen Sie uns an. Mehr zur Automatisierung von Datenflüssen mit Apache NiFi lesen Sie hier.

Weitere spannende Themen im Blog

Decision Intelligence, Key-Work

Decision Intelligence – Fundament für datenbasierte und schnellere Entscheidungen

Weiterlesen
Customer Analytics, Case Study, Key-Work

Customer Analytics – Erfolgreiches Projekt mit Bosch Car Services

Weiterlesen
Customer Lifetime Value, Key-Work

Customer Lifetime Value (CLV) – Strategische Bedeutung und Tipps zur Optimierung

Weiterlesen