Wer Daten aus verschiedenen Quellen zusammenführen, transformieren und in der Cloud orchestrieren möchte, stößt früher oder später auf die Azure Data Factory – Microsofts verwalteten Cloud-Datenintegrationsdienst. Doch was steckt dahinter, wie funktioniert ADF genau, und für wen ist der Einsatz sinnvoll?
In diesem Beitrag erklären wir die Kernkonzepte, zeigen typische Anwendungsfälle und beleuchten, wie sich Azure Data Factory zu Alternativen wie AWS Glue oder Apache Airflow verhält – und welche Rolle es in der Microsoft-Fabric-Strategie spielt.
Azure Data Factory (ADF) ist ein vollständig verwalteter, serverloser Cloud-Dienst von Microsoft für Datenintegration im großen Maßstab. Der Dienst ermöglicht es, ETL- (Extract, Transform, Load) und ELT-Prozesse (Extract, Load, Transform) zu entwerfen, zu orchestrieren und zu überwachen – ohne eigene Serverinfrastruktur betreiben zu müssen.
Kurz gesagt: Azure Data Factory ist die Antwort auf die Frage, wie Unternehmen strukturierte und unstrukturierte Daten aus Dutzenden unterschiedlicher Quellen – von On-Premises-Datenbanken über SaaS-Anwendungen bis hin zu Streaming-Diensten – zusammenführen, aufbereiten und in Analytics-Plattformen oder Data Lakes überführen können.
ADF ist seit 2015 allgemein verfügbar und hat sich zu einem der meistgenutzten Datenintegrationsdienste in der Microsoft Azure-Welt entwickelt. Laut aktuellen Marktdaten setzen heute mehr als 5.500 Unternehmen weltweit auf Azure Data Factory – mit einem Marktanteil von rund 6,7 % im Segment der Datenspeicher- und Integrationswerkzeuge.
Azure Data Factory basiert auf sechs zentralen Konzepten, die zusammenspielen, um Daten-Pipelines zu definieren und auszuführen:
Pipelines sind die logische Klammer für eine Gruppe von Aktivitäten, die gemeinsam eine Aufgabe erfüllen. Sie definieren die Abfolge oder Parallelisierung von Verarbeitungsschritten – zum Beispiel: Daten aus einer SQL-Datenbank lesen, transformieren und in einen Azure Blob Storage schreiben.
Aktivitäten sind die konkreten Verarbeitungsschritte innerhalb einer Pipeline. ADF unterscheidet zwischen drei Typen:
Datasets beschreiben die Datenstrukturen in den angebundenen Datenspeichern – sie zeigen, wo und in welchem Format Daten vorliegen. Ein Dataset verweist immer auf einen Linked Service und beschreibt die eigentliche Datenressource (z. B. eine bestimmte Tabelle oder Datei).
Linked Services sind die Verbindungszeichenketten zu externen Ressourcen – vergleichbar mit Verbindungskonfigurationen in klassischen ETL-Werkzeugen. Sie können auf Datenspeicher (SQL Server, Oracle, Blob Storage, Salesforce etc.) oder auf Rechenressourcen (HDInsight, Azure Databricks) verweisen.
Die Integration Runtime ist die Ausführungsumgebung für Pipelines. ADF bietet drei Varianten:
Trigger steuern den Ausführungszeitpunkt von Pipelines. Unterstützt werden zeitbasierte Schedule-Trigger (Cron-ähnlich), Tumbling-Window-Trigger für feste Zeitfenster sowie ereignisbasierte Trigger, die auf Storage-Events oder benutzerdefinierte Ereignisse reagieren.
Azure Data Factory bietet mehr als 90 eingebaute, wartungsfreie Konnektoren ohne Aufpreis. Dazu gehören Anbindungen an Big-Data-Quellen wie Amazon S3 oder HDFS, Enterprise-Datenbankplattformen wie Oracle Exadata oder Teradata, SaaS-Anwendungen wie Salesforce oder ServiceNow sowie sämtliche nativen Azure-Dienste.
Die browserbasierte Authoring-Oberfläche ermöglicht es, Pipelines per Drag-and-Drop zu entwerfen – ohne Programmierkenntnisse. Vorgefertigte Templates für gängige ETL/ELT-Muster beschleunigen den Einstieg. Ein integrierter Debug-Modus erlaubt das interaktive Testen direkt im Designer.
Mapping Data Flows sind visuell gestaltete Datentransformationen, die im Hintergrund auf verwalteten Spark-Clustern ausgeführt werden – ohne dass Spark-Kenntnisse erforderlich sind. Unterstützt werden Joins, Aggregationen, Pivotierungen, bedingte Splits und abgeleitete Spalten. Über den Inspect-Tab lassen sich Metadaten, Spaltenzahlen und Datentypen jederzeit einsehen.
ADF unterstützt beide Integrationsmuster: Beim klassischen ETL werden Daten vor dem Laden transformiert. Beim ELT-Ansatz – der für moderne Cloud-Data-Warehouses wie Azure Synapse Analytics oder Microsoft Fabric optimalen Variante – werden Daten zunächst roh geladen und erst im Zielsystem transformiert, was die Rechenkapazitäten des Ziels optimal nutzt.
Azure Data Factory unterstützt nativ Azure DevOps und GitHub. Pipelines lassen sich versionieren, in Feature-Branches entwickeln und über bewährte CI/CD-Prozesse in Produktionsumgebungen überführen.
Viele Unternehmen nutzen ADF, um Daten aus unterschiedlichsten Quellen – IoT-Geräte, Cloud-Dienste, On-Premises-Systeme, Streaming-Quellen – automatisiert in einen zentralen Data Lake zu überführen. Durch Partitionierung und integriertes Azure Data Catalog-Management lässt sich die Auffindbarkeit der Daten gezielt verbessern.
ADF dient als Datenpipeline-Schicht für analytische Plattformen: Operative Systeme liefern Rohdaten, die ADF aufbereitet und in Azure Data Lake Storage oder ein Data Warehouse überführt – wo Data Scientists und Analysten weiterarbeiten können. Die enge Integration mit Power BI ermöglicht aktuelle Dashboards auf Basis dieser Daten.
Mit der Self-hosted Integration Runtime lassen sich On-Premises-Datenbanken sicher anbinden, ohne öffentliche Endpunkte freigeben zu müssen. Die breite Konnektorenauswahl ermöglicht darüber hinaus echte Multi-Cloud-Integrationen zwischen AWS, GCP und Azure.
Azure Data Factory ist nicht das einzige Cloud-ETL-Werkzeug auf dem Markt. Ein Überblick der wichtigsten Alternativen:
|
Werkzeug |
Typ |
Besonderheiten & Stärken |
|
Azure Data Factory |
Managed Cloud (Azure) |
90+ Konnektoren, visueller Designer, hybride Szenarien, tief in Azure-Ökosystem integriert, Low-Code-Ansatz |
|
AWS Glue |
Managed Cloud (AWS) |
Serverlos, Spark-basiert, automatische Schema-Erkennung, ideal für reine AWS-Umgebungen, Code-First-Ansatz (Python/Scala) |
|
Google Cloud Dataflow |
Managed Cloud (GCP) |
Apache Beam-basiert, stark bei Echtzeit-Streaming, portable Pipelines (Java, Python, Go), ideal für Real-Time-Szenarien |
|
Talend |
Plattformunabhängig |
Über 1.000 Konnektoren, grafische Oberfläche, zugänglich ohne Programmierkenntnisse, breites SaaS/DB/Big-Data-Ökosystem |
|
Apache Airflow |
Open Source |
Python-basiert, maximale Flexibilität und Anpassbarkeit, Community-getrieben, ideal für Teams mit starken Entwickler-Ressourcen |
ADF punktet besonders dort, wo Unternehmen bereits auf das Azure-Ökosystem setzen, hybride On-Premises/Cloud-Szenarien benötigen und einen Low-Code-Ansatz bevorzugen. Wer hingegen vollständige Kontrolle auf Code-Ebene und Cloud-Unabhängigkeit benötigt, sollte auch Airflow oder Cloud-native Alternativen der anderen Anbieter in Betracht ziehen.
Microsoft hat mit Microsoft Fabric eine neue, umfassende Analytics-Plattform eingeführt, die die Datenintegrationsfähigkeiten von Azure Data Factory mit einer modernen SaaS-Oberfläche und KI-Integration kombiniert. Die Data-Factory-Erfahrung in Microsoft Fabric gilt dabei als die nächste Generation von ADF.
Was bedeutet das konkret?
|
Hinweis zur Roadmap Azure Data Factory bleibt ein vollständig unterstützter Dienst und erhält weiterhin Updates. Bestehende ADF-Workloads können schrittweise nach Microsoft Fabric migriert werden. Für neue Datenintegrationsprojekte im Azure-Ökosystem empfiehlt Microsoft heute den Einstieg über die Data-Factory-Erfahrung in Microsoft Fabric. |
Der serverlose Ansatz bedeutet: Es wird nur für tatsächlich genutzte Ressourcen gezahlt. Microsofts offizieller Preisrechner für Azure Data Factory hilft dabei, die Kosten anhand konkreter Workload-Parameter vorab zu schätzen.
Azure Data Factory bietet eine Reihe von Sicherheitsfunktionen, die für Enterprise-Einsätze ausgelegt sind:
Die Azure Integration Runtime kann in einem verwalteten virtuellen Netzwerk betrieben werden. Alle Netzwerkverbindungen verlaufen ausschließlich über das Microsoft-Backbone – der Datenverkehr verlässt nie das öffentliche Internet. Das schützt vor Datenexfiltration und vereinfacht Compliance-Anforderungen.
Verwaltete Private Endpoints ermöglichen sichere Verbindungen zu unterstützten Datenspeichern und Azure-Diensten ohne öffentliche Netzwerkexponierung. Azure Key Vault – der empfohlene Mechanismus zur Verwaltung von Verbindungsgeheimnissen – lässt sich ebenfalls über einen Private Endpoint anbinden.
ADF ist vollständig in Microsoft Entra ID (ehemals Azure Active Directory) integriert. Über rollenbasierte Zugriffskontrolle (RBAC) lassen sich granulare Berechtigungen für Pipeline-Autoren, Operatoren und Leser definieren. Audit-Logs dokumentieren alle Ausführungen und Konfigurationsänderungen lückenlos.
Für unternehmensweite Data Governance lässt sich Azure Data Factory mit Microsoft Purview verbinden. Purview erfasst dabei automatisch Datenherkunft (Data Lineage) für alle ADF-Pipelines – ein zentraler Anforderungspunkt in regulierten Branchen.
Azure Data Factory ist eine ausgereifte, produktionserprobte Wahl für Unternehmen, die Daten aus heterogenen Quellen in der Cloud orchestrieren wollen – insbesondere wenn sie bereits auf das Azure-Ökosystem setzen. Die Kombination aus visueller Entwicklungsumgebung, breiter Konnektorenauswahl, hybrider Anbindungsfähigkeit und serverloser Abrechnung macht ADF zu einem der vielseitigsten Datenintegrationsdienste am Markt.
ADF lohnt sich besonders, wenn…
Für neue Projekte, die von Anfang an die volle Breite der Microsoft-Analytics-Welt nutzen wollen, lohnt ein Blick auf die Data-Factory-Erfahrung in Microsoft Fabric: Sie baut auf denselben Konzepten auf, bietet aber eine modernere Oberfläche, mehr Konnektoren und tiefe KI-Integration.
Sie möchten wissen, ob Azure Data Factory die richtige Grundlage für Ihre Datenarchitektur ist – und wie ein konkreter Einstieg aussehen kann? Sprechen Sie uns an.