6 Min. Lesezeit

Was ist die Azure Data Factory? Funktionen, Einsatz und Vorteile

Was ist die Azure Data Factory? Funktionen, Einsatz & Vorteile | prodot
13:46

Wer Daten aus verschiedenen Quellen zusammenführen, transformieren und in der Cloud orchestrieren möchte, stößt früher oder später auf die Azure Data Factory – Microsofts verwalteten Cloud-Datenintegrationsdienst. Doch was steckt dahinter, wie funktioniert ADF genau, und für wen ist der Einsatz sinnvoll?

In diesem Beitrag erklären wir die Kernkonzepte, zeigen typische Anwendungsfälle und beleuchten, wie sich Azure Data Factory zu Alternativen wie AWS Glue oder Apache Airflow verhält – und welche Rolle es in der Microsoft-Fabric-Strategie spielt.

Was ist Azure Data Factory?

Azure Data Factory (ADF) ist ein vollständig verwalteter, serverloser Cloud-Dienst von Microsoft für Datenintegration im großen Maßstab. Der Dienst ermöglicht es, ETL- (Extract, Transform, Load) und ELT-Prozesse (Extract, Load, Transform) zu entwerfen, zu orchestrieren und zu überwachen – ohne eigene Serverinfrastruktur betreiben zu müssen.

Kurz gesagt: Azure Data Factory ist die Antwort auf die Frage, wie Unternehmen strukturierte und unstrukturierte Daten aus Dutzenden unterschiedlicher Quellen – von On-Premises-Datenbanken über SaaS-Anwendungen bis hin zu Streaming-Diensten – zusammenführen, aufbereiten und in Analytics-Plattformen oder Data Lakes überführen können.

ADF ist seit 2015 allgemein verfügbar und hat sich zu einem der meistgenutzten Datenintegrationsdienste in der Microsoft Azure-Welt entwickelt. Laut aktuellen Marktdaten setzen heute mehr als 5.500 Unternehmen weltweit auf Azure Data Factory – mit einem Marktanteil von rund 6,7 % im Segment der Datenspeicher- und Integrationswerkzeuge.

prodot-softwareengineering-mobile

Die Kernkomponenten von Azure Data Factory

Azure Data Factory basiert auf sechs zentralen Konzepten, die zusammenspielen, um Daten-Pipelines zu definieren und auszuführen:

1. Pipelines

Pipelines sind die logische Klammer für eine Gruppe von Aktivitäten, die gemeinsam eine Aufgabe erfüllen. Sie definieren die Abfolge oder Parallelisierung von Verarbeitungsschritten – zum Beispiel: Daten aus einer SQL-Datenbank lesen, transformieren und in einen Azure Blob Storage schreiben.

2. Activities (Aktivitäten)

Aktivitäten sind die konkreten Verarbeitungsschritte innerhalb einer Pipeline. ADF unterscheidet zwischen drei Typen:

  • Datenbewegungsaktivitäten – z. B. die Copy Activity zum Übertragen von Daten zwischen Quelle und Ziel
  • Datentransformationsaktivitäten – z. B. Mapping Data Flows, Spark-Aktivitäten oder Azure Machine Learning-Aktivitäten
  • Kontrollflussaktivitäten – z. B. bedingte Verzweigungen, Schleifen oder das Warten auf externe Ereignisse

3. Datasets

Datasets beschreiben die Datenstrukturen in den angebundenen Datenspeichern – sie zeigen, wo und in welchem Format Daten vorliegen. Ein Dataset verweist immer auf einen Linked Service und beschreibt die eigentliche Datenressource (z. B. eine bestimmte Tabelle oder Datei).

4. Linked Services

Linked Services sind die Verbindungszeichenketten zu externen Ressourcen – vergleichbar mit Verbindungskonfigurationen in klassischen ETL-Werkzeugen. Sie können auf Datenspeicher (SQL Server, Oracle, Blob Storage, Salesforce etc.) oder auf Rechenressourcen (HDInsight, Azure Databricks) verweisen.

5. Integration Runtime (IR)

Die Integration Runtime ist die Ausführungsumgebung für Pipelines. ADF bietet drei Varianten:

  • Azure IR – vollständig von Microsoft verwaltet, für Cloud-zu-Cloud-Szenarien
  • Self-hosted IR – läuft auf eigener Infrastruktur, für On-Premises-Anbindungen
  • Azure-SSIS IR – zum Rehosting bestehender SSIS-Pakete in der Cloud

6. Trigger

Trigger steuern den Ausführungszeitpunkt von Pipelines. Unterstützt werden zeitbasierte Schedule-Trigger (Cron-ähnlich), Tumbling-Window-Trigger für feste Zeitfenster sowie ereignisbasierte Trigger, die auf Storage-Events oder benutzerdefinierte Ereignisse reagieren.

prodot-software-duisburg

Wichtige Funktionen im Überblick

Über 90 vorgefertigte Konnektoren

Azure Data Factory bietet mehr als 90 eingebaute, wartungsfreie Konnektoren ohne Aufpreis. Dazu gehören Anbindungen an Big-Data-Quellen wie Amazon S3 oder HDFS, Enterprise-Datenbankplattformen wie Oracle Exadata oder Teradata, SaaS-Anwendungen wie Salesforce oder ServiceNow sowie sämtliche nativen Azure-Dienste.

Visueller Pipeline-Designer

Die browserbasierte Authoring-Oberfläche ermöglicht es, Pipelines per Drag-and-Drop zu entwerfen – ohne Programmierkenntnisse. Vorgefertigte Templates für gängige ETL/ELT-Muster beschleunigen den Einstieg. Ein integrierter Debug-Modus erlaubt das interaktive Testen direkt im Designer.

Mapping Data Flows

Mapping Data Flows sind visuell gestaltete Datentransformationen, die im Hintergrund auf verwalteten Spark-Clustern ausgeführt werden – ohne dass Spark-Kenntnisse erforderlich sind. Unterstützt werden Joins, Aggregationen, Pivotierungen, bedingte Splits und abgeleitete Spalten. Über den Inspect-Tab lassen sich Metadaten, Spaltenzahlen und Datentypen jederzeit einsehen.

ETL und ELT

ADF unterstützt beide Integrationsmuster: Beim klassischen ETL werden Daten vor dem Laden transformiert. Beim ELT-Ansatz – der für moderne Cloud-Data-Warehouses wie Azure Synapse Analytics oder Microsoft Fabric optimalen Variante – werden Daten zunächst roh geladen und erst im Zielsystem transformiert, was die Rechenkapazitäten des Ziels optimal nutzt.

CI/CD-Integration und Git-Support

Azure Data Factory unterstützt nativ Azure DevOps und GitHub. Pipelines lassen sich versionieren, in Feature-Branches entwickeln und über bewährte CI/CD-Prozesse in Produktionsumgebungen überführen.

Typische Anwendungsfälle für Azure Data Factory

Datenmigration in die Cloud

duisburg-prodot-gmbh-softwareengineeringADF ist das Standardwerkzeug für die Migration großer Datenmengen aus On-Premises-Systemen oder anderen Cloud-Plattformen nach Azure. Typische Szenarien umfassen die Migration von Big-Data-Workloads aus Amazon S3 oder HDFS sowie die EDW-Migration von Oracle Exadata, Netezza, Teradata oder Amazon Redshift – auch im Petabyte-Maßstab bei minimalem Downtime-Bedarf.

Data-Lake-Befüllung und -Konsolidierung

Viele Unternehmen nutzen ADF, um Daten aus unterschiedlichsten Quellen – IoT-Geräte, Cloud-Dienste, On-Premises-Systeme, Streaming-Quellen – automatisiert in einen zentralen Data Lake zu überführen. Durch Partitionierung und integriertes Azure Data Catalog-Management lässt sich die Auffindbarkeit der Daten gezielt verbessern.

Cloud Analytics und Business Intelligence

ADF dient als Datenpipeline-Schicht für analytische Plattformen: Operative Systeme liefern Rohdaten, die ADF aufbereitet und in Azure Data Lake Storage oder ein Data Warehouse überführt – wo Data Scientists und Analysten weiterarbeiten können. Die enge Integration mit Power BI ermöglicht aktuelle Dashboards auf Basis dieser Daten.

Hybride und Multi-Cloud-Szenarien

Mit der Self-hosted Integration Runtime lassen sich On-Premises-Datenbanken sicher anbinden, ohne öffentliche Endpunkte freigeben zu müssen. Die breite Konnektorenauswahl ermöglicht darüber hinaus echte Multi-Cloud-Integrationen zwischen AWS, GCP und Azure.

Azure Data Factory vs. Alternativen

Azure Data Factory ist nicht das einzige Cloud-ETL-Werkzeug auf dem Markt. Ein Überblick der wichtigsten Alternativen:

 

Werkzeug

Typ

Besonderheiten & Stärken

Azure Data Factory

Managed Cloud (Azure)

90+ Konnektoren, visueller Designer, hybride Szenarien, tief in Azure-Ökosystem integriert, Low-Code-Ansatz

AWS Glue

Managed Cloud (AWS)

Serverlos, Spark-basiert, automatische Schema-Erkennung, ideal für reine AWS-Umgebungen, Code-First-Ansatz (Python/Scala)

Google Cloud Dataflow

Managed Cloud (GCP)

Apache Beam-basiert, stark bei Echtzeit-Streaming, portable Pipelines (Java, Python, Go), ideal für Real-Time-Szenarien

Talend

Plattformunabhängig

Über 1.000 Konnektoren, grafische Oberfläche, zugänglich ohne Programmierkenntnisse, breites SaaS/DB/Big-Data-Ökosystem

Apache Airflow

Open Source

Python-basiert, maximale Flexibilität und Anpassbarkeit, Community-getrieben, ideal für Teams mit starken Entwickler-Ressourcen

 

ADF punktet besonders dort, wo Unternehmen bereits auf das Azure-Ökosystem setzen, hybride On-Premises/Cloud-Szenarien benötigen und einen Low-Code-Ansatz bevorzugen. Wer hingegen vollständige Kontrolle auf Code-Ebene und Cloud-Unabhängigkeit benötigt, sollte auch Airflow oder Cloud-native Alternativen der anderen Anbieter in Betracht ziehen.

Azure Data Factory und Microsoft Fabric

Microsoft hat mit Microsoft Fabric eine neue, umfassende Analytics-Plattform eingeführt, die die Datenintegrationsfähigkeiten von Azure Data Factory mit einer modernen SaaS-Oberfläche und KI-Integration kombiniert. Die Data-Factory-Erfahrung in Microsoft Fabric gilt dabei als die nächste Generation von ADF.

Was bedeutet das konkret?

  • Fabric Data Factory bietet über 170 Konnektoren (gegenüber 90+ in ADF) und kombiniert die Power-Query-Benutzerfreundlichkeit mit der Skalierbarkeit von ADF
  • KI-gestützte Features wie Copilot für Data Factory ermöglichen das Erstellen und Bearbeiten von Pipelines per natürlicher Sprache
  • Daten liegen nativ in OneLake – dem zentralen Data Lake von Microsoft Fabric – was Datenisolation zwischen Diensten strukturell auflöst
  • Microsoft empfiehlt für neue Projekte offiziell den Einstieg über Microsoft Fabric statt über Azure Data Factory

Hinweis zur Roadmap

Azure Data Factory bleibt ein vollständig unterstützter Dienst und erhält weiterhin Updates. Bestehende ADF-Workloads können schrittweise nach Microsoft Fabric migriert werden. Für neue Datenintegrationsprojekte im Azure-Ökosystem empfiehlt Microsoft heute den Einstieg über die Data-Factory-Erfahrung in Microsoft Fabric.

 

Kosten und Lizenzmodell

software-entwicklung-duisburg-prodotAzure Data Factory folgt einem nutzungsbasierten Abrechnungsmodell – es fallen keine Fixkosten für stehende Infrastruktur an. Die Kosten setzen sich aus mehreren Komponenten zusammen:

  • Activity Runs: Abrechnung pro Pipelineausführung und Activity-Aufruf
  • Data Integration Units (DIU): Recheneinheit für Copy Activities auf der Azure Integration Runtime – kombiniert CPU, Arbeitsspeicher und Netzwerkressourcen. Standardkonfiguration: 4 DIU (konfigurierbar von 2 bis 256). Preis: ca. 0,25 USD pro DIU-Stunde
  • vCore-Stunden: Für rechenintensive Transformationen über Mapping Data Flows
  • Monitoring & Management: Abrechnung für Überwachungs- und Verwaltungsoperationen

Der serverlose Ansatz bedeutet: Es wird nur für tatsächlich genutzte Ressourcen gezahlt. Microsofts offizieller Preisrechner für Azure Data Factory hilft dabei, die Kosten anhand konkreter Workload-Parameter vorab zu schätzen.

Sicherheit und Governance

Azure Data Factory bietet eine Reihe von Sicherheitsfunktionen, die für Enterprise-Einsätze ausgelegt sind:

Managed Virtual Network

Die Azure Integration Runtime kann in einem verwalteten virtuellen Netzwerk betrieben werden. Alle Netzwerkverbindungen verlaufen ausschließlich über das Microsoft-Backbone – der Datenverkehr verlässt nie das öffentliche Internet. Das schützt vor Datenexfiltration und vereinfacht Compliance-Anforderungen.

Private Endpoints

Verwaltete Private Endpoints ermöglichen sichere Verbindungen zu unterstützten Datenspeichern und Azure-Diensten ohne öffentliche Netzwerkexponierung. Azure Key Vault – der empfohlene Mechanismus zur Verwaltung von Verbindungsgeheimnissen – lässt sich ebenfalls über einen Private Endpoint anbinden.

Zugriffssteuerung und Audit

ADF ist vollständig in Microsoft Entra ID (ehemals Azure Active Directory) integriert. Über rollenbasierte Zugriffskontrolle (RBAC) lassen sich granulare Berechtigungen für Pipeline-Autoren, Operatoren und Leser definieren. Audit-Logs dokumentieren alle Ausführungen und Konfigurationsänderungen lückenlos.

Azure Purview-Integration

Für unternehmensweite Data Governance lässt sich Azure Data Factory mit Microsoft Purview verbinden. Purview erfasst dabei automatisch Datenherkunft (Data Lineage) für alle ADF-Pipelines – ein zentraler Anforderungspunkt in regulierten Branchen.

prodot-software-fuer-marktfuehrer

Fazit: Wann lohnt sich Azure Data Factory?

Azure Data Factory ist eine ausgereifte, produktionserprobte Wahl für Unternehmen, die Daten aus heterogenen Quellen in der Cloud orchestrieren wollen – insbesondere wenn sie bereits auf das Azure-Ökosystem setzen. Die Kombination aus visueller Entwicklungsumgebung, breiter Konnektorenauswahl, hybrider Anbindungsfähigkeit und serverloser Abrechnung macht ADF zu einem der vielseitigsten Datenintegrationsdienste am Markt.

ADF lohnt sich besonders, wenn…

  • …Daten aus On-Premises-Systemen und Cloud-Diensten zusammengeführt werden sollen
  • …ein Low-Code-Ansatz ohne tiefes Spark- oder Python-Wissen gewünscht ist
  • …bestehende SSIS-Pakete in die Cloud gehoben werden sollen
  • …Azure Synapse Analytics, Power BI oder Azure Machine Learning als Zielsysteme genutzt werden
  • …hohe Sicherheits- und Compliance-Anforderungen bestehen

Für neue Projekte, die von Anfang an die volle Breite der Microsoft-Analytics-Welt nutzen wollen, lohnt ein Blick auf die Data-Factory-Erfahrung in Microsoft Fabric: Sie baut auf denselben Konzepten auf, bietet aber eine modernere Oberfläche, mehr Konnektoren und tiefe KI-Integration.


Sie möchten wissen, ob Azure Data Factory die richtige Grundlage für Ihre Datenarchitektur ist – und wie ein konkreter Einstieg aussehen kann? Sprechen Sie uns an.

Sie haben Fragen?
Wir helfen Ihnen gerne weiter.

Microsoft Fabric vs. Databricks: Welche Datenplattform passt zu Ihnen?

1 Min. Lesezeit

Microsoft Fabric vs. Databricks: Welche Datenplattform passt zu Ihnen?

Wer heute eine moderne Datenplattform aufbaut, kommt an zwei Namen kaum vorbei: Microsoft Fabric und Databricks. Beide Plattformen versprechen eine...

Read More
Microsoft Fabric vs. Azure Synapse: Was ist der Unterschied?

1 Min. Lesezeit

Microsoft Fabric vs. Azure Synapse: Was ist der Unterschied?

Unternehmen, die sich mit Lösungen rund um Datenarchitektur und Business Intelligence im Microsoft-Ökosystem beschäftigen, stoßen früher oder später...

Read More
Microsoft Copilot einführen: Was Unternehmen vorher wissen müssen

1 Min. Lesezeit

Microsoft Copilot einführen: Was Unternehmen vorher wissen müssen

Viele Unternehmen starten die Einführung von Microsoft Copilot mit großer Begeisterung – und stoßen wenige Wochen später auf ungeklärte Lizenzfragen,...

Read More