Microsoft Fabric Datenvirtualisierung: Direct Lake, Import und DirectQuery im Praxisvergleich
- Silja Ziegler
- Lesedauer: 3 Minuten
Wahrscheinlich kennen Sie die Situation: Die Datenmengen in Ihrem Unternehmen wachsen stetig, während gleichzeitig schnelle, flexible und möglichst aktuelle Analysen erwartet werden. Klassische BI-Architekturen stoßen hier oft an ihre Grenzen – insbesondere, wenn große Datenmengen, Echtzeitanforderungen und moderne Datenplattformen zusammenkommen.
Genau hier setzt die Datenvirtualisierung an. Mit Plattformen wie Microsoft Fabric entstehen neue Möglichkeiten, Daten zentral zu verwalten und gleichzeitig effizient für Analysen bereitzustellen. In Kombination mit Microsoft Power BI stehen dafür verschiedene Zugriffsmodi zur Verfügung.
In diesem Beitrag vergleiche ich die drei zentralen Modelle Import, DirectQuery und Direct Lake. Neben den technischen Unterschieden zeige ich Ihnen auch anhand von Praxisbeispielen, wann welcher Ansatz sinnvoll ist – und wo die Datenmodellierung in der jeweiligen Architektur stattfindet.
Unterschiede, Modellierung und Einsatzszenarien
1. Import-Modus: Modellierung direkt in Power BI
Der Import-Modus ist der klassische und nach wie vor am häufigsten genutzte Ansatz in Power BI. Dabei werden Daten aus den Quellsystemen vollständig in das Datenmodell von Microsoft Power BI geladen und im sogenannten VertiPaq-Speicher komprimiert gespeichert.
Ein zentraler Vorteil dieses Ansatzes ist die umfangreiche Modellierung direkt innerhalb von Power BI. Entwickler und Analysten können dort das komplette semantische Modell erstellen.
Typische Modellierungsschritte sind:
- Aufbau eines Sternschemas
- Definition von Beziehungen zwischen Tabellen
- Erstellung von Measures mit DAX
- Erstellung von Hierarchien und KPIs
- Berechnete Spalten und Tabellen
Da die Daten lokal im Modell gespeichert sind, können Berechnungen besonders schnell ausgeführt werden.
Vorteile:
- Sehr hohe Abfragegeschwindigkeit
- Vollständige Modellierungsfunktionen in Power BI
- Leistungsfähige DAX-Berechnungen
- Sehr gute Performance für komplexe Reports
Nachteile:
- Daten müssen regelmäßig aktualisiert werden
- Höherer Speicherbedarf
- Daten sind nicht in Echtzeit verfügbar
Praxisbeispiel:
Ein Vertriebsunternehmen erstellt wöchentliche und monatliche Management-Reports. Die Daten werden einmal täglich aus dem Data Warehouse importiert. Das gesamte Datenmodell – inklusive Beziehungen, Measures und KPIs – wird direkt in Microsoft Power BI aufgebaut. Dadurch lassen sich komplexe Analysen sehr performant umsetzen.
2. DirectQuery: Echtzeitdaten und flexible Modellkombinationen
Beim DirectQuery-Modus verbleiben die Daten vollständig im Quellsystem. Jede Interaktion in einem Bericht löst eine Abfrage an die zugrunde liegende Datenbank aus. Auch hier erstellt Power BI ein semantisches Modell. Das bedeutet, dass Beziehungen zwischen Tabellen weiterhin in Power BI definiert werden können.
Möglich sind beispielsweise:
- Beziehungen zwischen Tabellen
- Measures mit DAX
- Hierarchien und Filter
- Row-Level Security
Allerdings gibt es Einschränkungen: Viele Berechnungen werden vom Modell in SQL-Abfragen übersetzt und im Quellsystem ausgeführt. Daher sollten komplexe Transformationen möglichst bereits im Data Warehouse oder in der Datenbank umgesetzt werden.
Typischerweise liegt deshalb ein Großteil der Modellierungslogik im Quellsystem, zum Beispiel in:
- Data-Warehouse-Schemata
- vorbereiteten SQL-Views
- aggregierten Tabellen
Ein weiterer wichtiger Vorteil ist die Möglichkeit, Composite Models zu verwenden. Dabei können innerhalb eines semantischen Modells DirectQuery- und Import-Tabellen kombiniert werden.
So lassen sich beispielsweise:
- große Faktentabellen per DirectQuery anbinden
- kleinere Dimensionstabellen im Import-Modus speichern
Diese Tabellen können anschließend über Beziehungen miteinander verbunden werden.
Vorteile:
- Keine Datenreplikation notwendig
- Daten sind nahezu in Echtzeit verfügbar
- Sehr große Datenmengen können abgefragt werden
- Flexible Kombination von Import- und DirectQuery-Tabellen
Nachteile:
- Performance abhängig vom Quellsystem
- Eingeschränkte DAX-Funktionalität
- Komplexe Modelle können langsam werden
- Zusätzliche Last auf dem Quellsystem: Da jede Berichtinteraktion eine direkte Datenbankabfrage auslöst, kann es bei vielen Nutzern oder komplexen Visualisierungen zu einer hohen Abfragelast auf der Datenquelle kommen
Praxisbeispiel:
Ein Logistikunternehmen betreibt ein Dashboard zur Überwachung von Lieferketten. Die große Faktentabelle mit Sendungsdaten wird per DirectQuery aus einer Datenbank abgefragt. Kleinere Dimensionstabellen wie Kalender- oder Produktdaten werden dagegen im Import-Modus gespeichert. In Microsoft Power BI werden anschließend Beziehungen zwischen diesen Tabellen definiert, sodass ein gemeinsames semantisches Modell entsteht.
3. Direct Lake: Modellierung und semantisches Modell in Microsoft Fabric
Mit Microsoft Fabric wurde ein neuer Zugriffstyp eingeführt: Direct Lake. Dieser kombiniert Eigenschaften von Import und DirectQuery. Die Daten werden direkt aus einem Lakehouse gelesen, ohne dass sie zuvor in Power BI importiert werden müssen. Gleichzeitig arbeitet die Engine ähnlich schnell wie beim Import-Modus, da sie direkt auf optimierte Datenformate im Data Lake zugreift. Ein wesentlicher Unterschied liegt in der Datenmodellierung und im semantischen Modell.
Bei Direct Lake erfolgt die Datenaufbereitung typischerweise innerhalb von Microsoft Fabric, beispielsweise im:
- Lakehouse
- Data Warehouse
- Data Engineering Layer
Rohdaten werden dort mit Pipelines, Notebooks oder Dataflows vorbereitet und strukturiert.
Anschließend wird das semantische Modell direkt in Microsoft Fabric erstellt. Dieses Modell definiert beispielsweise:
- Tabellenstrukturen
- Beziehungen
- Measures und Businesslogik
Microsoft Power BI greift anschließend direkt auf dieses semantische Modell in Fabric zu, anstatt selbst ein vollständiges Modell aufzubauen. Power BI fungiert in diesem Szenario hauptsächlich als Visualisierungs- und Analyseoberfläche.
Vorteile:
- Sehr hohe Performance ähnlich dem Import-Modus
- Keine klassischen Datenaktualisierungen notwendig
- Direkter Zugriff auf Daten im Data Lake
- Skalierbarkeit für sehr große Datenmengen
- Einheitliche Plattform für Data Engineering, Modellierung und Analytics
Nachteile:
- Funktioniert primär innerhalb der Fabric-Plattform
- Erfordert eine Lakehouse-Architektur
- Abhängig von ausreichender Fabric-Kapazität: Abfragen werden direkt auf der Plattform ausgeführt und können bei vielen Nutzern oder großen Datenmodellen entsprechende Kapazitäten benötigen
- Nicht alle Funktionen des klassischen Import-Modus sind vollständig verfügbar
- Datenmodell und Datenlayout im Lake (z. B. Delta-Tabellen) müssen gut strukturiert sein, da sich ein ungünstiges Datenlayout direkt auf die Abfrageperformance auswirkt
- Stärkere Plattformbindung: Der Modus ist eng mit der Fabric-Architektur verzahnt, wodurch ein späterer Plattformwechsel aufwendiger werden kann
Praxisbeispiel:
Ein E-Commerce-Unternehmen speichert Milliarden von Transaktions- und Webtracking-Daten in einem Lakehouse innerhalb von Microsoft Fabric. Die Daten werden dort mit Data Pipelines vorbereitet und anschließend in einem semantischen Modell in Fabric strukturiert. Analysten greifen mit Microsoft Power BI direkt auf dieses Modell zu und erstellen Analysen zu Verkaufszahlen, Marketingkampagnen und Kundenverhalten.
Vergleich der drei Ansätze
|
MODUS |
DATENHALTUNG |
PERFORMANCE |
AKTUALITÄT |
ORT DER MODELLIERUNG |
TYPISCHE NUTZUNG |
|
Import |
Power BI Speicher |
Sehr hoch |
Periodisch |
hauptsächlich in Power BI |
Klassisches BI-Reporting |
|
DirectQuery |
Quellsystem |
Mittel bis abhängig vom System |
Echtzeit |
Mischung aus Power BI und Data Warehouse |
Operative Dashboards |
|
Direct Lake |
Data Lake |
Sehr hoch |
Nahe Echtzeit |
primär in Microsoft Fabric |
Lakehouse-Analytics |
Empfehlungen für die Praxis
Die Wahl des richtigen Modus hängt stark von Datenvolumen, Architektur und Analyseanforderungen ab.
Best Practices:
- Import nutzen, wenn maximale Performance und umfangreiche Modellierung in Power BI benötigt werden
- DirectQuery einsetzen, wenn Daten nahezu in Echtzeit benötigt werden oder sehr große Datenbanken abgefragt werden
- Direct Lake bevorzugen, wenn bereits eine Lakehouse- oder Fabric-Architektur vorhanden ist
In vielen modernen BI-Architekturen entstehen zudem hybride Modelle, bei denen mehrere Zugriffsmodi kombiniert werden – etwa historische Daten im Import-Modell und aktuelle Transaktionen über DirectQuery.
Fazit
Die drei Zugriffsmodi Import, DirectQuery und Direct Lake bieten unterschiedliche Strategien, Daten für Analysen bereitzustellen.
Beim Import-Modus erfolgt die Datenmodellierung hauptsächlich direkt in Microsoft Power BI. Beim DirectQuery-Modus kann zwar weiterhin ein Modell in Power BI erstellt werden, jedoch liegt ein Großteil der Logik im zugrunde liegenden Data Warehouse oder Datenbanksystem. Beim Direct Lake-Modus werden Datenaufbereitung, Modellierung und das semantische Modell dagegen typischerweise direkt in Microsoft Fabric erstellt, während Power BI hauptsächlich für Berichte und Visualisierungen genutzt wird.
Diese Architekturentscheidung hat erheblichen Einfluss auf Performance, Skalierbarkeit und Wartbarkeit moderner Analytics-Plattformen.
Sie möchten herausfinden, welcher Ansatz für Ihre Datenplattform und Ihre Reports in Microsoft Power BI am besten geeignet ist? Wir unterstützen Sie gerne bei der Konzeption moderner Analytics-Architekturen mit Microsoft Fabric – von der Strategie über die Implementierung bis hin zur Optimierung bestehender Lösungen. Bei Interesse nehmen Sie gerne Kontakt mit mir auf – ich freue mich auf den Austausch.
