Was ist der Unterschied zwischen Datenintegration und ETL?

Das Hauptunterschied zwischen Datenintegration und ETL ist das Datenintegration ist der Prozess des Kombinierens von Daten aus verschiedenen Quellen, um den Benutzern eine einheitliche Sicht zu bieten, während ETL der Prozess des Extrahierens, Umwandelns und Ladens von Daten in einer Data Warehouse-Umgebung ist.

Datenintegration bezieht sich auf das Kombinieren von Daten aus unterschiedlichen Quellen zu aussagekräftigen und wertvollen Informationen. Daher liefert eine vollständige Datenintegrationslösung vertrauenswürdige Daten aus verschiedenen Quellen. Dies ist ein wichtiger Prozess, wenn mehrere Systeme zusammengeführt und Anwendungen konsolidiert werden, um eine einheitliche Ansicht der Daten zu ermöglichen. Auf der anderen Seite ist ETL ein Prozess, dem gefolgt wird, bevor Daten in einem Data Warehouse gespeichert werden. Dabei werden Daten extrahiert, transformiert und geladen.

Wichtige Bereiche

1. Was ist Datenintegration?
      - Definition, Funktionalität
2. Was ist ETL?
     - Definition, Funktionalität
3. Was ist der Unterschied zwischen Datenintegration und ETL?
     - Vergleich der wichtigsten Unterschiede

Schlüsselbegriffe

Big Data, Datenintegration, Data Warehouse, ETL

Was ist Datenintegration?

Datenintegration ist der Prozess des Kombinierens von Daten aus unterschiedlichen Quellen, um den Benutzern eine einheitliche Sicht zu bieten. Die Datenintegration variiert jedoch von Anwendung zu Anwendung. In einer kommerziellen Anwendung können zwei Organisationen ihre Datenbanken zusammenführen. In einer wissenschaftlichen Anwendung, beispielsweise in einem Bioinformatik-Projekt, können die Forschungsergebnisse aus verschiedenen Repositories zu einer Einheit zusammengefasst werden.

Abbildung 1: Datenintegration

Eine häufige Anwendung der Datenintegration besteht auch in der Analyse der großen Datenmengen, für die große Datenmengen in Data Warehouses gemeinsam genutzt werden müssen. Insgesamt ist die Datenintegration ein schwieriger Prozess. Darüber hinaus ist eine ausreichende Allgemeinheit erforderlich, um verschiedene Integrationssysteme wie relationale Datenbanken, XML-Datenbanken usw. zu berücksichtigen.

Was ist ETL?

Ein Data Warehouse ist ein System, das Daten analysiert, Berichte erstellt und visualisiert. Die Manager, Datenanalysten und Geschäftsanalysten können diese Daten analysieren, um Geschäftsentscheidungen zu treffen. Es gibt drei Schritte, bevor Sie Daten in einem Data Warehouse speichern. Es heißt ETL. Es umfasst das Extrahieren, Umwandeln und Laden von Daten in das Data Warehouse.

In einer Organisation gibt es verschiedene Datenquellen. Der erste Schritt ist das Extrahieren von Daten aus diesen verschiedenen Quellen. Die Datenextraktion sollte sich jedoch nicht auf die Leistung oder die Antwortzeit der ursprünglichen Datenquelle auswirken. Vollständige Extraktion und teilweise Extraktion sind zwei Methoden zum Extrahieren von Daten.

Der zweite Schritt ist die Transformation. Hier werden die extrahierten Daten bereinigt, abgebildet und auf nützliche Weise konvertiert. Datenauswahl, Mapping und Datenbereinigung sind einige grundlegende Transformationstechniken. Darüber hinaus gibt es auch fortgeschrittene Datentransformationstechniken. Sie sind Standardisierung, Zeichensatzkonvertierung und Codierung, Aufteilen und Zusammenführen von Feldern, Zusammenfassung und Deduplizierung.

Der letzte Schritt besteht darin, die aufbereiteten Daten abzurufen und im Data Warehouse zu speichern. Es heißt Laden. Hier kann das Laden ein Anfangsladen, ein inkrementelles Laden oder eine vollständige Aktualisierung sein. Beim ersten Laden wird die Datenbank zum ersten Mal geladen. Inkrementelles Laden ist das periodische Anwenden der Änderungen, während die vollständige Aktualisierung darin besteht, die Daten in einer oder mehreren Tabellen zu löschen und mit neuen Daten neu zu laden.  

Unterschied zwischen Datenintegration und ETL

Definition

Datenintegration ist der Prozess, bei dem Daten, die sich in verschiedenen Quellen befinden, kombiniert werden, und Benutzern eine einheitliche Sicht auf sie geben. ETL ist eine dreistufige Funktion zum Extrahieren, Transformieren und Laden, die vor dem Speichern von Daten im Data Warehouse ausgeführt wird. Daher ist dies der Hauptunterschied zwischen Datenintegration und ETL.

Verwendungszweck

Wissenschaftliche und kommerzielle Anwendungen nutzen die Datenintegration, während Data Warehousing eine Anwendung ist, die ETL verwendet. Dies ist ein weiterer Unterschied zwischen Datenintegration und ETL.

Fazit

Der Unterschied zwischen Datenintegration und ETL besteht darin, dass Datenintegration der Prozess des Kombinierens von Daten in verschiedenen Quellen ist, um den Benutzern eine einheitliche Sicht zu bieten, während ETL der Prozess des Extrahierens, Umwandelns und Ladens von Daten in einer Data Warehouse-Umgebung ist.

Referenz:

1. "Datenintegration". Wikipedia, Wikimedia Foundation, 4. Oktober 2018, hier verfügbar.
2. "Datenintegration". Datenintegration | Info zur Datenintegration, hier verfügbar.
3. vtakkar. 3 - ETL-Lernprogramm | Extrahieren Sie Transformieren und Laden, Vikram Takkar, 8. September 2015, hier verfügbar.

Bildhöflichkeit:

1. "Datenintegration (KAFKA) (Fall 3)" Von Carlos.Franco2018 - Eigene Arbeit (CC BY-SA 4.0) über Commons Wikimedia
2. "Datawarehouse-Referenzarchitektur" Von DataZoomers - (CC BY-SA 4.0) über Commons Wikimedia