Was ist der Unterschied zwischen Data Mining und Data Warehousing?

Der Hauptunterschied zwischen Data Mining und Data Warehousing ist der Data Mining ist der Prozess des Identifizierens von Mustern aus einer riesigen Datenmenge, während Data Warehousing der Prozess der Integration von Daten aus mehreren Datenquellen an einem zentralen Ort ist.

Beim Data Mining werden Muster in großen Datensätzen entdeckt. Es verwendet verschiedene Techniken wie Klassifizierung, Regression usw., um Geschäftsentscheidungen zu treffen. Andererseits ist Data Warehousing der Prozess des Extrahierens, Umwandelns und Ladens von Daten aus mehreren Datenquellen in das Data Warehouse. Data Mining-Techniken können auf ein Data Warehouse angewendet werden, um nützliche Muster zu ermitteln.

Wichtige Bereiche

1. Was ist Data Mining?
     - Definition, Funktionalität
2. Was ist Data Warehousing?
     - Definition, Funktionalität
3. Unterschied zwischen Data Mining und Data Warehousing
    - Vergleich der wichtigsten Unterschiede

Schlüsselbegriffe

Data Mining, Data Warehousing, Daten

Was ist Data Mining?

Beim Data Mining werden die Muster in einem großen Datensatz ermittelt. Mit anderen Worten, Data Mining extrahiert neue Muster und Beziehungen zwischen Datenentitäten. Die gewonnenen Daten sollten neu, korrekt und potenziell verwendbar sein.

Das Extrahieren nützlicher Informationen aus Daten umfasst mehrere Schritte. Der erste Schritt ist die Datenauswahl. Daten stammen aus mehreren Quellen und haben mehrere Formate. Daher werden alle Daten an einem einzigen Ort namens Data Warehouse integriert und gespeichert. Der zweite Schritt ist die Vorverarbeitung. Es beinhaltet Zusammenfassung, Normalisierung und Aggregation. Diese Transformationen helfen dabei, Daten für Data Mining geeignet zu machen. Der dritte Schritt ist das Data Mining. Es verwendet Techniken oder Algorithmen wie Clustering, Regression und Klassifizierung, um Muster der Daten zu extrahieren. Der vierte Schritt ist die Musterbewertung. Es überprüft die Genauigkeit der erhaltenen Ausgabe. Der letzte Schritt ist die Darstellung der Ergebnisse anhand von Diagrammen.

Abbildung 1: Data Mining

Die wichtigsten Techniken zum Durchführen von Data Mining sind die Erkennung von Anomalien, das Mining von Assoziationsregeln, das Clustering, die Klassifizierung und die Regression. Erstens hilft die Erkennung von Anomalien, ungewöhnliche Muster zu erkennen, um die Variation der Daten zu verstehen. Zweitens hilft das Assoziationsregel-Mining dabei, interessante Assoziationsmuster zwischen Variablen zu finden. Drittens identifiziert das Clustering Klassen in Daten, die einander ähnlich sind. Viertens identifiziert die Klassifizierung die Klassen, zu denen eine Beobachtung gehört. Schließlich helfen Regressionen, die Beziehung zwischen Variablen zu finden. Dies sind die wichtigsten Techniken, die beim Data Mining verwendet werden.

Was ist Data Warehousing?

In einer Unternehmensorganisation befinden sich Daten in verschiedenen Datenbanken. Zunächst werden Daten aus mehreren Quellen extrahiert und transformiert. Dann werden sie an einem zentralen Ort namens Data Warehouse geladen. Data Warehousing ist das Laden von Daten aus verschiedenen Datenquellen in ein Data Warehouse. Anschließend können verschiedene Strategien zur Analyse von Daten angewendet werden, um Endbenutzer dabei zu unterstützen, Geschäftsentscheidungen zu treffen. Darüber hinaus können die Daten im Data Warehouse in Data Marts unterteilt werden. Diese Data Marts enthalten Daten für eine bestimmte Gruppe von Benutzern. Zum Beispiel kann die Personalabteilung ihren Data Mart nutzen. Die Verkaufsabteilung kann das Verkaufs-Mart usw. verwenden.  

Abbildung 2: Data Warehouse

Data Warehouses sind themenorientiert, integriert, zeitvariant und nichtflüchtig. Ein Data Warehouse ist themenorientiert. Es vermittelt Wissen über ein Thema als den laufenden Betrieb. Es ist integriert, weil es Daten aus verschiedenen Datenquellen konsolidiert. Die Lagerdaten liefern Informationen zu einem bestimmten Zeitraum. Es ist also Zeitvariante. Schließlich bietet es keine Volatilität, da nach dem Laden von Daten in das Warehouse die Daten nicht gelöscht oder aktualisiert werden sollten. Kurz gesagt, Data Warehousing ist für Entscheidungen von Vorteil, die für die Organisation von Bedeutung sind.

Unterschied zwischen Data Mining und Data Warehousing

Definition

Data Mining ist das Auffinden von Mustern in großen Datensätzen, wobei Methoden an der Schnittstelle von maschinellem Lernen, Statistik und Datenbanksystemen verwendet werden. Data Warehousing ist der Prozess des Extrahierens, Umwandelns und Ladens von Daten aus mehreren Datenquellen an einem zentralen Ort, dem Data Warehouse.  

Verarbeiten

Beim Data Mining werden die Daten regelmäßig analysiert. Die Daten werden periodisch im Data Warehousing gespeichert.

Daten

Data Mining analysiert eine Datenprobe, während Data Warehousing eine riesige Datenmenge speichert.

Verwendungszweck

Data Mining erkennt Muster in Daten für eine bessere Entscheidungsfindung. Auf der anderen Seite bietet Data Warehousing einen Mechanismus, mit dem eine Organisation eine riesige Datenmenge speichern kann.

Fazit

Der Unterschied zwischen Data Mining und Data Warehousing besteht darin, dass Data Mining das Identifizieren von Mustern aus einer riesigen Datenmenge darstellt, während Data Warehousing das Integrieren von Daten aus mehreren Datenquellen an einem zentralen Ort ist. In der Regel führen Ingenieure Data Warehousing aus, und Geschäftsbenutzer führen Data Mining mit Hilfe von Ingenieuren durch.

Referenz:

1. Data Mining mit R | Data Mining-Lernprogramm für Anfänger | R Tutorial für Anfänger | Edureka, Edureka !, 8. November 2017, hier verfügbar.
2. Data Warehouse-Lernprogramm für Anfänger | Data Warehouse-Konzepte | Data Warehousing | Edureka, Edureka !, 22. Juni 2017, hier verfügbar.

Bildhöflichkeit:

1. "Data Mining" von Arbeck - Eigene Arbeit (CC BY 3.0) über Commons Wikimedia
2. "Data Warehouse-Übersicht" Von Hhultgren - Eigene Arbeit (Public Domain) über Commons Wikimedia