Was ist Data-Mining?
Data-Mining ist eine computerunterstützte Technik, die in der Analyse genutzt wird, um große Mengen an Daten zu verarbeiten und zu erkunden. Mit den Instrumenten und Methoden des Data-Mining können Organisationen versteckte Muster und Beziehungen in ihren Daten aufdecken. Data-Mining transformiert Rohdaten in praktisches Wissen. Firmen nutzen dieses Wissen, um Probleme zu lösen, die zukünftigen Auswirkungen von Geschäftsentscheidungen zu analysieren und ihre Profitmargen zu vergrößern.
Was bedeutet der Begriff Data-Mining?
„Data-Mining“ ist eine falsche Bezeichnung, denn das Ziel des Data-Mining ist nicht die Extraktion oder das Mining der Daten selbst. Stattdessen ist bereits eine große Menge an Daten vorhanden, aus denen Data-Mining eine Bedeutung oder wertvolles Wissen extrahiert. Der typische Prozess der Datenerfassung, -speicherung, -analyse und -auswertung wird im Folgenden skizziert.
- Bei der Datenerfassung werden Daten aus verschiedenen Quellen wie Kundenfeedback, Zahlungen und Bestellungen erfasst.
- Data Warehousing ist der Prozess der Speicherung dieser Daten in einer großen Datenbank oder einem Data Warehouse.
- Bei der Datenanalyse werden die Daten mithilfe komplexer Software und Algorithmen weiterverarbeitet, gespeichert und analysiert.
- Data-Mining ist ein Zweig der Datenanalyse oder eine Analysestrategie, die dazu dient, verborgene oder bisher unbekannte Muster in Daten zu finden.
Warum ist Data-Mining wichtig?
Data-Mining ist ein entscheidender Bestandteil jeder erfolgreichen Analyseinitiative. Unternehmen können den Prozess der Wissensentdeckung nutzen, um das Vertrauen ihrer Kunden zu stärken, neue Einnahmequellen zu erschließen und ihre Kunden an sich zu binden. Effektives Data-Mining hilft bei verschiedenen Aspekten der Unternehmensplanung und des Betriebsmanagements. Nachfolgend finden Sie einige Beispiele dafür, wie verschiedene Branchen Data-Mining einsetzen.
Telekommunikation, Medien und Technologie
Vertikale Branchen mit hohem Wettbewerbsdruck wie Telekommunikation, Medien und Technologie nutzen Data-Mining, um den Kundenservice zu verbessern, indem sie Muster im Kundenverhalten erkennen. So könnte ein Unternehmen beispielsweise die Bandbreitennutzung analysieren und maßgeschneiderte Service-Upgrades oder Empfehlungen anbieten.
Banking und Versicherung
Finanzdienstleister können Data-Mining-Anwendungen nutzen, um komplexe Probleme in den Bereichen Betrug, Compliance, Risikomanagement und Kundenabwanderung zu lösen. So können Versicherungsunternehmen beispielsweise die optimale Preisgestaltung für ein Produkt ermitteln, indem sie die bisherige Produktleistung mit den Preisen der Wettbewerber vergleichen.
Bildung
Bildungsanbieter können Data-Mining-Algorithmen einsetzen, um Studenten zu testen, den Unterricht anzupassen und das Lernen mit Spielen zu gestalten. Ein einheitlicher, datengestützter Überblick über die Fortschritte der Studenten kann Lehrkräften helfen, die Bedürfnisse der Studenten zu erkennen und sie besser zu unterstützen.
Herstellung
Fertigungsdienstleistungen können Data-Mining-Techniken nutzen, um Echtzeit- und prädiktive Analysen für die Gesamteffektivität der Anlagen, das Serviceniveau, die Produktqualität und die Effizienz der Lieferkette zu erstellen. Zum Beispiel können Hersteller historische Daten nutzen, um den Verschleiß von Produktionsmaschinen vorherzusagen und die Wartung zu planen. Auf diese Weise können sie Produktionspläne optimieren und Ausfallzeiten reduzieren.
Einzelhandel
Einzelhandelsunternehmen verfügen über große Kundendatenbanken mit Rohdaten über das Kaufverhalten ihrer Kunden. Data-Mining kann diese Daten verarbeiten, um relevante Erkenntnisse für Marketingkampagnen und Verkaufsprognosen abzuleiten. Durch genauere Datenmodelle können Einzelhandelsunternehmen den Verkauf und die Logistik optimieren und so die Kundenzufriedenheit erhöhen. So kann Data-Mining beispielsweise beliebte Saisonprodukte aufdecken, die im Voraus auf Lager gelegt werden können, um Engpässe in letzter Minute zu vermeiden.
Wie funktioniert das Data-Mining?
Der Cross-Industry Standard Process for Data Mining (CRISP-DM) ist ein hervorragender Leitfaden für den Start des Data-Mining-Prozesses. CRISP-DM ist sowohl eine Methodik als auch ein Prozessmodell, das branchen-, tool- und anwendungsneutral ist.
- Als Methodik beschreibt es die typischen Phasen eines Data-Mining-Projekts, skizziert die Aufgaben, die in jeder Phase anfallen, und erläutert die Beziehungen zwischen diesen Aufgaben.
- Als Prozessmodell bietet CRISP-DM einen Überblick über den Lebenszyklus von Data-Mining.
Was sind die sechs Phasen des Data-Mining-Prozesses?
Mithilfe der flexiblen CRISP-DM-Phasen können Datenteams je nach Bedarf zwischen den Phasen hin- und herwechseln. Auch Softwaretechnologien können einige dieser Aufgaben übernehmen oder sie unterstützen.
1. Geschäftsverständnis
Der Datenwissenschaftler oder Data-Miner beginnt mit der Festlegung der Projektziele und des Projektumfangs. Er arbeitet mit Geschäftsinteressenten zusammen, um bestimmte Informationen zu ermitteln.
- Probleme, die angegangen werden müssen
- Projektbeschränkungen oder Einschränkungen
- Die geschäftlichen Auswirkungen möglicher Lösungen
Er verwendet diese Informationen dann, um Data-Mining-Ziele zu definieren und die für die Wissensentdeckung erforderlichen Ressourcen zu ermitteln.
2. Datenverständnis
Sobald sie das Geschäftsproblem verstanden haben, beginnen Datenwissenschaftler mit der vorläufigen Analyse der Daten. Sie sammeln Datensätze aus verschiedenen Quellen, erhalten Zugriffsrechte und erstellen einen Datenbeschreibungsbericht. Der Bericht enthält die Datentypen, die Menge und die Hardware- und Softwareanforderungen für die Datenverarbeitung. Sobald das Unternehmen ihren Plan genehmigt hat, beginnen sie mit der Untersuchung und Überprüfung der Daten. Sie manipulieren die Daten mit grundlegenden statistischen Techniken, bewerten die Datenqualität und wählen einen endgültigen Datensatz für die nächste Phase aus.
3. Datenaufbereitung
Data-Miner verbringen die meiste Zeit mit dieser Phase, da Data-Mining-Software qualitativ hochwertige Daten benötigt. Geschäftsprozesse sammeln und speichern Daten aus anderen Gründen als dem Mining, und Data-Miner müssen sie verfeinern, bevor sie sie für die Modellierung verwenden können. Die Datenaufbereitung umfasst die folgenden Prozesse.
Daten bereinigen
Behandeln Sie zum Beispiel fehlende Daten, Datenfehler, Standardwerte und Datenkorrekturen.
Daten integrieren
Kombinieren Sie zum Beispiel zwei unterschiedliche Datensätze, um den endgültigen Zieldatensatz zu erhalten.
Daten formatieren
Konvertieren Sie zum Beispiel Datentypen oder konfigurieren Sie Daten für die verwendete Bergbautechnologie.
4. Datenmodellierung
Data-Miner geben die vorbereiteten Daten in die Data Mining-Software ein und untersuchen die Ergebnisse. Dazu können sie aus mehreren Data-Mining-Techniken und -Tools wählen. Sie müssen auch Tests schreiben, um die Qualität der Data-Mining-Ergebnisse zu bewerten. Um die Daten zu modellieren, können Datenwissenschaftler:
- Die Modelle für Machine Learning (ML) auf kleineren Datensätzen mit bekannten Ergebnissen trainieren
- Das Modell verwenden, um unbekannte Datensätze weiter zu analysieren
- Die Data-Mining-Software anpassen und sie neu konfigurieren, bis die Ergebnisse zufriedenstellend sind
5. Auswertung
Nach der Erstellung der Modelle beginnen die Data-Miner damit, diese an den ursprünglichen Geschäftszielen zu messen. Sie teilen die Ergebnisse mit Geschäftsanalysten und sammeln Feedback. Das Modell könnte die ursprüngliche Frage gut beantworten oder neue und bisher unbekannte Muster zeigen. Data-Miner können das Modell ändern, das Geschäftsziel anpassen oder die Daten erneut überprüfen, je nach Feedback des Unternehmens. Kontinuierliche Bewertung, Feedback und Änderungen sind Teil des Prozesses der Wissensentdeckung.
6. Bereitstellung
Während des Einsatzes verwenden andere Beteiligte das Arbeitsmodell, um Business Intelligence zu generieren. Der Datenwissenschaftler plant den Einführungsprozess, zu dem auch die Einweisung in die Modellfunktionen, die kontinuierliche Überwachung und die Wartung der Data-Mining-Anwendung gehören. Geschäftsanlalysten verwenden die Anwendung, um Berichte für das Management zu erstellen, Ergebnisse mit Kunden zu teilen und Geschäftsprozesse zu verbessern.
Welche Techniken gibt es für Data-Mining?
Data-Mining-Techniken stammen aus verschiedenen Bereichen des Lernens, die sich überschneiden, darunter statistische Analyse, Machine Learning (ML) und Mathematik. Im Folgenden finden Sie einige Beispiele.
Assoziationsregel-Mining
Bei der Suche nach Assoziationsregeln geht es darum, Beziehungen zwischen zwei verschiedenen, scheinbar nicht miteinander verbundenen Datensätzen zu finden. Wenn-dann-Anweisungen zeigen die Wahrscheinlichkeit einer Beziehung zwischen zwei Datenpunkten. Datenwissenschaftler messen die Ergebnisgenauigkeit anhand von Unterstützungs- und Vertrauenskriterien. Die Unterstützung misst, wie häufig die verwandten Elemente im Datensatz vorkommen, während Vertrauen angibt, wie oft eine Wenn-Dann-Aussage richtig ist.
Wenn Kunden zum Beispiel einen Artikel kaufen, kaufen sie oft auch einen zweiten, damit verbundenen Artikel. Einzelhändler können mit Hilfe von Assoziationsanalysen vergangener Käufe das Interesse eines neuen Kunden ermitteln. Sie verwenden Data-Mining-Ergebnisse, um die empfohlenen Bereiche von Online-Shops zu füllen.
Klassifizierung
Die Klassifizierung ist eine komplexe Data-Mining-Technik, bei der der ML-Algorithmus darauf trainiert wird, Daten in verschiedene Kategorien einzuteilen. Sie verwendet statistische Methoden wie Entscheidungsbäume und Nächste-Nachbarn-Methoden, um die Kategorie zu identifizieren. Bei all diesen Methoden ist der Algorithmus mit bekannten Datenklassifizierungen vorprogrammiert, um den Typ eines neuen Datenelements zu erraten.
Analysten können die Data-Mining-Software zum Beispiel anhand von markierten Bildern von Äpfeln und Mangos trainieren. Mit einer gewissen Genauigkeit kann die Software dann vorhersagen, ob ein neues Bild ein Apfel, eine Mango oder eine andere Frucht ist.
Clustering
Beim Clustering werden mehrere Datenpunkte auf der Grundlage ihrer Ähnlichkeiten gruppiert. Sie unterscheidet sich von der Klassifizierung, da sie die Daten nicht nach bestimmten Kategorien unterscheiden kann, sondern Muster in ihren Ähnlichkeiten finden kann. Das Ergebnis des Data-Mining ist eine Reihe von Clustern, bei denen sich jede Sammlung von anderen Gruppen unterscheidet, die Objekte in den einzelnen Clustern jedoch in gewisser Weise ähnlich sind.
Zum Beispiel kann die Clusteranalyse bei der Marktforschung helfen, wenn Sie mit multivariaten Daten aus Umfragen arbeiten. Marktforscher verwenden die Clusteranalyse, um Verbraucher in Marktsegmente einzuteilen und die Beziehungen zwischen verschiedenen Gruppen besser zu verstehen.
Sequenz- und Pfadanalyse
Data-Mining-Software kann auch nach Mustern suchen, bei denen eine bestimmte Reihe von Ereignissen oder Werten zu späteren Ereignissen führt. Sie kann eine gewisse Variation in den Daten erkennen, die in regelmäßigen Abständen oder in der Ebbe und Flut der Datenpunkte im Laufe der Zeit auftritt.
Ein Unternehmen könnte zum Beispiel mit Hilfe der Pfadanalyse feststellen, dass die Verkaufszahlen bestimmter Produkte kurz vor den Feiertagen in die Höhe schnellen oder dass das wärmere Wetter mehr Besucher auf seine Website bringt.
Welche Arten von Data-Mining gibt es?
Abhängig von den Daten und dem Zweck des Minings kann Data Mining verschiedene Zweige oder Spezialisierungen haben. Sehen wir uns nachstehend einige davon an.
Process Mining
Process Mining ist ein Zweig des Data Mining, der darauf abzielt, Geschäftsprozesse zu entdecken, zu überwachen und zu verbessern. Es extrahiert Wissen aus Ereignisprotokollen, die in Informationssystemen verfügbar sind. Es hilft Unternehmen, zu sehen und zu verstehen, was in diesen Prozessen Tag für Tag passiert.
E-Commerce-Unternehmen haben zum Beispiel viele Prozesse, wie Beschaffung, Verkauf, Zahlungen, Inkasso und Versand. Wenn Sie Ihre Beschaffungsdatenprotokolle auswerten, sehen Sie vielleicht, dass die Liefertreue Ihrer Lieferanten bei 54 % liegt oder dass 12 % der Lieferanten ständig zu früh liefern. Sie können diese Informationen nutzen, um ihre Lieferantenbeziehungen zu optimieren.
Textmining
Textmining oder Text-Data-Mining ist der Einsatz von Data-Mining-Software zum Lesen und Verstehen von Texten. Datenwissenschaftler verwenden Textmining, um Wissen in schriftlichen Ressourcen wie Websites, Büchern, E-Mails, Rezensionen und Artikeln zu finden.
Ein digitales Medienunternehmen könnte zum Beispiel Textmining einsetzen, um Kommentare zu seinen Online-Videos automatisch zu lesen und die Bewertungen der Zuschauer als positiv oder negativ einzustufen.
Prädiktives Mining
Prädiktives Data-Mining nutzt Business Intelligence, um Trends vorherzusagen. Es hilft Unternehmensleitern, die Auswirkungen ihrer Entscheidungen auf die Zukunft des Unternehmens zu untersuchen und effektive Entscheidungen zu treffen.
Ein Unternehmen könnte zum Beispiel Daten über frühere Produktrückgaben betrachten, um ein Garantiesystem zu entwerfen, das nicht zu Verlusten führt. Mithilfe von prädiktivem Mining werden sie die potenzielle Anzahl der Rückgaben im kommenden Jahr vorhersagen und einen einjährigen Garantieplan erstellen, der den Verlust bei der Festlegung des Produktpreises berücksichtigt.
Wie kann AWS mit Data Mining helfen?
Amazon SageMaker ist eine führende Data-Mining-Softwareplattform. Es unterstützt Data-Miner und Entwickler bei der Vorbereitung, Entwicklung, dem Training und der Bereitstellung hochwertiger Machine-Learning-Modelle (ML). Es enthält verschiedene Tools für den Data-Mining-Prozess.
- Amazon SageMaker Data Wrangler verkürzt die Zeit, die für die Aggregation und Vorbereitung von Daten für das Mining benötigt wird, von Wochen auf Minuten.
- Amazon SageMaker Studio bietet eine einzige, webbasierte visuelle Benutzeroberfläche, über die Datenwissenschaftler ML-Entwicklungsschritte ausführen können, was die Produktivität von Datenwissenschaftsteams erhöht. SageMaker Studio bietet vollständigen Zugriff, Kontrolle und Einblick in alle Schritte, wenn Datenwissenschaftler Modelle erstellen, trainieren und bereitstellen.
- Verteilte Trainingsbibliotheken verwenden Partitionierungsalgorithmen, um große Modelle und Trainingsdatensätze für die Modellierung automatisch aufzuteilen.
- Amazon SageMaker Debugger optimiert ML-Modelle durch die Erfassung von Trainingsmetriken in Echtzeit und sendet Warnungen, wenn Anomalien entdeckt werden. Dies hilft, ungenaue Modellvorhersagen sofort zu korrigieren.
Machen Sie Ihre ersten Schritte, indem Sie noch heute ein kostenloses AWS-Konto erstellen.
Data-Mining mit AWS – nächste Schritte
Sie erhalten sofort Zugriff auf das kostenlose Kontingent von AWS.
Beginnen Sie mit der Entwicklung mit AWS in der AWS-Managementkonsole.