Decision Trees sind ein überwachter Lernalgorithmus, der häufig beim maschinellen Lernen verwendet wird. Hier erfahren Sie, was Sie wissen müssen.
Bäume sind eine häufige Analogie im Alltag. Bäume bestehen aus einer Kombination von Wurzeln, Stamm, Ästen und Blättern und symbolisieren oft Wachstum. Beim maschinellen Lernen ist ein Decision Trees ein Algorithmus, der sowohl Klassifizierungs- als auch Regressionsmodelle erstellen kann.
Der Decision Trees wird so genannt, weil er wie ein umgedrehter Baum an der Wurzel beginnt und sich verzweigt, um verschiedene Ergebnisse zu demonstrieren. Da maschinelles Lernen auf dem Konzept der Problemlösung basiert, helfen uns Decision Trees, diese Modelle zu visualisieren und die Art und Weise anzupassen, wie wir sie trainieren.
Hier erfahren Sie, was Sie über Decision Trees im maschinellen Lernen wissen müssen.
Was ist ein Decision Trees?
Ein Decision Trees ist ein überwachter Lernalgorithmus, der für Klassifizierungs- und Regressionsmodellierung verwendet wird. Regression ist eine Methode für prädiktive Modellierung, daher werden diese Bäume verwendet, um entweder Daten zu klassifizieren oder vorherzusagen, was als nächstes passieren wird.
Decision Trees sehen aus wie Flussdiagramme. Sie beginnen beim Stammknoten mit einer bestimmten Datenfrage, die zu Zweigen mit möglichen Antworten führt. Die Zweige führen dann zu (internen) Entscheidungsknoten , die weitere Fragen stellen, die zu weiteren Ergebnissen führen. Dies geht so lange weiter, bis die Daten einen so genannten Endknoten (oder „ Blattknoten “) erreichen und enden.
Beim maschinellen Lernen gibt es vier Hauptmethoden zum Trainieren von Algorithmen: überwachtes, unüberwachtes, bestärkendes Lernen und halbüberwachtes Lernen. Ein Decision Trees hilft uns zu visualisieren, wie ein überwachter Lernalgorithmus zu bestimmten Ergebnissen führt.
Warum ist ein Decision Trees beim maschinellen Lernen wichtig?
Decision Trees im maschinellen Lernen sind eine effektive Methode zur Entscheidungsfindung, da sie das Problem und alle möglichen Ergebnisse darlegen. Sie ermöglichen Entwicklern, die möglichen Konsequenzen einer Entscheidung zu analysieren, und wenn ein Algorithmus auf mehr Daten zugreift, kann er Ergebnisse für zukünftige Daten vorhersagen.
In diesem einfachen Decision Trees wird die Frage analysiert, ob man in den Supermarkt gehen soll, um Toilettenpapier zu kaufen oder nicht:
Beim maschinellen Lernen bieten Decision Trees Einfachheit und eine visuelle Darstellung der Möglichkeiten bei der Formulierung von Ergebnissen. Im Folgenden erklären wir, wie die beiden Arten von Decision Trees funktionieren.
Arten von Decision Trees im maschinellen Lernen
Decision Trees im maschinellen Lernen können entweder Klassifikationsbäume oder Regressionsbäume sein. Zusammen fallen beide Arten von Algorithmen in die Kategorie „Klassifikations- und Regressionsbäume“ und werden manchmal als CART bezeichnet. Ihre jeweiligen Rollen bestehen darin, zu „klassifizieren“ und „vorherzusagen“.
1. Klassifikationsbäume
Klassifikationsbäume bestimmen, ob ein Ereignis eingetreten ist oder nicht. Normalerweise ist das Ergebnis „Ja“ oder „Nein“.
Wir verwenden diese Art der Entscheidungsfindung häufig in der realen Welt. Hier sind einige Beispiele, die verdeutlichen, wie Decision Trees bei der Klassifizierung funktionieren:
Beispiel 1: So verbringen Sie Ihre Freizeit nach der Arbeit
Was Sie nach der Arbeit in Ihrer Freizeit tun, kann vom Wetter abhängen. Wenn es sonnig ist, können Sie sich entscheiden, ob Sie mit einem Freund picknicken, mit einem Kollegen etwas trinken gehen oder Besorgungen machen möchten. Wenn es regnet, entscheiden Sie sich vielleicht dafür, zu Hause zu bleiben und stattdessen einen Film anzusehen. Es gibt ein klares Ergebnis. In diesem Fall wird dies als „Ausgehen“ oder „Zuhausebleiben“ klassifiziert.
Beispiel 2: Wohneigentum nach Alter und Einkommen
In einem Klassifizierungsbaum wird der Datensatz entsprechend seiner Variablen aufgeteilt. Es gibt zwei Variablen, Alter und Einkommen, die bestimmen, ob jemand ein Haus kauft oder nicht. Wenn Trainingsdaten uns sagen, dass 70 Prozent der Menschen über 30 ein Haus gekauft haben, werden die Daten dort aufgeteilt, wobei das Alter der erste Knoten im Baum wird. Diese Aufteilung macht die Daten zu 80 Prozent „rein“. Der zweite Knoten befasst sich dann von dort aus mit dem Einkommen.
2. Regressionsbäume
Regressionsbäume hingegen sagen kontinuierliche Werte auf der Grundlage früherer Daten oder Informationsquellen voraus. Sie können beispielsweise den Benzinpreis vorhersagen oder ob ein Kunde Eier kaufen wird (einschließlich der Angabe, welche Eiersorte und in welchem Geschäft).
Bei dieser Art der Entscheidungsfindung geht es eher darum, Algorithmen zu programmieren, um auf der Grundlage bisherigen Verhaltens oder Trends vorherzusagen, was wahrscheinlich passieren wird.
Beispiel 1: Immobilienpreise in Colorado
Mithilfe einer Regressionsanalyse ließe sich der Preis eines Hauses in Colorado vorhersagen, der in einem Diagramm dargestellt wird. Das Regressionsmodell kann die Immobilienpreise der kommenden Jahre anhand von Datenpunkten der Preise der Vorjahre vorhersagen. Diese Beziehung ist eine lineare Regression, da mit einem weiteren Anstieg der Immobilienpreise zu rechnen ist. Maschinelles Lernen hilft uns dabei, bestimmte Preise basierend auf einer Reihe von Variablen vorherzusagen, die in der Vergangenheit zutrafen.
Beispiel 2: Bachelor-Absolventen im Jahr 2025
Mithilfe eines Regressionsbaums kann eine Universität vorhersagen, wie viele Bachelor-Studenten es im Jahr 2025 geben wird. In einem Diagramm kann man die Anzahl der Absolventen zwischen 2010 und 2022 darstellen. Wenn die Zahl der Hochschulabsolventen jedes Jahr linear ansteigt, kann mithilfe der Regressionsanalyse ein Algorithmus erstellt werden, der die Anzahl der Studenten im Jahr 2025 vorhersagt.
Classification and Regression Tree (CART) ist ein prädiktiver Algorithmus, der im maschinellen Lernen verwendet wird und auf Grundlage früherer Werte Vorhersagen für die Zukunft erstellt. Diese Decision Trees bilden den Kern des maschinellen Lernens und dienen als Grundlage für andere Algorithmen des maschinellen Lernens wie Random Forest, Bagged Decision Trees und Boosted Decision Trees.
Decision Trees-Terminologie
Die folgenden Begriffe tauchen im Zusammenhang mit maschinellem Lernen häufig auf und sind für den Einstieg in das maschinelle Lernen hilfreich:
- Stammknoten: Der oberste Knoten eines Decision Trees, der die gesamte Nachricht oder Entscheidung darstellt
- Entscheidungsknoten (oder interner Knoten): Ein Knoten innerhalb eines Decision Trees, bei dem der vorherige Knoten in zwei oder mehr Variablen verzweigt
- Blattknoten (oder Endknoten): Der Blattknoten wird auch als externer Knoten oder Endknoten bezeichnet, was bedeutet, dass er kein Kind hat. Er ist der letzte Knoten im Decision Trees und am weitesten vom Stammknoten entfernt.
- Aufteilen: Der Vorgang, einen Knoten in zwei oder mehr Knoten aufzuteilen. Dies ist der Teil, bei dem die Entscheidung in Variablen verzweigt wird.
- Beschneiden: Das Gegenteil von Aufteilen, also der Vorgang, den Baum durchzugehen und auf die wichtigsten Knoten oder Ergebnisse zu reduzieren.
Mehr lesen: Was ist der CCNA? Eine Netzwerkzertifizierung für Einsteiger
Lernen Sie maschinelles Lernen mit Coursera
Beginnen Sie Ihre Reise ins maschinelle Lernen mit Courseras erstklassiger Spezialisierung „ Überwachtes maschinelles Lernen: Regression und Klassifizierung“ , angeboten von DeepLearning.AI. Unter der Anleitung des KI-Visionärs Andrew Ng erstellen Sie maschinelle Lernmodelle in Python mithilfe der beliebten Bibliotheken NumPy und scikit-learn und trainieren überwachte maschinelle Lernmodelle für Vorhersagen (einschließlich Decision Trees!).