Erstellung von einem Entscheidungsbaum

Dieser Onlinerechner erstellt einen Entscheidungsbaum von einem Übungssatz unter Verwendung von Information Gain Metrik

Der untenstehende Rechner analysiert einen Satz von Übungsbeispielen und erstellt dann einen Entscheidungsbaum, unter Verwendung von Information Gain als Kriterium. Wenn Sie nicht sicher sind, worum es hier geht, finden Sie unter dem Rechner eine Erklärung über Entscheidungsbäume.

Bitte beachten Sie folgendes: Die Übungsbeispiele sollten als csv Liste eingebeben werden, und mit Semikolons getrennt werden. Die erste Zeile ist die Beschriftung für jede Spalte, angefangen mit Attribut / Merkmal-Beschriftung, gefolgt von der Klassenbeschriftung. Alle anderen Zeilen sind Beispiele. Die Standarddaten des Rechners ist ein berühmtes Beispiel vom „Tennis-Spiel“ Entscheidungsbaum.

PLANETCALC, Erstellung von einem Entscheidungsbaum

Erstellung von einem Entscheidungsbaum

Entscheidungsbaum
 

Entscheidungsbaum

Entscheidungsbäume sind eine Methode zur automatischen Klassifikation von Datenobjekten und damit zur Lösung von Entscheidungsproblemen. Sie werden außerdem zur übersichtlichen Darstellung von formalen Regeln genutzt. Ein Entscheidungsbaum besteht immer aus einem Wurzelknoten und beliebig vielen inneren Knoten sowie mindestens zwei Blättern. Dabei repräsentiert jeder Knoten eine logische Regel und jedes Blatt eine Antwort auf das Entscheidungsproblem..1

Schauen wir uns mal die Standarddaten des Rechners an.

Attribute die analysiert werden:

  • Vorschau: Sonnig/Bewölkt/Regen
  • Luftfeuchtigkeit: Hoch/Normal
  • Windig: Wahr/Falsch
  • Temperatur: Heiß/Mild/Kühl

Klassenbeschriftung ist:

  • Spielen: Ja/Nein

Durch das Analysieren jedes Attributs, sollte der Algorithmus die folgende Frage beantworten: „Sollen wir Tennis spielen?“ Um so wenig Schritte wie möglich zu benötigen, sollte man die besten Entscheidungsattribut für jeden Schritt wählen – die uns das Maximum von Information geben kann. Dieses Attribut wird als erste Aufteilung genutzt werden. Der Prozess wird dann so weitergeführt, bis es keine Teilung mehr geben kann (nach einer Teilung sind alle restlichen Beispiele homogen, das heißt, man kann die Klassifizierung wählen), oder es gibt keine weiteren Attribute.

Der erstellte Entscheidungsbaum teilt sich zum ersten Mal für die „Vorschau“. Wenn die Antwort „Sonnig“ ist, dann wird das Attribut „Luftfeuchtigkeit“ überprüft. Wenn dann die Antwort „Hoch“ ist, dann gilt sofort „Nein“ zum „Spielen“. Wenn die Antwort “Normal” ist, gilt “Ja” für “Spielen”. Wenn die „Vorschau” “Bewölkt” ist, dann gilt sofort „Ja“ zum „Spielen“. Wenn die „Vorschau“ „Regen“ ist, muss das “Windig”-Attribut überprüft werden. Bitte beachten Sie, dass in diesem Beispiel das Attribut „Temperatur“ überhaupt nicht geprüft werden muss!

Sie können verschiedene Metriken als Teilungs-Kriterium verwenden, zum Beispiel Entropie (via Information Gain), Gini Koeffizient, Klassifikationsfehler. Dieser Rechner nutzt Information Gain.

Sie wundern sich eventuell, warum man einen Entscheidungsbaum benötigt, wenn man selber die Entscheidung für jede Kombination von Attributen treffen kann. Natürlich kann man das, aber selbst in diesem einfachen Beispiel, ist die Anzahl vom Möglichkeiten 3*2*2*3=36. Auf der anderen Seite benötigen wir nur eine kleinere Anzahl von Kombination (14 Beispiele) um den Algorithmus einzustellen (den Entscheidungsbaum zu erstellen), und alles wird automatisch berechnet. Das ist der Vorteil vom maschinellen Lernen. Natürlich gibt es viele Implikation bezüglich Überanpassung, Voreingenommenheit etc. Für mehr Informationen können Sie diesen Entscheidungsbaum Artikel auf Wikipedia lesen.

URL zum Clipboard kopiert
PLANETCALC, Erstellung von einem Entscheidungsbaum

Kommentare