Blog

Entscheidungsbäume

Entscheidungsbäume

Entscheidungsbäume können zum Lösen komplexerer Aufgaben verwendet werden.

Ein sehr mächtiges Werkzeug zum Behandeln komplexer Klassifikations- und Regressionsprobleme lässt sich erzeugen, indem mehrere Entscheidungsbäume generiert werden (ein Wald aus Entscheidungsbäumen) und ein Ensemblemittel aus den Ergebnissen dieser Bäume errechnet wird. Fachlich korrekt spricht man von einem Random Forest.

Wo kommt die Zufallskomponente ins Spiel und wieso benötigt man überhaupt eine Zufallskomponente in einem Random Forest?

Der letzte Teil dieser Frage lässt sich verhältnismäßig einfach beantworten. Um ein aussagekräftiges Ensemblemittel zu erhalten, wird eine große Anzahl (typische Werte bewegen sich zwischen 500 und 1500) an Entscheidungsbäumen benötigt. Als erster Schritt werden die Randbedingungen des Problems festgelegt:

  • Auswahl der Features anhand derer Entscheidungen getroffen werden sollten (im Beispiel mit dem Golfspieler waren das Wochentag, Wetter und Temperatur)
  • Die Größe des Entscheidungsbaum (im Falle des Golfspielers wurden die zwei Ergebnisse „auf dem Golfplatz“ und „nicht auf dem Golfplatz“ erwartet)
  • Festlegung der Baumtiefe (diese bezeichnet die Anzahl an Entscheidungsebenen und hatte im letzten Beispiel den Wert 4)

Würde man 1500 identische Bäume wachsen lassen wären natürlich auch die Ergebnisse identisch, was die Idee eines Ensemblemittels ad absurdum führe würde. Die zugrunde liegende Idee eines Random Forest ist es, durch zufällige Variationen der Eingangsdaten und der zugehörigen Entscheidungsmerkmale unterschiedliche Bäume zu erzeugen. Salopp gesprochen generiert man einen „Publikumsjoker“.

Unter der Voraussetzung einer ausreichenden Datenmenge wird der zu bearbeitende Datensatz in einen Trainings- und einen Testdatensatz aufgeteilt. Anschließend wird jeder einzelne Baum nach folgendem Schema erstellt und trainiert.

  • Eine zufällige Stichprobe wird aus dem Trainingsdatensatz entnommen
  • Aus der Gesamtzahl der Kriterien wird ebenfalls ein Teil entnommen (beispielsweise Wochentag oder Wetter) und zufällig auf die Entscheidungsebenen des Baumes verteilt
  • Beim ersten Durchlauf werden zufällige Splitkriterien (Ist der Wochentag ein Montag?; Ist das Wetter sonnig?) vergeben
  • Die Stichprobe wird mit dem so entstandenen Baum analysiert und das Zwischenergebnis wird mit dem, in der Trainingsphase bekannten, Ergebnis verglichen.
  • Anhand des Fehlers werden die Splitkriterien nachjustiert
  • Die Stichprobe wird einer Klasse zugeordnet und „zurückgelegt“, eine neue Stichprobe wird entnommen und das Training beginnt erneut

Nachdem alle Bäume trainiert sind, wird der gesamte Random Forest mit Hilfe des Testdatensatzes evaluiert.

Weitere Artikel