ALIs

kommt noch

AnswerTree

Klassifizierung anhand von Entscheidungsbäumen.

Das eigenständige Programm AnswerTree von der Firma SPSS unterstützt die Suche nach und das Definieren von wichtigen Gruppierungen von Fällen und wird daher manchmal als Alternative zu Cluster-Verfahren charakterisiert. Cluster-Verfahren gruppieren Fälle anhand von Profilen, das heißt: von Antwortmustern bestimmter Variablen. Die Baum-Verfahren von AnswerTree gruppieren Fälle anhand einer Zielvariablen und formulieren Regeln, die vorhersagende Variablen ("Prädiktoren") benutzen, um sowohl die Identifizierung dieser Gruppen als auch Vorhersagen über die Gruppenzugehörigkeit neuer Fälle zu ermöglichen. Das Programm erzeugt solche Klassifizierungssysteme in Form von Entscheidungsbäumen und zusammenfassenden Tabellen. Eingabedaten werden in Form von SPSS(.sav)-Datendateien erwartet.

AnswerTree unterstützt drei bekannte Verfahren:

  • CHAID und Exhausive CHAID ("Chi-Square Automatic Interaction Detection") erzeugen Bäume mit zwei oder mehr Einteilungen pro Ast.
  • C&RT ("Classification and Regression Trees") erzeugt nur binäre Entscheidungsbäume, erlaubt also nur zwei Enteilungen pro Ast.
  • auch QUEST ("Quick Unbiased Efficient Statistical Tree") erzeugt binäre Entscheidungsbäume.

Das Programm ist als Zusatzmodul zur SPSS-Campuslizenz des LRZ erhältlich.

An dieser Stelle kann nur ein kleiner Einblick in die Funktionalität des Programms gegeben werden: Das Handbuch enthält mehrere, leicht verständliche Erklärungen sowohl der Methodik als auch der Steuerung des Programms.

Als fiktives Beispiel nehmen wir eine pädagogische Studie, die untersucht, welche Kinder gute Noten bei der Abiturprüfung erhalten. Die Schule berechnet den Notenschnitt in den Kernfächern Deutsch, Englisch und Mathematik und definiert eine "gute Note" als "7 oder mehr Punkte". Die Zielvariable ist also die dichotome Gruppierung "weniger als 7 Punkte" bzw. "7 oder mehr Punkte". Aus folgenden beobachteten Variablen werden die gesucht, die am besten zwischen diesen beiden Gruppen unterscheiden: der Intelligenzquotient; ob Mutter oder Vater (oder beide) einen Universitätsabschluß haben; die Einstellung des Kindes zur Schule; die Schätzung der Schüler ihrer eigenen Berufschancen; sowie die Schätzung externer Experten der Berufschancen der Schüler.

Die Basis aller in AnswerTree enthaltenen Methoden ist rohe Gewalt (englisch: brute force): Es liegt kein zugrundegelegtes Modell vor, das angepasst werden muss – vielmehr werden alle Prädiktoren und ihre Zusammenhänge mit der Zielvariablen erschöpfend untersucht.

Unser Beispiel verdeutlicht diesen Vorgang: Zunächst untersucht das Programm die Zielvariablen und fasst sie in einem ersten Knoten zusammen:

Die Variable (SPSS-Variablenetikett: Erfolg?) teilt die Stichprobe in zwei Teile: Die eine Hälfte der Stichprobe (25 Fälle) weist Noten kleiner 7, die andere Hälfte Noten größer/gleich 7 auf. Dieser erste Knoten wird als "Wurzel" des zu erzeugenden Entscheidungsbaumes bezeichnet. Das Programm sucht nun nach Variablen, die zwischen diesen beiden Gruppen am besten unterscheiden ("am besten" heißt hier: Anhand eines Chi-Quadrat-Kriteriums, das an dieser Stelle nicht näher diskutiert wird.)

Lassen wir diesen Entscheidungsbaum um eine Stufe wachsen:

 

Drei weitere Knoten (Zweige) werden erzeugt: Das Programm identifiziert den IQ als beste Variable zur Erklärung der Trennung zwischen erfolgreichen und -losen Schülern:

Im linken Knoten dieses neuen Asts sehen wir, dass die Schüler dieser Gruppe einen IQ von 82 bis 104 (präziser: bis 103,999...) hatten; und dass alle 10 (100%) Schüler Noten < 7 erreichten. Für diese Schüler konnte also der IQ-Wert ihre Gruppenzugehörigkeit perfekt bestimmen. Dieser "Zweig" (Knoten) enthält 20% der Stichprobe.

Der mittlere Knoten dieses Asts schließt 22 (44%) Schüler mit ein, wovon 14 (63,64%) Noten kleiner 7; 8 (36,36%) Noten größer/gleich 7 bekamen: Hier ist die Unterscheidung zwischen den beiden Zielgruppen nicht optimal.

Der rechte Knoten enthält 18 (36%) der Schüler und unterscheidet zwar nicht perfekt aber recht ordentlich zwischen den beiden Zielgruppen: 17 (94,44%) der Schüler dieses Zweigs erhielten Noten größer/gleich, lediglich ein einziger Schüler eine Note kleiner 7.

Lassen wir den Baum um einen weiteren Ast wachsen: 

Die linken und rechten Knoten des ersten (IQ-)Astes sind nicht mehr einteilbar, der mittlere aber wohl. AnswerTree sucht unter den noch verbleibenden Prädiktoren die für diese 22 Schüler beste Vorhersage. In diesem Fall findet das Programm keine kontinuierliche, sondern eine dichotome kategorielle Variable, die das Bildungsniveau der Eltern beschreibt (mit bzw. ohne Universitätsabschluss). Die 10 Schüler, deren Eltern keinen Uni-Abschluss hatten (20% der Gesamtstichrobe), hatten alle (100%) eine Note weniger 7. Bei den 12 Schülern, deren Eltern einen Universitätsabschluss hatten (24% der Gesamtstichrobe), ist das Bild weniger deutlich: Ein Drittel (33,33%, d.h. 4 Schüler) bekamen eine Note kleiner 7, die restlichen zwei Drittel (66,67%, d.h. 8 Schüler) erreichten eine Note von 7 oder mehr Punkten.

Diese immer noch nur undeutliche Gruppe ist so klein (lediglich 12 Schüler), dass wir den Baum nicht weiter wachsen lassen.

AnswerTree erzeugt einige zusammenfassende Tabellen, die bei der Interpretation des Ergebnisbaumes hilfreich sind. Dazu benötigt man zunächst den Baumplan ("TreeMap"), der die Nummerierung der verschiedenen Knoten enthält:

Unter dem Begriff Gains (Informationsgewinn) wird die Güte der Vorhersage verstanden. Die Gains-Tabelle enthält eine node-by-node- (Knoten-mal-Knoten-) Zusammenfassung dieser Güte. Die Überschrift dieser Tabelle


informiert, dass die Zielvariable (Target variable) Erfolg? und deren Antwortkategorie Note >= 7 gewählt wurde: die Personen, die eine Abiturnote größer/gleich 7 erreicht haben. Nun wird Knoten für Knoten beschrieben, wie gut diese Zielgruppe identifiziert werden konnte:

Betrachten Sie die erste Zeile dieser Tabelle, die Statistiken zum Knoten 3 enthält: 18 Personen (36% der Gesamtstichprobe) sind im Knoten 3 zusammengefasst. 17 davon wurden als der Zielgruppe zugehörig identifiziert, das sind 68% der gesamten Zielgruppe (die 25 Schüler mit Noten unter 7). Unter Gain (%) steht der Prozentantail der Fälle dieses 3. Knoten, die der Zielgruppe gehören: (17 / 18 ) × 100 = 94,444%. Der Index (%) vergleicht die Zusammensetzung dieses Knoten mit der der gesamten Stichprobe: man teilt also Gain (%) durch den Prozentsatz der Zielgruppe (Note >= 7) im Wurzelknoten: (94.444 / 50) × 100 = 188,889%.

Unter dem Begriff Risk (Risiko) werden die Fehlklassifizierungen des gefundenen Modells dargestellt:

Diese Kreuztabelle vergleicht die Zugehörigkeiten jeder Person laut dem Modell (Predicted Category in den Reihen der Tabelle) mit denen, die in der Tat beobachtet wurden (Actual Category in den Spalten). Inspizieren wir wieder den Knoten 3 aus dem ersten Ast der Baumdarstellung, der den IQ als Trennvariablen benutzte:

Hier sind die 18 Fälle beschrieben, die einen IQ zwischen 121 und 140,9999 lieferten. Unsere Zielkategorie (Note >= 7) haben 17 dieser Fälle erreicht, sodass der IQ diese Kategorie ziemlich erfolgreich identifizieren kann. Ein Fall jedoch wurde fehlklassifiziert, der (trotz seines relativ hohen IQs) eine Abi-Note weniger 7 schreiben konnte. Die Kreuztabelle fasst solche Fehlklassifikationen für das gesamte Modell zusammen.

Betrachten Sie die Zeile Predicted Category, Note < 7 (ohne Abi-Erfolg): Rechts unter Total sieht man, dass 20 Personen vom Modell als erfolglos identifiziert wurden. Inspizieren wir nun die Spalte Actual Category, Note < 7: Unten unter Total sieht man, dass in der Tat 25 erfolglose Fälle beobachtet wurden. Einzelheiten findet man im Körper der Tabelle: Die Zahl 5 zeigt die Anzahl erfolglose Fälle, die vom Modell als erfolgreich klassifiziert wurden. Das Risk Estimate (geschätztes Risiko) enthält die geschätzte Wahrscheinlichkeit einer Fehlklassifizierung: das Risiko von 0,1 zeigt, dass 10% der Fälle durch unser Modell fehlklassifiziert wurden.

Es entsteht also ein Modell unserer Daten, das besagt: Wenn wir zwischen Schülern mit guten oder schlechten Noten unterscheiden wollen, können wir dies am besten anhand des IQ: Schüler mit einem IQ unter 104 haben schlechte, Schüler mit einem IQ über 121 fast alle gute Noten. Für Schüler mit einem IQ von 104 bis 121,999... muss die Bildung der Eltern hinzugezogen werden, um ein zumindest teilweise brauchbare Trennung zu erreichen: Schüler dieser IQ-Gruppe mit Eltern ohne Universitätsabschluss haben alle schlechte Noten. Für die, deren Eltern einen Universitätsabschluss haben, ist die Lage weniger deutlich.

Vorsicht mit der Interpretation dieser Ergebnisse! Wir haben lediglich unsere Stichprobe beschrieben und auf dieser Basis ein mögliches Entscheidungsmodell entdeckt. Es wäre nach einer solchen Studie unverantwortlich, das Modell als Entscheidungskriterium für andere Schüler anzuwenden – zum Beispiel, um Kinder für eine Privatschule auszuwählen, die gute Chancen auf Erfolg beim Abitur haben werden.

AnswerTree bietet jedoch zwei Validierungsverfahren an, die der Absicherung der Ergebnisse dienen und die Frage der Verallgemeinerung der Ergebnisse auf andere, üblicherweise größere Stichproben zu beantworten versuchen. Im Falle unseres Beispiels interessieren wir uns doch weniger für eine Beschreibung der Kinder, die wir beobachtet haben, und vielmehr dafür, in wie weit unsere Ergebnisse bei Kindern im Allgemeinen gelten. Der Ansatz bei beiden Verfahren ist derselbe: Ein Modell wird auf der Basis einer Teilstichprobe entwickelt und bei den restlichen, noch nicht untersuchten Fällen überprüft.

Die erste Methode (Partitionierung) teilt die gesamte Stichprobe in zwei Teilen. Man lässt dann Lösungen für beide Substichproben rechnen und vergleicht die Ergebnisse, vor allem die Risk- und Gain-Schätzungen beider Lösungen. AnswerTree bietet keine Möglichkeit an, diese Unterschiede statistisch zu untermauern.

Die zweite Methode (Kreuzvalidierung) teilt die Stichprobe in mehreren Teilen. Die gesamte Stichprobe wird wiederholt untersucht, jeweils ohne eine bestimte Teilstichprobe: Zunächst ohne die erste, dann ohne die zweite und so weiter. Bei jeder Lösung wird das Risiko der Fehlklassifizierung anhand der jeweils fehlenden Stichprobe untersucht. Das Kreuzvalidierungsrisiko für die gesamte Tabelle wird dann als Mittelwert dieser einzelnen Risiken geschätzt:

Auch hier fehlt ein statistischer Test der Signifikanz dieser Unterschiede.

 

Literatur

  1. SPSS, Inc. (2001) AnswerTree 3.0 User's Guide. Chicago: SPSS Inc.
  2. SPSS, Inc. (2001) AnswerTree 3.0 Benutzerhandbuch. Chicago: SPSS Inc.