Informationsgewinn

Core idea

Overview

Der Informationsgewinn misst die Verringerung von Unsicherheit oder Entropie innerhalb eines Datensatzes, nachdem er anhand eines bestimmten Attributs aufgeteilt wurde. Er ist das primäre Kriterium, das von Algorithmen wie ID3 und C4.5 verwendet wird, um das beste Merkmal für die Aufteilung eines Knotens in einem Entscheidungsbaum zu bestimmen.

When to use: Wende diese Metrik beim Aufbau überwachter Lernmodelle an, um die Vorhersagekraft unabhängiger Variablen zu bewerten. Sie ist am wirksamsten bei kategorialen Zielgrößen, bei denen das Ziel darin besteht, die Klassenreinheit in den entstehenden Teilmengen zu maximieren.

Why it matters: Durch die Identifikation von Merkmalen mit dem höchsten Informationsgewinn können Modelle mit weniger Ebenen aufgebaut werden, was die Rechenkomplexität reduziert. Diese Effizienz hilft, Überanpassung zu vermeiden, und stellt sicher, dass die relevantesten Datenmuster beim Training priorisiert werden.

Symbols

Variables

IG = Info Gain, $H_{p}$ = Parent Entropy, $H_{c}$ = Child Entropy

IG

Info Gain

bits

H_{p}

Parent Entropy

bits

H_{c}

Child Entropy

bits

Walkthrough

Derivation

Formel: Informationsgewinn (Information Gain)

Der Informationsgewinn misst, wie stark die Unsicherheit (Entropie) durch das Aufteilen eines Datensatzes anhand eines Attributs reduziert wird, und dient als Leitfaden für die Konstruktion von Entscheidungsbäumen.

Ein Datensatz S wird durch Werte v des Attributs A in Teilmengen $S_{v}$ unterteilt.
Die Entropie H( $\cdot$ ) wird für die Klassenverteilung innerhalb jeder Teilmenge berechnet.

1

Nennen des Informationsgewinns für einen Split:

Subtrahieren der gewichteten durchschnittlichen Entropie nach dem Split von der ursprünglichen Entropie vor dem Split.

I G (S, A) = H (S) - v \in V a l u es (A) \sum \frac{∣ S _{v} ∣}{∣ S ∣} H (S_{v})

2

Wählen des besten Splits:

Das Attribut mit dem höchsten Informationsgewinn erzeugt die größte Reduzierung der Unsicherheit an diesem Knoten.

max I G (S, A) \Rightarrow best split

Note: Einige Algorithmen verwenden das Gain Ratio, um die Verzerrung gegenüber Attributen mit vielen Werten zu verringern.

Result

max I G (S, A) \Rightarrow best split

Source: Standard curriculum — Machine Learning (Decision Trees)

Visual intuition

Graph

Graph type: logarithmic

Why it behaves this way

Intuition

Stellen Sie sich eine gemischte Sammlung von Elementen (Elternknoten) vor, die basierend auf einem bestimmten Merkmal in kleinere, einheitlichere Gruppen (Kindknoten) sortiert wird, wobei der Informationsgewinn misst, um wie viel organisierter und weniger gemischt

Term

Die Verringerung der Unsicherheit oder Zufälligkeit eines Datensatzes, nachdem er basierend auf einem Attribut partitioniert wurde.

Ein höherer Informationsgewinn zeigt an, dass das Aufteilen des Datensatzes nach diesem Attribut die resultierenden Teilmengen im Hinblick auf ihre Zielklassen signifikant vorhersehbarer oder „reiner“ macht.

Term

Das anfängliche Maß an Unsicherheit oder Unreinheit (Entropie) im Datensatz, bevor eine Aufteilung erfolgt.

Gibt an, wie gemischt die Klassen im ursprünglichen Datensatz sind; ein höheres H(parent) bedeutet, dass die Klassen gleichmäßiger verteilt und somit unsicherer sind.

Term

Die gewichtete durchschnittliche Unsicherheit oder Unreinheit (Entropie) der Teilmengen, die nach der Aufteilung des Datensatzes nach einem bestimmten Attribut entstehen.

Gibt an, wie gemischt die Klassen in den resultierenden Teilmengen sind; ein niedrigeres H(children) bedeutet, dass die Teilmengen homogener und weniger unsicher sind.

Signs and relationships

- H(Kinder): Die Subtraktion von H(children) von H(parent) bedeutet, dass der Informationsgewinn die *Verringerung* der Entropie quantifiziert. Wir streben an, dass die Entropie der Kindknoten geringer ist als die des Elternknotens, sodass ein positiver Informationsgewinn eine nützliche Aufteilung anzeigt.

Free study cues

Insight

Canonical usage

Der Informationsgewinn ist ein dimensionsloser numerischer Wert, der zur Quantifizierung der Entropiereduktion innerhalb eines Datensatzes verwendet wird.

Dimension note

Der Informationsgewinn ist eine dimensionslose Größe, die aus der Differenz von Entropiewerten abgeleitet wird, welche selbst aus Wahrscheinlichkeiten berechnet werden.

One free problem

Practice Problem

Ein Datensatz hat eine anfängliche Entropie von 0.940 Bit. Nach der Aufteilung anhand eines bestimmten Merkmals beträgt die gewichtete durchschnittliche Entropie der Kindknoten 0.693 Bit. Berechne den Informationsgewinn.

Hint: Ziehe die Entropie der Kindknoten von der Entropie des Elternknotens ab.

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

Im Kontext von Auswahl einer Merkmalsaufteilung für einen Spam-Filter wird Informationsgewinn verwendet, um Messwerte in einen interpretierbaren Wert zu übersetzen. Das Ergebnis ist wichtig, weil es hilft, Modellverhalten, Algorithmuskosten oder Vorhersagequalität vor der Nutzung des Ergebnisses zu bewerten.

Study smarter

Tips

Stelle sicher, dass die Entropie der Kindknoten als gewichteter Durchschnitt auf Basis der Anzahl der Stichproben in jedem Zweig berechnet wird.
Beachte, dass der Informationsgewinn zugunsten von Attributen mit einer großen Anzahl unterschiedlicher Werte verzerrt sein kann.
Ein Gewinn von null zeigt an, dass die Aufteilung die Reinheit des Datensatzes überhaupt nicht verbessert.

Avoid these traps

Common Mistakes

Entropien addieren statt subtrahieren.
Logarithmusbasen vermischen.

Keep going

Related Formulas

Common questions

Frequently Asked Questions

Der Informationsgewinn misst, wie stark die Unsicherheit (Entropie) durch das Aufteilen eines Datensatzes anhand eines Attributs reduziert wird, und dient als Leitfaden für die Konstruktion von Entscheidungsbäumen.

Wende diese Metrik beim Aufbau überwachter Lernmodelle an, um die Vorhersagekraft unabhängiger Variablen zu bewerten. Sie ist am wirksamsten bei kategorialen Zielgrößen, bei denen das Ziel darin besteht, die Klassenreinheit in den entstehenden Teilmengen zu maximieren.

Durch die Identifikation von Merkmalen mit dem höchsten Informationsgewinn können Modelle mit weniger Ebenen aufgebaut werden, was die Rechenkomplexität reduziert. Diese Effizienz hilft, Überanpassung zu vermeiden, und stellt sicher, dass die relevantesten Datenmuster beim Training priorisiert werden.

Entropien addieren statt subtrahieren. Logarithmusbasen vermischen.

Im Kontext von Auswahl einer Merkmalsaufteilung für einen Spam-Filter wird Informationsgewinn verwendet, um Messwerte in einen interpretierbaren Wert zu übersetzen. Das Ergebnis ist wichtig, weil es hilft, Modellverhalten, Algorithmuskosten oder Vorhersagequalität vor der Nutzung des Ergebnisses zu bewerten.

Stelle sicher, dass die Entropie der Kindknoten als gewichteter Durchschnitt auf Basis der Anzahl der Stichproben in jedem Zweig berechnet wird. Beachte, dass der Informationsgewinn zugunsten von Attributen mit einer großen Anzahl unterschiedlicher Werte verzerrt sein kann. Ein Gewinn von null zeigt an, dass die Aufteilung die Reinheit des Datensatzes überhaupt nicht verbessert.

References

Sources

Wikipedia: Information gain (decision tree)
Wikipedia: Entropy (information theory)
An Introduction to Statistical Learning by Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani
Mitchell, T. M. (1997). Machine Learning. McGraw-Hill.
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer.
Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
Wikipedia: Information gain in decision trees
Standard curriculum — Machine Learning (Decision Trees)

Overview

Variables

Derivation

Nennen des Informationsgewinns für einen Split:

Wählen des besten Splits:

Graph

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Entropy (Shannon)

Frequently Asked Questions

Sources