Gain d'information Calculator
Réduction de l'entropie.
Formula first
Overview
Le gain d'information mesure la réduction de l'incertitude, ou entropie, dans un ensemble de données après son partitionnement selon un attribut spécifique. C'est le critère principal utilisé par des algorithmes comme ID3 et C4.5 pour déterminer la meilleure caractéristique pour diviser un nœud dans un arbre de décision.
Symbols
Variables
IG = Info Gain, = Parent Entropy, = Child Entropy
Apply it well
When To Use
When to use: Appliquez cette métrique lors de la construction de modèles d'apprentissage supervisé afin d'évaluer le pouvoir prédictif de variables indépendantes. Elle est particulièrement efficace lorsque l'on travaille avec des cibles catégorielles et que l'objectif est de maximiser la pureté des classes dans les sous-ensembles obtenus.
Why it matters: En identifiant les caractéristiques qui offrent le plus grand gain d'information, on peut construire des modèles avec moins de niveaux, réduisant ainsi la complexité de calcul. Cette efficacité aide à prévenir le surapprentissage et garantit que les motifs de données les plus pertinents sont priorisés pendant l'entraînement.
Avoid these traps
Common Mistakes
- Additionner les entropies au lieu de les soustraire.
- Mélanger les bases logarithmiques.
One free problem
Practice Problem
Un ensemble de données a une entropie initiale de 0,940 bit. Après l'avoir divisé selon une caractéristique spécifique, l'entropie moyenne pondérée des nœuds enfants est de 0,693 bit. Calculez le gain d'information.
Hint: Soustrayez l'entropie des enfants de l'entropie du nSud parent.
The full worked solution stays in the interactive walkthrough.
References
Sources
- Wikipedia: Information gain (decision tree)
- Wikipedia: Entropy (information theory)
- An Introduction to Statistical Learning by Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani
- Mitchell, T. M. (1997). Machine Learning. McGraw-Hill.
- Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer.
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
- Wikipedia: Information gain in decision trees
- Standard curriculum — Machine Learning (Decision Trees)