Ganho de Informação Calculator
Redução na entropia.
Formula first
Overview
O Ganho de Informação mede a redução na incerteza, ou entropia, dentro de um conjunto de dados após ele ser particionado com base em um atributo específico. É o critério principal usado por algoritmos como ID3 e C4.5 para determinar a melhor característica para dividir um nó em uma árvore de decisão.
Symbols
Variables
IG = Info Gain, = Parent Entropy, = Child Entropy
Apply it well
When To Use
When to use: Aplique esta métrica durante a construção de modelos de aprendizado supervisionado para avaliar o poder preditivo de variáveis independentes. É mais eficaz ao trabalhar com alvos categóricos onde o objetivo é maximizar a pureza da classe nos subconjuntos resultantes.
Why it matters: Ao identificar características que oferecem o maior Ganho de Informação, modelos podem ser construídos com menos níveis, reduzindo a complexidade computacional. Essa eficiência ajuda a prevenir o *overfitting* e garante que os padrões de dados mais relevantes sejam priorizados durante o treinamento.
Avoid these traps
Common Mistakes
- Somar entropias em vez de subtrair.
- Misturar bases de logaritmo.
One free problem
Practice Problem
Um conjunto de dados tem uma entropia inicial de 0.940 bits. Após dividi-lo com base em uma característica específica, a entropia média ponderada dos nós filhos é de 0.693 bits. Calcule o Ganho de Informação.
Hint: Subtraia a entropia dos filhos da entropia do nó pai.
The full worked solution stays in the interactive walkthrough.
References
Sources
- Wikipedia: Information gain (decision tree)
- Wikipedia: Entropy (information theory)
- An Introduction to Statistical Learning by Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani
- Mitchell, T. M. (1997). Machine Learning. McGraw-Hill.
- Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer.
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
- Wikipedia: Information gain in decision trees
- Standard curriculum — Machine Learning (Decision Trees)