Bilgi Kazancı
Entropideki azalma.
This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.
Core idea
Overview
Bilgi Kazancı, belirli bir özniteliğe göre bölümlendikten sonra bir veri kümesindeki belirsizlik veya entropideki azalmayı ölçer. ID3 ve C4.5 gibi algoritmaların bir karar ağacında bir düğümü bölmek için en iyi özelliği belirlemede kullandığı birincil ölçüttür.
When to use: Bağımsız değişkenlerin tahmin gücünü değerlendirmek için denetimli öğrenme modellerinin oluşturulması sırasında bu ölçütü uygulayın. Sonuç alt kümelerinde sınıf saflığını en üst düzeye çıkarmayı amaçlayan kategorik hedeflerle çalışırken en etkilidir.
Why it matters: En yüksek Bilgi Kazancı sunan özellikleri belirleyerek, modeller daha az seviyeyle oluşturulabilir, bu da hesaplama karmaşıklığını azaltır. Bu verimlilik, aşırı uydurmayı önlemeye yardımcı olur ve eğitim sırasında en alakalı veri modellerinin önceliklendirilmesini sağlar.
Symbols
Variables
IG = Info Gain, = Parent Entropy, = Child Entropy
Walkthrough
Derivation
Formül: Bilgi Kazancı
Bilgi kazancı, bir öznitelik kullanarak bir veri kümesini bölerek belirsizliğin (entropinin) ne kadar azaldığını ölçer ve karar ağacı yapımına rehberlik eder.
- Bir S veri kümesi, A özniteliğinin v değerleri tarafından alt kümelere ayrılır.
- Entropi H() her alt kümedeki sınıf dağılımı üzerinde hesaplanır.
Bir bölünme için bilgi kazancını belirtin:
Bölünme sonrası ağırlıklı ortalama entropiyi, bölünmeden önceki orijinal entropiden çıkarın.
En iyi bölünmeyi seçin:
En yüksek bilgi kazancına sahip öznitelik, o düğümde belirsizlikte en büyük azalmayı sağlar.
Note: Bazı algoritmalar, çok değerli özniteliklere yönelik yanlılığı azaltmak için kazanç oranını kullanır.
Result
Source: Standard curriculum — Machine Learning (Decision Trees)
Visual intuition
Graph
Graph type: logarithmic
Why it behaves this way
Intuition
Belirli bir özelliğe göre daha küçük, daha homojen gruplara (çocuk düğümler) ayrılan öğelerin karışık bir koleksiyonunu (ebeveyn düğüm) hayal edin, burada Bilgi Kazancı ne kadar daha düzenli ve daha az karışık
Signs and relationships
- - H(children): H(çocuklar)'ın H(ebeveyn)'den çıkarılması, Bilgi Kazancının entropideki *reduction* miktarını ölçtüğünü gösterir. Çocuk düğümlerin entropisinin ebeveyn düğümden daha az olmasını hedefleriz, bu nedenle pozitif bir Bilgi Kazancı
Free study cues
Insight
Canonical usage
Information Gain is a dimensionless numerical score used to quantify the reduction in entropy within a dataset.
Dimension note
Information Gain is a dimensionless quantity derived from the difference in entropy values, which are themselves calculated from probabilities.
One free problem
Practice Problem
Bir veri kümesinin başlangıç entropisi 0.940 bittir. Belirli bir özelliğe göre bölündükten sonra, alt düğümlerin ağırlıklı ortalama entropisi 0.693 bittir. Bilgi Kazancını hesaplayın.
Hint: Çocukların entropisini ebeveyn düğümünün entropisinden çıkarın.
The full worked solution stays in the interactive walkthrough.
Where it shows up
Real-World Context
Bir spam filtresi için bir özellik bölümlemesi seçmek bağlamında Bilgi Kazancı, ölçümleri yorumlanabilir bir değere dönüştürmek için kullanılır. Sonuç önemlidir çünkü çıktıya güvenmeden önce model davranışını, algoritma maliyetini veya tahmin kalitesini değerlendirmeye yardımcı olur.
Study smarter
Tips
- Çocukların entropisinin, her bir daldaki örnek sayısına göre ağırlıklı ortalama olarak hesaplandığından emin olun.
- Bilgi Kazancı'nın çok sayıda farklı değere sahip özniteliklere karşı önyargılı olabileceğini unutmayın.
- Sıfır kazanç, bölümlemenin veri kümesinin saflığını hiç iyileştirmediğini gösterir.
Avoid these traps
Common Mistakes
- Çıkarmak yerine entropileri toplamak.
- Logaritma tabanlarını karıştırmak.
Common questions
Frequently Asked Questions
Bilgi kazancı, bir öznitelik kullanarak bir veri kümesini bölerek belirsizliğin (entropinin) ne kadar azaldığını ölçer ve karar ağacı yapımına rehberlik eder.
Bağımsız değişkenlerin tahmin gücünü değerlendirmek için denetimli öğrenme modellerinin oluşturulması sırasında bu ölçütü uygulayın. Sonuç alt kümelerinde sınıf saflığını en üst düzeye çıkarmayı amaçlayan kategorik hedeflerle çalışırken en etkilidir.
En yüksek Bilgi Kazancı sunan özellikleri belirleyerek, modeller daha az seviyeyle oluşturulabilir, bu da hesaplama karmaşıklığını azaltır. Bu verimlilik, aşırı uydurmayı önlemeye yardımcı olur ve eğitim sırasında en alakalı veri modellerinin önceliklendirilmesini sağlar.
Çıkarmak yerine entropileri toplamak. Logaritma tabanlarını karıştırmak.
Bir spam filtresi için bir özellik bölümlemesi seçmek bağlamında Bilgi Kazancı, ölçümleri yorumlanabilir bir değere dönüştürmek için kullanılır. Sonuç önemlidir çünkü çıktıya güvenmeden önce model davranışını, algoritma maliyetini veya tahmin kalitesini değerlendirmeye yardımcı olur.
Çocukların entropisinin, her bir daldaki örnek sayısına göre ağırlıklı ortalama olarak hesaplandığından emin olun. Bilgi Kazancı'nın çok sayıda farklı değere sahip özniteliklere karşı önyargılı olabileceğini unutmayın. Sıfır kazanç, bölümlemenin veri kümesinin saflığını hiç iyileştirmediğini gösterir.
References
Sources
- Wikipedia: Information gain (decision tree)
- Wikipedia: Entropy (information theory)
- An Introduction to Statistical Learning by Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani
- Mitchell, T. M. (1997). Machine Learning. McGraw-Hill.
- Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer.
- Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
- Wikipedia: Information gain in decision trees
- Standard curriculum — Machine Learning (Decision Trees)