Bilgi Kazancı

Core idea

Overview

Bilgi Kazancı, belirli bir özniteliğe göre bölümlendikten sonra bir veri kümesindeki belirsizlik veya entropideki azalmayı ölçer. ID3 ve C4.5 gibi algoritmaların bir karar ağacında bir düğümü bölmek için en iyi özelliği belirlemede kullandığı birincil ölçüttür.

When to use: Bağımsız değişkenlerin tahmin gücünü değerlendirmek için denetimli öğrenme modellerinin oluşturulması sırasında bu ölçütü uygulayın. Sonuç alt kümelerinde sınıf saflığını en üst düzeye çıkarmayı amaçlayan kategorik hedeflerle çalışırken en etkilidir.

Why it matters: En yüksek Bilgi Kazancı sunan özellikleri belirleyerek, modeller daha az seviyeyle oluşturulabilir, bu da hesaplama karmaşıklığını azaltır. Bu verimlilik, aşırı uydurmayı önlemeye yardımcı olur ve eğitim sırasında en alakalı veri modellerinin önceliklendirilmesini sağlar.

Symbols

Variables

IG = Info Gain, $H_{p}$ = Parent Entropy, $H_{c}$ = Child Entropy

IG

Info Gain

bits

H_{p}

Parent Entropy

bits

H_{c}

Child Entropy

bits

Walkthrough

Derivation

Formül: Bilgi Kazancı

Bilgi kazancı, bir öznitelik kullanarak bir veri kümesini bölerek belirsizliğin (entropinin) ne kadar azaldığını ölçer ve karar ağacı yapımına rehberlik eder.

Bir S veri kümesi, A özniteliğinin v değerleri tarafından alt kümelere $S_{v}$ ayrılır.
Entropi H( $\cdot$ ) her alt kümedeki sınıf dağılımı üzerinde hesaplanır.

1

Bir bölünme için bilgi kazancını belirtin:

Bölünme sonrası ağırlıklı ortalama entropiyi, bölünmeden önceki orijinal entropiden çıkarın.

I G (S, A) = H (S) - v \in V a l u es (A) \sum \frac{∣ S _{v} ∣}{∣ S ∣} H (S_{v})

2

En iyi bölünmeyi seçin:

En yüksek bilgi kazancına sahip öznitelik, o düğümde belirsizlikte en büyük azalmayı sağlar.

max I G (S, A) \Rightarrow best split

Note: Bazı algoritmalar, çok değerli özniteliklere yönelik yanlılığı azaltmak için kazanç oranını kullanır.

Result

max I G (S, A) \Rightarrow best split

Source: Standard curriculum — Machine Learning (Decision Trees)

Visual intuition

Graph

Graph type: logarithmic

Why it behaves this way

Intuition

Belirli bir özelliğe göre daha küçük, daha homojen gruplara (çocuk düğümler) ayrılan öğelerin karışık bir koleksiyonunu (ebeveyn düğüm) hayal edin, burada Bilgi Kazancı ne kadar daha düzenli ve daha az karışık

Term

Bir özniteliğe göre bölündükten sonra bir veri kümesinin belirsizliğinin veya rastgeleliğinin azalması.

Daha yüksek Bilgi Kazancı, bu öznitelikle veri kümesini bölmenin sonuç alt kümelerini hedef sınıflar açısından önemli ölçüde daha tahmin edilebilir veya 'daha saf' hale getirdiğini gösterir.

Term

Herhangi bir bölünme yapılmadan önceki veri kümesindeki başlangıç belirsizlik veya safsızlık (entropi) seviyesi.

Orijinal veri kümesindeki sınıfların ne kadar karışık olduğunu temsil eder; daha yüksek bir H(ebeveyn) sınıfların daha eşit dağıldığı ve dolayısıyla daha belirsiz olduğu anlamına gelir.

Term

Belirli bir öznitelikle veri kümesini böldükten sonra oluşturulan alt kümelerin ağırlıklı ortalama belirsizliği veya safsızlığı (entropisi).

Sonuç alt kümelerdeki sınıfların ne kadar karışık olduğunu temsil eder; daha düşük bir H(çocuklar) alt kümelerin daha homojen ve daha az belirsiz olduğu anlamına gelir.

Signs and relationships

- H(children): H(çocuklar)'ın H(ebeveyn)'den çıkarılması, Bilgi Kazancının entropideki *reduction* miktarını ölçtüğünü gösterir. Çocuk düğümlerin entropisinin ebeveyn düğümden daha az olmasını hedefleriz, bu nedenle pozitif bir Bilgi Kazancı

Free study cues

Insight

Canonical usage

Information Gain is a dimensionless numerical score used to quantify the reduction in entropy within a dataset.

Dimension note

Information Gain is a dimensionless quantity derived from the difference in entropy values, which are themselves calculated from probabilities.

One free problem

Practice Problem

Bir veri kümesinin başlangıç entropisi 0.940 bittir. Belirli bir özelliğe göre bölündükten sonra, alt düğümlerin ağırlıklı ortalama entropisi 0.693 bittir. Bilgi Kazancını hesaplayın.

Hint: Çocukların entropisini ebeveyn düğümünün entropisinden çıkarın.

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

Bir spam filtresi için bir özellik bölümlemesi seçmek bağlamında Bilgi Kazancı, ölçümleri yorumlanabilir bir değere dönüştürmek için kullanılır. Sonuç önemlidir çünkü çıktıya güvenmeden önce model davranışını, algoritma maliyetini veya tahmin kalitesini değerlendirmeye yardımcı olur.

Study smarter

Tips

Çocukların entropisinin, her bir daldaki örnek sayısına göre ağırlıklı ortalama olarak hesaplandığından emin olun.
Bilgi Kazancı'nın çok sayıda farklı değere sahip özniteliklere karşı önyargılı olabileceğini unutmayın.
Sıfır kazanç, bölümlemenin veri kümesinin saflığını hiç iyileştirmediğini gösterir.

Avoid these traps

Common Mistakes

Çıkarmak yerine entropileri toplamak.
Logaritma tabanlarını karıştırmak.

Keep going

Related Formulas

Common questions

Frequently Asked Questions

Bilgi kazancı, bir öznitelik kullanarak bir veri kümesini bölerek belirsizliğin (entropinin) ne kadar azaldığını ölçer ve karar ağacı yapımına rehberlik eder.

Bağımsız değişkenlerin tahmin gücünü değerlendirmek için denetimli öğrenme modellerinin oluşturulması sırasında bu ölçütü uygulayın. Sonuç alt kümelerinde sınıf saflığını en üst düzeye çıkarmayı amaçlayan kategorik hedeflerle çalışırken en etkilidir.

En yüksek Bilgi Kazancı sunan özellikleri belirleyerek, modeller daha az seviyeyle oluşturulabilir, bu da hesaplama karmaşıklığını azaltır. Bu verimlilik, aşırı uydurmayı önlemeye yardımcı olur ve eğitim sırasında en alakalı veri modellerinin önceliklendirilmesini sağlar.

Çıkarmak yerine entropileri toplamak. Logaritma tabanlarını karıştırmak.

Bir spam filtresi için bir özellik bölümlemesi seçmek bağlamında Bilgi Kazancı, ölçümleri yorumlanabilir bir değere dönüştürmek için kullanılır. Sonuç önemlidir çünkü çıktıya güvenmeden önce model davranışını, algoritma maliyetini veya tahmin kalitesini değerlendirmeye yardımcı olur.

Çocukların entropisinin, her bir daldaki örnek sayısına göre ağırlıklı ortalama olarak hesaplandığından emin olun. Bilgi Kazancı'nın çok sayıda farklı değere sahip özniteliklere karşı önyargılı olabileceğini unutmayın. Sıfır kazanç, bölümlemenin veri kümesinin saflığını hiç iyileştirmediğini gösterir.

References

Sources

Wikipedia: Information gain (decision tree)
Wikipedia: Entropy (information theory)
An Introduction to Statistical Learning by Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani
Mitchell, T. M. (1997). Machine Learning. McGraw-Hill.
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer.
Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
Wikipedia: Information gain in decision trees
Standard curriculum — Machine Learning (Decision Trees)

Overview

Variables

Derivation

Bir bölünme için bilgi kazancını belirtin:

En iyi bölünmeyi seçin:

Graph

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Entropy (Shannon)

Frequently Asked Questions

Sources