Data & ComputingMakine ÖğrenimiA-Level
AQAIBAbiturAPBachilleratoCambridgeCISCEEdexcel

Bilgi Kazancı

Entropideki azalma.

Understand the formulaSee the free derivationOpen the full walkthrough

This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.

Core idea

Overview

Bilgi Kazancı, belirli bir özniteliğe göre bölümlendikten sonra bir veri kümesindeki belirsizlik veya entropideki azalmayı ölçer. ID3 ve C4.5 gibi algoritmaların bir karar ağacında bir düğümü bölmek için en iyi özelliği belirlemede kullandığı birincil ölçüttür.

When to use: Bağımsız değişkenlerin tahmin gücünü değerlendirmek için denetimli öğrenme modellerinin oluşturulması sırasında bu ölçütü uygulayın. Sonuç alt kümelerinde sınıf saflığını en üst düzeye çıkarmayı amaçlayan kategorik hedeflerle çalışırken en etkilidir.

Why it matters: En yüksek Bilgi Kazancı sunan özellikleri belirleyerek, modeller daha az seviyeyle oluşturulabilir, bu da hesaplama karmaşıklığını azaltır. Bu verimlilik, aşırı uydurmayı önlemeye yardımcı olur ve eğitim sırasında en alakalı veri modellerinin önceliklendirilmesini sağlar.

Symbols

Variables

IG = Info Gain, = Parent Entropy, = Child Entropy

IG
Info Gain
bits
Parent Entropy
bits
Child Entropy
bits

Walkthrough

Derivation

Formül: Bilgi Kazancı

Bilgi kazancı, bir öznitelik kullanarak bir veri kümesini bölerek belirsizliğin (entropinin) ne kadar azaldığını ölçer ve karar ağacı yapımına rehberlik eder.

  • Bir S veri kümesi, A özniteliğinin v değerleri tarafından alt kümelere ayrılır.
  • Entropi H() her alt kümedeki sınıf dağılımı üzerinde hesaplanır.
1

Bir bölünme için bilgi kazancını belirtin:

Bölünme sonrası ağırlıklı ortalama entropiyi, bölünmeden önceki orijinal entropiden çıkarın.

2

En iyi bölünmeyi seçin:

En yüksek bilgi kazancına sahip öznitelik, o düğümde belirsizlikte en büyük azalmayı sağlar.

Note: Bazı algoritmalar, çok değerli özniteliklere yönelik yanlılığı azaltmak için kazanç oranını kullanır.

Result

Source: Standard curriculum — Machine Learning (Decision Trees)

Visual intuition

Graph

Graph type: logarithmic

Why it behaves this way

Intuition

Belirli bir özelliğe göre daha küçük, daha homojen gruplara (çocuk düğümler) ayrılan öğelerin karışık bir koleksiyonunu (ebeveyn düğüm) hayal edin, burada Bilgi Kazancı ne kadar daha düzenli ve daha az karışık

Term
Bir özniteliğe göre bölündükten sonra bir veri kümesinin belirsizliğinin veya rastgeleliğinin azalması.
Daha yüksek Bilgi Kazancı, bu öznitelikle veri kümesini bölmenin sonuç alt kümelerini hedef sınıflar açısından önemli ölçüde daha tahmin edilebilir veya 'daha saf' hale getirdiğini gösterir.
Term
Herhangi bir bölünme yapılmadan önceki veri kümesindeki başlangıç belirsizlik veya safsızlık (entropi) seviyesi.
Orijinal veri kümesindeki sınıfların ne kadar karışık olduğunu temsil eder; daha yüksek bir H(ebeveyn) sınıfların daha eşit dağıldığı ve dolayısıyla daha belirsiz olduğu anlamına gelir.
Term
Belirli bir öznitelikle veri kümesini böldükten sonra oluşturulan alt kümelerin ağırlıklı ortalama belirsizliği veya safsızlığı (entropisi).
Sonuç alt kümelerdeki sınıfların ne kadar karışık olduğunu temsil eder; daha düşük bir H(çocuklar) alt kümelerin daha homojen ve daha az belirsiz olduğu anlamına gelir.

Signs and relationships

  • - H(children): H(çocuklar)'ın H(ebeveyn)'den çıkarılması, Bilgi Kazancının entropideki *reduction* miktarını ölçtüğünü gösterir. Çocuk düğümlerin entropisinin ebeveyn düğümden daha az olmasını hedefleriz, bu nedenle pozitif bir Bilgi Kazancı

Free study cues

Insight

Canonical usage

Information Gain is a dimensionless numerical score used to quantify the reduction in entropy within a dataset.

Dimension note

Information Gain is a dimensionless quantity derived from the difference in entropy values, which are themselves calculated from probabilities.

One free problem

Practice Problem

Bir veri kümesinin başlangıç entropisi 0.940 bittir. Belirli bir özelliğe göre bölündükten sonra, alt düğümlerin ağırlıklı ortalama entropisi 0.693 bittir. Bilgi Kazancını hesaplayın.

Hint: Çocukların entropisini ebeveyn düğümünün entropisinden çıkarın.

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

Bir spam filtresi için bir özellik bölümlemesi seçmek bağlamında Bilgi Kazancı, ölçümleri yorumlanabilir bir değere dönüştürmek için kullanılır. Sonuç önemlidir çünkü çıktıya güvenmeden önce model davranışını, algoritma maliyetini veya tahmin kalitesini değerlendirmeye yardımcı olur.

Study smarter

Tips

  • Çocukların entropisinin, her bir daldaki örnek sayısına göre ağırlıklı ortalama olarak hesaplandığından emin olun.
  • Bilgi Kazancı'nın çok sayıda farklı değere sahip özniteliklere karşı önyargılı olabileceğini unutmayın.
  • Sıfır kazanç, bölümlemenin veri kümesinin saflığını hiç iyileştirmediğini gösterir.

Avoid these traps

Common Mistakes

  • Çıkarmak yerine entropileri toplamak.
  • Logaritma tabanlarını karıştırmak.

Common questions

Frequently Asked Questions

Bilgi kazancı, bir öznitelik kullanarak bir veri kümesini bölerek belirsizliğin (entropinin) ne kadar azaldığını ölçer ve karar ağacı yapımına rehberlik eder.

Bağımsız değişkenlerin tahmin gücünü değerlendirmek için denetimli öğrenme modellerinin oluşturulması sırasında bu ölçütü uygulayın. Sonuç alt kümelerinde sınıf saflığını en üst düzeye çıkarmayı amaçlayan kategorik hedeflerle çalışırken en etkilidir.

En yüksek Bilgi Kazancı sunan özellikleri belirleyerek, modeller daha az seviyeyle oluşturulabilir, bu da hesaplama karmaşıklığını azaltır. Bu verimlilik, aşırı uydurmayı önlemeye yardımcı olur ve eğitim sırasında en alakalı veri modellerinin önceliklendirilmesini sağlar.

Çıkarmak yerine entropileri toplamak. Logaritma tabanlarını karıştırmak.

Bir spam filtresi için bir özellik bölümlemesi seçmek bağlamında Bilgi Kazancı, ölçümleri yorumlanabilir bir değere dönüştürmek için kullanılır. Sonuç önemlidir çünkü çıktıya güvenmeden önce model davranışını, algoritma maliyetini veya tahmin kalitesini değerlendirmeye yardımcı olur.

Çocukların entropisinin, her bir daldaki örnek sayısına göre ağırlıklı ortalama olarak hesaplandığından emin olun. Bilgi Kazancı'nın çok sayıda farklı değere sahip özniteliklere karşı önyargılı olabileceğini unutmayın. Sıfır kazanç, bölümlemenin veri kümesinin saflığını hiç iyileştirmediğini gösterir.

References

Sources

  1. Wikipedia: Information gain (decision tree)
  2. Wikipedia: Entropy (information theory)
  3. An Introduction to Statistical Learning by Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani
  4. Mitchell, T. M. (1997). Machine Learning. McGraw-Hill.
  5. Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer.
  6. Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
  7. Wikipedia: Information gain in decision trees
  8. Standard curriculum — Machine Learning (Decision Trees)