مكسب المعلومات (Information Gain)

Core idea

Overview

يقيس مكسب المعلومات (Information Gain) مقدار التخفيض في عدم اليقين، أو الإنتروبيا، ضمن مجموعة بيانات بعد تقسيمها بناءً على سمة محددة. وهو المعيار الأساسي الذي تستخدمه خوارزميات مثل ID3 و C4.5 لتحديد أفضل ميزة لتقسيم عقدة في شجرة القرار.

When to use: طبق هذا المقياس أثناء بناء نماذج التعلم الخاضع للإشراف لتقييم القوة التنبؤية للمتغيرات المستقلة. يكون أكثر فعالية عند العمل مع الأهداف الفئوية حيث يكون الهدف هو زيادة نقاء الفئة في المجموعات الفرعية الناتجة.

Why it matters: من خلال تحديد الميزات التي تقدم أعلى مكسب للمعلومات، يمكن بناء النماذج بمستويات أقل، مما يقلل من التعقيد الحسابي. تساعد هذه الكفاءة في منع الإفراط في التخصيص (overfitting) وتضمن إعطاء الأولوية لأنماط البيانات الأكثر صلة أثناء التدريب.

Symbols

Variables

IG = Info Gain, $H_{p}$ = Parent Entropy, $H_{c}$ = Child Entropy

IG

Info Gain

bits

H_{p}

Parent Entropy

bits

H_{c}

Child Entropy

bits

Walkthrough

Derivation

الصيغة: كسب المعلومات

يقيس كسب المعلومات مقدار تقليل عدم اليقين (الإنتروبيا) عن طريق تقسيم مجموعة بيانات باستخدام سمة، مما يوجه بناء شجرة القرار.

يتم تقسيم مجموعة بيانات S إلى مجموعات فرعية $S_{v}$ بواسطة قيم v للسمة A.
يتم حساب الإنتروبيا H( $\cdot$ ) على توزيع الفئة داخل كل مجموعة فرعية.

1

اذكر كسب المعلومات للتقسيم:

اطرح متوسط الإنتروبيا المرجح بعد التقسيم من الإنتروبيا الأصلية قبل التقسيم.

I G (S, A) = H (S) - v \in V a l u es (A) \sum \frac{∣ S _{v} ∣}{∣ S ∣} H (S_{v})

2

اختر أفضل تقسيم:

السمة ذات أعلى كسب معلومات تنتج أكبر انخفاض في عدم اليقين في تلك العقدة.

max I G (S, A) \Rightarrow best split

Note: تستخدم بعض الخوارزميات نسبة الكسب لتقليل التحيز نحو السمات متعددة القيم.

Result

max I G (S, A) \Rightarrow best split

Source: Standard curriculum — Machine Learning (Decision Trees)

Visual intuition

Graph

Graph type: logarithmic

Why it behaves this way

Intuition

تخيل مجموعة مختلطة من العناصر (عقدة أصل) يتم فرزها إلى مجموعات أصغر وأكثر انتظامًا (عقد فرعية) بناءً على خاصية معينة، حيث يقيس كسب المعلومات مدى تنظيم وترتيب هذه المجموعات بشكل أكبر وتقليل اختلاطها،

Term

الانخفاض في عدم اليقين أو العشوائية لمجموعة بيانات بعد تقسيمها بناءً على سمة.

يشير كسب المعلومات الأعلى إلى أن تقسيم مجموعة البيانات بهذه السمة يجعل المجموعات الناتجة أكثر قابلية للتنبؤ بشكل كبير أو "أنقى" من حيث فئات الهدف الخاصة بها.

Term

المستوى الأولي لعدم اليقين أو الشوائب (الإنتروبيا) في مجموعة البيانات قبل إجراء أي تقسيم.

يمثل مدى اختلاط الفئات في مجموعة البيانات الأصلية؛ يعني H(parent) الأعلى أن الفئات موزعة بشكل أكثر توازنًا وبالتالي فهي أكثر عدم يقين.

Term

متوسط الإنتروبيا المرجح أو الشوائب (الإنتروبيا) للمجموعات الفرعية التي تم إنشاؤها بعد تقسيم مجموعة البيانات بواسطة سمة معينة.

يمثل مدى اختلاط الفئات في المجموعات الفرعية الناتجة؛ يعني H(children) الأقل أن المجموعات الفرعية أكثر تجانسًا وأقل عدم يقين.

Signs and relationships

- H(children): يشير طرح H(children) من H(parent) إلى أن كسب المعلومات يقيس *reduction* في الإنتروبيا. نهدف إلى أن تكون إنتروبيا العقد الفرعية أقل من العقدة الأم، لذا فإن كسب معلومات إيجابي

Free study cues

Insight

Canonical usage

كسب المعلومات هو درجة عددية غير بعدية تستخدم لقياس الانخفاض في الإنتروبيا داخل مجموعة بيانات.

Dimension note

كسب المعلومات هو كمية غير بعدية مشتقة من الفرق في قيم الإنتروبيا، والتي تُحسب بذاتها من الاحتمالات.

One free problem

Practice Problem

مجموعة بيانات لديها إنتروبيا أولية قدرها 0.940 بت. بعد تقسيمها بناءً على ميزة محددة، فإن متوسط الإنتروبيا المرجح للعقد الفرعية هو 0.693 بت. احسب مكسب المعلومات.

Hint: اطرح إنتروبيا الفروع من إنتروبيا العقدة الأم.

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

في سياق اختيار تقسيم ميزة لفلتر البريد العشوائي، تُستخدم معادلة مكسب المعلومات (Information Gain) لتحويل القياسات إلى قيمة يمكن تفسيرها. وتكمن أهمية الناتج في أنه يساعد على تقييم سلوك النموذج أو تكلفة الخوارزمية أو جودة التنبؤ قبل استخدام الناتج.

Study smarter

Tips

تأكد من حساب إنتروبيا الفروع كمتوسط مرجح بناءً على عدد العينات في كل فرع.
كن على دراية بأن مكسب المعلومات يمكن أن يكون متحيزًا نحو السمات التي تحتوي على عدد كبير من القيم المميزة.
يشير الكسب الصفري إلى أن الانقسام لا يحسن نقاء مجموعة البيانات على الإطلاق.

Avoid these traps

Common Mistakes

إضافة الإنتروبيا بدلاً من طرحها.
خلط أساسات اللوغاريتم.

Keep going

Related Formulas

Common questions

Frequently Asked Questions

يقيس كسب المعلومات مقدار تقليل عدم اليقين (الإنتروبيا) عن طريق تقسيم مجموعة بيانات باستخدام سمة، مما يوجه بناء شجرة القرار.

طبق هذا المقياس أثناء بناء نماذج التعلم الخاضع للإشراف لتقييم القوة التنبؤية للمتغيرات المستقلة. يكون أكثر فعالية عند العمل مع الأهداف الفئوية حيث يكون الهدف هو زيادة نقاء الفئة في المجموعات الفرعية الناتجة.

من خلال تحديد الميزات التي تقدم أعلى مكسب للمعلومات، يمكن بناء النماذج بمستويات أقل، مما يقلل من التعقيد الحسابي. تساعد هذه الكفاءة في منع الإفراط في التخصيص (overfitting) وتضمن إعطاء الأولوية لأنماط البيانات الأكثر صلة أثناء التدريب.

إضافة الإنتروبيا بدلاً من طرحها. خلط أساسات اللوغاريتم.

في سياق اختيار تقسيم ميزة لفلتر البريد العشوائي، تُستخدم معادلة مكسب المعلومات (Information Gain) لتحويل القياسات إلى قيمة يمكن تفسيرها. وتكمن أهمية الناتج في أنه يساعد على تقييم سلوك النموذج أو تكلفة الخوارزمية أو جودة التنبؤ قبل استخدام الناتج.

تأكد من حساب إنتروبيا الفروع كمتوسط مرجح بناءً على عدد العينات في كل فرع. كن على دراية بأن مكسب المعلومات يمكن أن يكون متحيزًا نحو السمات التي تحتوي على عدد كبير من القيم المميزة. يشير الكسب الصفري إلى أن الانقسام لا يحسن نقاء مجموعة البيانات على الإطلاق.

References

Sources

Wikipedia: Information gain (decision tree)
Wikipedia: Entropy (information theory)
An Introduction to Statistical Learning by Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani
Mitchell, T. M. (1997). Machine Learning. McGraw-Hill.
Hastie, T., Tibshirani, R., & Friedman, J. (2009). The Elements of Statistical Learning: Data Mining, Inference, and Prediction. Springer.
Bishop, C. M. (2006). Pattern Recognition and Machine Learning. Springer.
Wikipedia: Information gain in decision trees
Standard curriculum — Machine Learning (Decision Trees)

Overview

Variables

Derivation

اذكر كسب المعلومات للتقسيم:

اختر أفضل تقسيم:

Graph

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Entropy (Shannon)

Frequently Asked Questions

Sources