Informação Mútua (2×2)

Core idea

Overview

A Informação Mútua quantifica a dependência estatística entre duas variáveis aleatórias discretas, medindo quanta informação é compartilhada entre elas. No caso de contingência 2×2, ela calcula a divergência de Kullback-Leibler entre a distribuição de probabilidade conjunta e o produto das distribuições marginais de duas variáveis binárias.

When to use: Aplique esta fórmula ao analisar a relação entre duas variáveis binárias, como comparar um resultado de teste com a presença de uma doença. É preferível à correlação linear quando você precisa capturar dependências não lineares ou associação estatística geral.

Why it matters: É um conceito fundamental na teoria da comunicação para calcular a capacidade do canal e em aprendizado de máquina para seleção de atributos. Alta informação mútua indica que saber o estado de uma variável reduz significativamente a incerteza sobre a outra.

Symbols

Variables

I(X;Y) = Mutual Information, $p_{00}$ = P(X=0,Y=0), $p_{01}$ = P(X=0,Y=1), $p_{10}$ = P(X=1,Y=0), $p_{11}$ = P(X=1,Y=1)

I(X;Y)

Mutual Information

nats

p_{00}

P(X=0,Y=0)

Variable

p_{01}

P(X=0,Y=1)

Variable

p_{10}

P(X=1,Y=0)

Variable

p_{11}

P(X=1,Y=1)

Variable

Walkthrough

Derivation

Derivação da Informação Mútua de uma Tabela Conjunta 2×2

A informação mútua soma p(x,y) ln(p(x,y)/(p(x)p(y))) sobre todos os pares.

X e Y são binários.
Probabilidades conjuntas p00,p01,p10,p11 somam 1.

1

Começar da definição:

A informação mútua quantifica a dependência entre X e Y.

I (X; Y) = x, y \sum p (x, y) ln \frac{p ( x , y )}{p ( x ) p ( y )}

2

Calcular marginais da tabela 2×2:

Você precisa de p(x) e p(y) para formar a razão p(x,y)/(p(x)p(y)).

p (x) = y \sum p (x, y), p (y) = x \sum p (x, y)

3

Somar os quatro termos (p00, p01, p10, p11):

Cada probabilidade conjunta não nula contribui com um termo. Por convenção, 0·ln(0)=0.

I = \sum p_{ij} ln \frac{p _{ij}}{p _{i \cdot} p _{\cdot j}}

Result

I = \sum p_{ij} ln \frac{p _{ij}}{p _{i \cdot} p _{\cdot j}}

Why it behaves this way

Intuition

Imagine uma paisagem estatística onde a 'altura' em cada ponto (x,y) representa o desvio da independência. A informação mútua é o 'volume' total desses desvios, ponderado pela frequência com que cada combinação ocorre.

Term

A quantidade de informação que uma variável aleatória (X) fornece sobre outra (Y).

Um valor alto significa que conhecer X reduz significativamente a incerteza sobre Y (e vice-versa); zero significa que são estatisticamente independentes.

Term

A probabilidade conjunta de observar um resultado específico 'x' para a variável X e um resultado específico 'y' para a variável Y simultaneamente.

Com que frequência uma combinação particular de estados (x,y) ocorre juntos nos dados observados.

Term

O produto das probabilidades marginais de X assumir o resultado 'x' e Y assumir o resultado 'y', representando sua probabilidade conjunta se X e Y fossem estatisticamente independentes.

A frequência de base de uma combinação (x,y) se não houvesse relação ou informação compartilhada entre X e Y.

Term

O 'conteúdo de informação' ou 'surpresa' associado a um par (x,y) específico, em relação à expectativa de independência, em unidades de nats.

Mede o quanto uma combinação (x,y) específica é mais (ou menos) provável do que se X e Y não estivessem relacionados. Um valor positivo significa mais provável, um valor negativo significa menos provável.

Term

Somatório sobre todos os possíveis resultados discretos para X e Y.

Agrega as contribuições de informação de cada combinação possível de X e Y para calcular a informação compartilhada total.

Signs and relationships

\ln\frac{p(x,y)}{p(x)p(y)}: O logaritmo natural transforma a razão de probabilidades em uma medida aditiva de informação. Se a probabilidade conjunta observada p(x,y) é maior que p(x)p(y), o termo logarítmico é positivo; se for menor, o termo é negativo.

Free study cues

Insight

Canonical usage

A informação mútua é uma quantidade adimensional, representando uma medida de dependência estatística. Convencionalmente é expressa em nats quando o logaritmo natural (ln) é usado, ou em bits quando o logaritmo de base 2 (log2)

Dimension note

A informação mútua é inerentemente adimensional porque é calculada a partir de razões de probabilidades, que por si só são adimensionais.

One free problem

Practice Problem

Um pesquisador está estudando a ligação entre uma mutação genética específica e um traço raro. Em uma população perfeitamente balanceada, as probabilidades conjuntas são todas iguais (0.25 cada). Calcule a Informação Mútua.

Hint: Se a probabilidade conjunta de cada célula for igual ao produto de suas probabilidades marginais, as variáveis são independentes.

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

No caso de quantifying how informative a medical test result is about disease status, Mutual Information (2×2) é utilizado para calcular Mutual Information from P(X=0,Y=0), P(X=0,Y=1), and P(X=1,Y=0). O resultado importa porque it helps evaluate model behaviour, algorithm cost, or prediction quality before relying on the output.

Study smarter

Tips

Certifique-se de que a soma das probabilidades conjuntas (p00, p01, p10, p11) seja exatamente 1.0 antes de começar.
Calcule as probabilidades marginais para X e Y somando as linhas e colunas da tabela de contingência.
Trate termos onde p(x,y) é zero como zero, pois o limite de p log(p) quando p se aproxima de zero é zero.
O resultado é medido em nats quando se usa o logaritmo natural (ln) ou em bits quando se usa log base 2.

Avoid these traps

Common Mistakes

Esquecer de normalizar as probabilidades para que somem 1.
Misturar logs (ln vs log2) e unidades (nats vs bits).

Keep going

Related Formulas

Common questions

Frequently Asked Questions

A informação mútua soma p(x,y) ln(p(x,y)/(p(x)p(y))) sobre todos os pares.

Aplique esta fórmula ao analisar a relação entre duas variáveis binárias, como comparar um resultado de teste com a presença de uma doença. É preferível à correlação linear quando você precisa capturar dependências não lineares ou associação estatística geral.

É um conceito fundamental na teoria da comunicação para calcular a capacidade do canal e em aprendizado de máquina para seleção de atributos. Alta informação mútua indica que saber o estado de uma variável reduz significativamente a incerteza sobre a outra.

Esquecer de normalizar as probabilidades para que somem 1. Misturar logs (ln vs log2) e unidades (nats vs bits).

No caso de quantifying how informative a medical test result is about disease status, Mutual Information (2×2) é utilizado para calcular Mutual Information from P(X=0,Y=0), P(X=0,Y=1), and P(X=1,Y=0). O resultado importa porque it helps evaluate model behaviour, algorithm cost, or prediction quality before relying on the output.

Certifique-se de que a soma das probabilidades conjuntas (p00, p01, p10, p11) seja exatamente 1.0 antes de começar. Calcule as probabilidades marginais para X e Y somando as linhas e colunas da tabela de contingência. Trate termos onde p(x,y) é zero como zero, pois o limite de p log(p) quando p se aproxima de zero é zero. O resultado é medido em nats quando se usa o logaritmo natural (ln) ou em bits quando se usa log base 2.

References

Sources

Cover, Thomas M., and Joy A. Thomas. Elements of Information Theory. 2nd ed. Wiley-Interscience, 2006.
Wikipedia: Mutual Information
Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley.
Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley-Interscience.
Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3), 379-423.

Overview

Variables

Derivation

Começar da definição:

Calcular marginais da tabela 2×2:

Somar os quatro termos (p00, p01, p10, p11):

Intuition

Insight

Practice Problem

Real-World Context

Tips

Common Mistakes

Related Formulas

Entropy (Shannon)

KL Divergence (Bernoulli)

Information Gain

Frequently Asked Questions

Sources