Data & ComputingTeoria da InformaçãoUniversity
AQAAPOntarioNSWCBSEGCE O-LevelMoECAPS

Informação Mútua (2×2)

Informação mútua entre duas variáveis binárias a partir de probabilidades conjuntas.

Understand the formulaSee the free derivationOpen the full walkthrough

This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.

Core idea

Overview

A Informação Mútua quantifica a dependência estatística entre duas variáveis aleatórias discretas, medindo quanta informação é compartilhada entre elas. No caso de contingência 2×2, ela calcula a divergência de Kullback-Leibler entre a distribuição de probabilidade conjunta e o produto das distribuições marginais de duas variáveis binárias.

When to use: Aplique esta fórmula ao analisar a relação entre duas variáveis binárias, como comparar um resultado de teste com a presença de uma doença. É preferível à correlação linear quando você precisa capturar dependências não lineares ou associação estatística geral.

Why it matters: É um conceito fundamental na teoria da comunicação para calcular a capacidade do canal e em aprendizado de máquina para seleção de atributos. Alta informação mútua indica que saber o estado de uma variável reduz significativamente a incerteza sobre a outra.

Symbols

Variables

I(X;Y) = Mutual Information, = P(X=0,Y=0), = P(X=0,Y=1), = P(X=1,Y=0), = P(X=1,Y=1)

I(X;Y)
Mutual Information
nats
P(X=0,Y=0)
Variable
P(X=0,Y=1)
Variable
P(X=1,Y=0)
Variable
P(X=1,Y=1)
Variable

Walkthrough

Derivation

Derivação da Informação Mútua de uma Tabela Conjunta 2×2

A informação mútua soma p(x,y) ln(p(x,y)/(p(x)p(y))) sobre todos os pares.

  • X e Y são binários.
  • Probabilidades conjuntas p00,p01,p10,p11 somam 1.
1

Começar da definição:

A informação mútua quantifica a dependência entre X e Y.

2

Calcular marginais da tabela 2×2:

Você precisa de p(x) e p(y) para formar a razão p(x,y)/(p(x)p(y)).

3

Somar os quatro termos (p00, p01, p10, p11):

Cada probabilidade conjunta não nula contribui com um termo. Por convenção, 0·ln(0)=0.

Result

Why it behaves this way

Intuition

Imagine uma paisagem estatística onde a 'altura' em cada ponto (x,y) representa o desvio da independência. A informação mútua é o 'volume' total desses desvios, ponderado pela frequência com que cada combinação ocorre.

Term
A quantidade de informação que uma variável aleatória (X) fornece sobre outra (Y).
Um valor alto significa que conhecer X reduz significativamente a incerteza sobre Y (e vice-versa); zero significa que são estatisticamente independentes.
Term
A probabilidade conjunta de observar um resultado específico 'x' para a variável X e um resultado específico 'y' para a variável Y simultaneamente.
Com que frequência uma combinação particular de estados (x,y) ocorre juntos nos dados observados.
Term
O produto das probabilidades marginais de X assumir o resultado 'x' e Y assumir o resultado 'y', representando sua probabilidade conjunta se X e Y fossem estatisticamente independentes.
A frequência de base de uma combinação (x,y) se não houvesse relação ou informação compartilhada entre X e Y.
Term
O 'conteúdo de informação' ou 'surpresa' associado a um par (x,y) específico, em relação à expectativa de independência, em unidades de nats.
Mede o quanto uma combinação (x,y) específica é mais (ou menos) provável do que se X e Y não estivessem relacionados. Um valor positivo significa mais provável, um valor negativo significa menos provável.
Term
Somatório sobre todos os possíveis resultados discretos para X e Y.
Agrega as contribuições de informação de cada combinação possível de X e Y para calcular a informação compartilhada total.

Signs and relationships

  • \ln\frac{p(x,y)}{p(x)p(y)}: O logaritmo natural transforma a razão de probabilidades em uma medida aditiva de informação. Se a probabilidade conjunta observada p(x,y) é maior que p(x)p(y), o termo logarítmico é positivo; se for menor, o termo é negativo.

Free study cues

Insight

Canonical usage

A informação mútua é uma quantidade adimensional, representando uma medida de dependência estatística. Convencionalmente é expressa em nats quando o logaritmo natural (ln) é usado, ou em bits quando o logaritmo de base 2 (log2)

Dimension note

A informação mútua é inerentemente adimensional porque é calculada a partir de razões de probabilidades, que por si só são adimensionais.

One free problem

Practice Problem

Um pesquisador está estudando a ligação entre uma mutação genética específica e um traço raro. Em uma população perfeitamente balanceada, as probabilidades conjuntas são todas iguais (0.25 cada). Calcule a Informação Mútua.

Hint: Se a probabilidade conjunta de cada célula for igual ao produto de suas probabilidades marginais, as variáveis são independentes.

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

No caso de quantifying how informative a medical test result is about disease status, Mutual Information (2×2) é utilizado para calcular Mutual Information from P(X=0,Y=0), P(X=0,Y=1), and P(X=1,Y=0). O resultado importa porque it helps evaluate model behaviour, algorithm cost, or prediction quality before relying on the output.

Study smarter

Tips

  • Certifique-se de que a soma das probabilidades conjuntas (p00, p01, p10, p11) seja exatamente 1.0 antes de começar.
  • Calcule as probabilidades marginais para X e Y somando as linhas e colunas da tabela de contingência.
  • Trate termos onde p(x,y) é zero como zero, pois o limite de p log(p) quando p se aproxima de zero é zero.
  • O resultado é medido em nats quando se usa o logaritmo natural (ln) ou em bits quando se usa log base 2.

Avoid these traps

Common Mistakes

  • Esquecer de normalizar as probabilidades para que somem 1.
  • Misturar logs (ln vs log2) e unidades (nats vs bits).

Common questions

Frequently Asked Questions

A informação mútua soma p(x,y) ln(p(x,y)/(p(x)p(y))) sobre todos os pares.

Aplique esta fórmula ao analisar a relação entre duas variáveis binárias, como comparar um resultado de teste com a presença de uma doença. É preferível à correlação linear quando você precisa capturar dependências não lineares ou associação estatística geral.

É um conceito fundamental na teoria da comunicação para calcular a capacidade do canal e em aprendizado de máquina para seleção de atributos. Alta informação mútua indica que saber o estado de uma variável reduz significativamente a incerteza sobre a outra.

Esquecer de normalizar as probabilidades para que somem 1. Misturar logs (ln vs log2) e unidades (nats vs bits).

No caso de quantifying how informative a medical test result is about disease status, Mutual Information (2×2) é utilizado para calcular Mutual Information from P(X=0,Y=0), P(X=0,Y=1), and P(X=1,Y=0). O resultado importa porque it helps evaluate model behaviour, algorithm cost, or prediction quality before relying on the output.

Certifique-se de que a soma das probabilidades conjuntas (p00, p01, p10, p11) seja exatamente 1.0 antes de começar. Calcule as probabilidades marginais para X e Y somando as linhas e colunas da tabela de contingência. Trate termos onde p(x,y) é zero como zero, pois o limite de p log(p) quando p se aproxima de zero é zero. O resultado é medido em nats quando se usa o logaritmo natural (ln) ou em bits quando se usa log base 2.

References

Sources

  1. Cover, Thomas M., and Joy A. Thomas. Elements of Information Theory. 2nd ed. Wiley-Interscience, 2006.
  2. Wikipedia: Mutual Information
  3. Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley.
  4. Cover, T. M., & Thomas, J. A. (2006). Elements of Information Theory (2nd ed.). Wiley-Interscience.
  5. Shannon, C. E. (1948). A Mathematical Theory of Communication. Bell System Technical Journal, 27(3), 379-423.