MathematicsEstatística e Análise de RegressãoUniversity

Linha de Regressão Linear Simples

Esta equação define a linha de melhor ajuste que minimiza a soma dos quadrados dos resíduos entre os valores observados e previstos para uma relação linear entre duas variáveis.

Understand the formulaSee the free derivationOpen the full walkthrough

\overset{y}{^} = b_{0} + b_{1} x where b_{1} = \frac{n \sum x y - ( \sum x ) ( \sum y )}{n \sum x ^{2} - ( \sum x ) ^{2}} and b_{0} = \overset{y}{ˉ} - b_{1} \overset{x}{ˉ}

Open Full Walkthrough Try Calculator

This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.

Core idea

Overview

A linha de regressão é calculada usando o método dos Mínimos Quadrados Ordinários (MQO), que busca minimizar a variância dos erros. O coeficiente angular, b1, representa a mudança esperada em y por unidade de mudança em x, enquanto o intercepto, b0, indica o valor previsto de y quando x é zero. Juntos, esses parâmetros caracterizam a tendência linear dentro de um conjunto de dados.

When to use: Use isso quando precisar modelar a relação entre duas variáveis contínuas e prever resultados futuros com base em tendências lineares.

Why it matters: É a ferramenta fundamental para a análise preditiva, permitindo que pesquisadores e empresas prevejam tendências e quantifiquem a força das relações entre variáveis.

Symbols

Variables

y^ = Predicted Value, $b_{1}$ = Slope, $b_{0}$ = Y-Intercept, x = Independent Variable, n = Sample Size

Predicted Value

Variable

b_{1}

Slope

Variable

b_{0}

Y-Intercept

Variable

x

Independent Variable

Variable

n

Sample Size

Variable

\overset{y}{^}

\hat{y}

Variable

Walkthrough

Derivation

Derivação da Linha de Regressão Linear Simples

Esta derivação usa o Método dos Mínimos Quadrados para minimizar a soma dos resíduos quadrados entre os pontos de dados observados e o modelo de regressão linear.

A relação entre as variáveis x e y é linear.
Os erros são independentes e identicamente distribuídos com média zero.

Definir a Soma dos Resíduos Quadrados (SSR)

Definimos a função objetivo S como a soma dos quadrados das distâncias verticais entre cada ponto de dados observado $y_{i}$ e o valor predito na linha de regressão.

S (b_{0}, b_{1}) = i = 1 \sum n (y_{i} - (b_{0} + b_{1} x_{i}))^{2}

Note: Minimizar os resíduos quadrados garante que desvios positivos e negativos não se cancelem.

Diferenciação Parcial em relação a b_0

Para minimizar S, tomamos a derivada parcial em relação a $b_{0}$ e igualamos a zero, o que leva à equação normal para a interceptação.

\frac{\partial S}{\partial b _{0}} = - 2 i = 1 \sum n (y_{i} - b_{0} - b_{1} x_{i}) = 0

Note: Simplificar isso resulta na equação $b_{0}$ = $\overset{y}{ˉ}$ - $b_{1}$ \bar{x}.

Diferenciação Parcial em relação a b_1

Tomamos a derivada parcial em relação a $b_{1}$ e igualamos a zero para encontrar a inclinação que minimiza o erro.

\frac{\partial S}{\partial b _{1}} = - 2 i = 1 \sum n x_{i} (y_{i} - b_{0} - b_{1} x_{i}) = 0

Note: Substitua a expressão para $b_{0}$ do passo anterior nesta equação para isolar $b_{1}$ .

Resolver o Sistema para b_1

Ao substituir $b_{0} = \overset{y}{ˉ} - b_{1} \overset{x}{ˉ}$ na segunda equação normal e resolver algebricamente, derivamos a fórmula computacional para o coeficiente de inclinação.

b_{1} = \frac{n \sum x _{i} y _{i} - ( \sum x _{i} ) ( \sum y _{i} )}{n \sum x _{i}^{2} - ( \sum x _{i} ) ^{2}}

Note: Isso é equivalente a $b_{1} = \frac{Cov ( x , y )}{Var ( x )}$ .

Result

b_{1} = \frac{n \sum x _{i} y _{i} - ( \sum x _{i} ) ( \sum y _{i} )}{n \sum x _{i}^{2} - ( \sum x _{i} ) ^{2}}

Source: Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to Linear Regression Analysis.

Why it behaves this way

Intuition

Imagine um gráfico de dispersão de pontos de dados como uma nuvem de partículas flutuantes. A linha de regressão atua como uma vara rígida e ponderada passando pelo centro da nuvem. A fórmula atua como um mecanismo de 'gravidade' que rotaciona e desloca essa vara até que a soma das distâncias verticais (ao quadrado) entre a vara e cada ponto na nuvem esteja em um mínimo absoluto.

Term

Variável dependente predita

A coordenada 'alvo' na linha de melhor ajuste para uma entrada dada, atuando como o 'melhor palpite' do modelo para onde um ponto de dados deve cair.

Term

Inclinação (Coeficiente de Regressão)

A 'taxa de variação' ou sensibilidade; ela diz o quanto se espera que a saída aumente ou diminua para cada aumento de uma unidade na entrada.

Term

Intercepto

O valor de 'linha de base'; o valor esperado da saída quando a entrada é zero, ancorando a linha ao eixo vertical.

Term

Tamanho da amostra

O peso da evidência; ele diz à equação quantos pontos de dados estão contribuindo para a determinação da tendência.

Signs and relationships

b_1: O sinal de $b_{1}$ indica a direção da relação: positivo significa que ambas as variáveis se movem na mesma direção, enquanto negativo indica uma relação inversa.
b_0: Esta é uma constante aditiva que desloca toda a linha verticalmente, garantindo que a linha passe pelo centroide (média) dos dados.

One free problem

Practice Problem

Dados os pontos (1, 2), (2, 3) e (3, 5), calcule o coeficiente angular b1 da linha de regressão.

Hint: Calcule o numerador n*sum(xy) - sum(x)*sum(y) e o denominador n*sum( $x^{2}$ ) - (sum(x))^2 separadamente.

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

Um economista usa esta equação para modelar a relação entre gastos em marketing e receita total de vendas para prever quanta receita um orçamento específico gerará.

Study smarter

Tips

Sempre crie um gráfico de dispersão primeiro para garantir que a relação seja realmente linear.
Verifique se há outliers, pois eles podem influenciar desproporcionalmente o coeficiente angular da linha de regressão.
Calcule o coeficiente de correlação (r) para quantificar a força e a direção da relação linear.

Avoid these traps

Common Mistakes

Assumir que uma forte correlação implica causalidade.
Extrapolar a linha de regressão muito além do intervalo dos dados de x observados.

Common questions

Frequently Asked Questions

Esta derivação usa o Método dos Mínimos Quadrados para minimizar a soma dos resíduos quadrados entre os pontos de dados observados e o modelo de regressão linear.

Use isso quando precisar modelar a relação entre duas variáveis contínuas e prever resultados futuros com base em tendências lineares.

É a ferramenta fundamental para a análise preditiva, permitindo que pesquisadores e empresas prevejam tendências e quantifiquem a força das relações entre variáveis.

Assumir que uma forte correlação implica causalidade. Extrapolar a linha de regressão muito além do intervalo dos dados de x observados.

Um economista usa esta equação para modelar a relação entre gastos em marketing e receita total de vendas para prever quanta receita um orçamento específico gerará.

Sempre crie um gráfico de dispersão primeiro para garantir que a relação seja realmente linear. Verifique se há outliers, pois eles podem influenciar desproporcionalmente o coeficiente angular da linha de regressão. Calcule o coeficiente de correlação (r) para quantificar a força e a direção da relação linear.

References

Sources

Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to Linear Regression Analysis.
Freedman, D., Pisani, R., & Purves, R. (2007). Statistics.