MathematicsStatistiques et Analyse de régressionUniversity

Droite de régression linéaire simple

Cette équation définit la droite de meilleur ajustement qui minimise la somme des carrés des résidus entre les valeurs observées et prédites pour une relation linéaire entre deux variables.

Understand the formulaSee the free derivationOpen the full walkthrough

\overset{y}{^} = b_{0} + b_{1} x where b_{1} = \frac{n \sum x y - ( \sum x ) ( \sum y )}{n \sum x ^{2} - ( \sum x ) ^{2}} and b_{0} = \overset{y}{ˉ} - b_{1} \overset{x}{ˉ}

Open Full Walkthrough Try Calculator

This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.

Core idea

Overview

La droite de régression est calculée à l'aide de la méthode des moindres carrés ordinaires (MCO), qui cherche à minimiser la variance des erreurs. La pente, b1, représente le changement attendu de y par changement unitaire de x, tandis que l'ordonnée à l'origine, b0, indique la valeur prédite de y lorsque x est nul. Ensemble, ces paramètres caractérisent la tendance linéaire dans un ensemble de données.

When to use: Utilisez ceci lorsque vous devez modéliser la relation entre deux variables continues et prédire les résultats futurs en fonction de tendances linéaires.

Why it matters: C'est l'outil fondamental de l'analyse prédictive, permettant aux chercheurs et aux entreprises de prévoir les tendances et de quantifier la force des relations entre les variables.

Symbols

Variables

y^ = Predicted Value, $b_{1}$ = Slope, $b_{0}$ = Y-Intercept, x = Independent Variable, n = Sample Size

Predicted Value

Variable

b_{1}

Slope

Variable

b_{0}

Y-Intercept

Variable

x

Independent Variable

Variable

n

Sample Size

Variable

\overset{y}{^}

\hat{y}

Variable

Walkthrough

Derivation

Dérivation de la droite de régression linéaire simple

Cette dérivation utilise la méthode des moindres carrés pour minimiser la somme des carrés des résidus entre les points de données observés et le modèle de régression linéaire.

La relation entre les variables x et y est linéaire.
Les erreurs sont indépendantes et identiquement distribuées avec une moyenne nulle.

Définir la somme des carrés des résidus (SSR)

Nous définissons la fonction objectif S comme la somme des carrés des distances verticales entre chaque point de données observé $y_{i}$ et la valeur prédite sur la droite de régression.

S (b_{0}, b_{1}) = i = 1 \sum n (y_{i} - (b_{0} + b_{1} x_{i}))^{2}

Note: Minimiser les résidus carrés garantit que les écarts positifs et négatifs ne s'annulent pas.

Différentiation partielle par rapport à b_0

Pour minimiser S, nous prenons la dérivée partielle par rapport à $b_{0}$ et nous l'égalons à zéro, ce qui mène à l'équation normale pour l'ordonnée à l'origine.

\frac{\partial S}{\partial b _{0}} = - 2 i = 1 \sum n (y_{i} - b_{0} - b_{1} x_{i}) = 0

Note: La simplification donne l'équation $b_{0}$ = $\overset{y}{ˉ}$ - $b_{1}$ \bar{x}.

Différentiation partielle par rapport à b_1

Nous prenons la dérivée partielle par rapport à $b_{1}$ et nous l'égalons à zéro pour trouver la pente qui minimise l'erreur.

\frac{\partial S}{\partial b _{1}} = - 2 i = 1 \sum n x_{i} (y_{i} - b_{0} - b_{1} x_{i}) = 0

Note: Substituez l'expression de $b_{0}$ de l'étape précédente dans cette équation pour isoler $b_{1}$ .

Résoudre le système pour b_1

En substituant $b_{0} = \overset{y}{ˉ} - b_{1} \overset{x}{ˉ}$ dans la deuxième équation normale et en résolvant algébriquement, nous dérivons la formule de calcul pour le coefficient de pente.

b_{1} = \frac{n \sum x _{i} y _{i} - ( \sum x _{i} ) ( \sum y _{i} )}{n \sum x _{i}^{2} - ( \sum x _{i} ) ^{2}}

Note: Ceci est équivalent à $b_{1} = \frac{Cov ( x , y )}{Var ( x )}$ .

Result

b_{1} = \frac{n \sum x _{i} y _{i} - ( \sum x _{i} ) ( \sum y _{i} )}{n \sum x _{i}^{2} - ( \sum x _{i} ) ^{2}}

Source: Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to Linear Regression Analysis.

Why it behaves this way

Intuition

Imaginez un nuage de points de données comme un amas de particules flottantes. La droite de régression agit comme un bâton rigide et pondéré passant par le centre du nuage. La formule agit comme un mécanisme de 'gravité' qui fait pivoter et glisse ce bâton jusqu'à ce que la somme des distances verticales (au carré) entre le bâton et chaque point du nuage soit à un minimum absolu.

Term

Variable dépendante prédite

La coordonnée 'cible' sur la ligne de meilleur ajustement pour une entrée donnée, agissant comme la 'meilleure estimation' du modèle pour l'endroit où un point de données devrait se situer.

Term

Pente (Coefficient de régression)

Le 'taux de variation' ou sensibilité ; il vous indique de combien la sortie est censée augmenter ou diminuer pour chaque augmentation d'une unité de l'entrée.

Term

Ordonnée à l'origine

La valeur de 'base' ; la valeur attendue de la sortie lorsque l'entrée est zéro, ancrant la ligne à l'axe vertical.

Term

Taille de l'échantillon

Le poids de la preuve ; il indique à l'équation combien de points de données contribuent à la détermination de la tendance.

Signs and relationships

b_1: Le signe de $b_{1}$ indique la direction de la relation : positif signifie que les deux variables évoluent dans la même direction, tandis que négatif indique une relation inverse.
b_0: C'est une constante additive qui déplace toute la ligne verticalement, garantissant que la ligne passe par le centroïde (moyenne) des données.

One free problem

Practice Problem

Étant donné les points de données (1, 2), (2, 3) et (3, 5), calculez la pente b1 de la ligne de régression.

Hint: Indice : Calculate the numerator n*sum(xy) - sum(x)*sum(y) and the denominator n*sum( $x^{2}$ ) - (sum(x))^2 separately.

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

Un économiste utilise cette équation pour modéliser la relation entre les dépenses marketing et le chiffre d'affaires total afin de prédire combien de revenus un budget spécifique générera.

Study smarter

Tips

Conseil : Always create a scatter plot first to ensure the relationship is actually linear.
Vérifiez les valeurs aberrantes, car elles peuvent influencer de manière disproportionnée la pente de la droite de régression.
Calculez le coefficient de corrélation (r) pour quantifier la force et la direction de la relation linéaire.

Avoid these traps

Common Mistakes

Erreur fréquente : Assuming that a strong correlation implies causation.
Extrapoler la ligne de régression bien au-delà de la plage des données x observées.

Common questions

Frequently Asked Questions

Cette dérivation utilise la méthode des moindres carrés pour minimiser la somme des carrés des résidus entre les points de données observés et le modèle de régression linéaire.

Utilisez ceci lorsque vous devez modéliser la relation entre deux variables continues et prédire les résultats futurs en fonction de tendances linéaires.

C'est l'outil fondamental de l'analyse prédictive, permettant aux chercheurs et aux entreprises de prévoir les tendances et de quantifier la force des relations entre les variables.

Erreur fréquente : Assuming that a strong correlation implies causation. Extrapoler la ligne de régression bien au-delà de la plage des données x observées.

Un économiste utilise cette équation pour modéliser la relation entre les dépenses marketing et le chiffre d'affaires total afin de prédire combien de revenus un budget spécifique générera.

Conseil : Always create a scatter plot first to ensure the relationship is actually linear. Vérifiez les valeurs aberrantes, car elles peuvent influencer de manière disproportionnée la pente de la droite de régression. Calculez le coefficient de corrélation (r) pour quantifier la force et la direction de la relation linéaire.

References

Sources

Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to Linear Regression Analysis.
Freedman, D., Pisani, R., & Purves, R. (2007). Statistics.