Droite de régression linéaire simple
Cette équation définit la droite de meilleur ajustement qui minimise la somme des carrés des résidus entre les valeurs observées et prédites pour une relation linéaire entre deux variables.
This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.
Core idea
Overview
La droite de régression est calculée à l'aide de la méthode des moindres carrés ordinaires (MCO), qui cherche à minimiser la variance des erreurs. La pente, b1, représente le changement attendu de y par changement unitaire de x, tandis que l'ordonnée à l'origine, b0, indique la valeur prédite de y lorsque x est nul. Ensemble, ces paramètres caractérisent la tendance linéaire dans un ensemble de données.
When to use: Utilisez ceci lorsque vous devez modéliser la relation entre deux variables continues et prédire les résultats futurs en fonction de tendances linéaires.
Why it matters: C'est l'outil fondamental de l'analyse prédictive, permettant aux chercheurs et aux entreprises de prévoir les tendances et de quantifier la force des relations entre les variables.
Symbols
Variables
y^ = Predicted Value, = Slope, = Y-Intercept, x = Independent Variable, n = Sample Size
Walkthrough
Derivation
Dérivation de la droite de régression linéaire simple
Cette dérivation utilise la méthode des moindres carrés pour minimiser la somme des carrés des résidus entre les points de données observés et le modèle de régression linéaire.
- La relation entre les variables x et y est linéaire.
- Les erreurs sont indépendantes et identiquement distribuées avec une moyenne nulle.
Définir la somme des carrés des résidus (SSR)
Nous définissons la fonction objectif S comme la somme des carrés des distances verticales entre chaque point de données observé et la valeur prédite sur la droite de régression.
Note: Minimiser les résidus carrés garantit que les écarts positifs et négatifs ne s'annulent pas.
Différentiation partielle par rapport à b_0
Pour minimiser S, nous prenons la dérivée partielle par rapport à et nous l'égalons à zéro, ce qui mène à l'équation normale pour l'ordonnée à l'origine.
Note: La simplification donne l'équation = - \bar{x}.
Différentiation partielle par rapport à b_1
Nous prenons la dérivée partielle par rapport à et nous l'égalons à zéro pour trouver la pente qui minimise l'erreur.
Note: Substituez l'expression de de l'étape précédente dans cette équation pour isoler .
Résoudre le système pour b_1
En substituant dans la deuxième équation normale et en résolvant algébriquement, nous dérivons la formule de calcul pour le coefficient de pente.
Note: Ceci est équivalent à .
Result
Source: Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to Linear Regression Analysis.
Why it behaves this way
Intuition
Imaginez un nuage de points de données comme un amas de particules flottantes. La droite de régression agit comme un bâton rigide et pondéré passant par le centre du nuage. La formule agit comme un mécanisme de 'gravité' qui fait pivoter et glisse ce bâton jusqu'à ce que la somme des distances verticales (au carré) entre le bâton et chaque point du nuage soit à un minimum absolu.
Signs and relationships
- b_1: Le signe de indique la direction de la relation : positif signifie que les deux variables évoluent dans la même direction, tandis que négatif indique une relation inverse.
- b_0: C'est une constante additive qui déplace toute la ligne verticalement, garantissant que la ligne passe par le centroïde (moyenne) des données.
One free problem
Practice Problem
Étant donné les points de données (1, 2), (2, 3) et (3, 5), calculez la pente b1 de la ligne de régression.
Hint: Indice : Calculate the numerator n*sum(xy) - sum(x)*sum(y) and the denominator n*sum() - (sum(x))^2 separately.
The full worked solution stays in the interactive walkthrough.
Where it shows up
Real-World Context
Un économiste utilise cette équation pour modéliser la relation entre les dépenses marketing et le chiffre d'affaires total afin de prédire combien de revenus un budget spécifique générera.
Study smarter
Tips
- Conseil : Always create a scatter plot first to ensure the relationship is actually linear.
- Vérifiez les valeurs aberrantes, car elles peuvent influencer de manière disproportionnée la pente de la droite de régression.
- Calculez le coefficient de corrélation (r) pour quantifier la force et la direction de la relation linéaire.
Avoid these traps
Common Mistakes
- Erreur fréquente : Assuming that a strong correlation implies causation.
- Extrapoler la ligne de régression bien au-delà de la plage des données x observées.
Common questions
Frequently Asked Questions
Cette dérivation utilise la méthode des moindres carrés pour minimiser la somme des carrés des résidus entre les points de données observés et le modèle de régression linéaire.
Utilisez ceci lorsque vous devez modéliser la relation entre deux variables continues et prédire les résultats futurs en fonction de tendances linéaires.
C'est l'outil fondamental de l'analyse prédictive, permettant aux chercheurs et aux entreprises de prévoir les tendances et de quantifier la force des relations entre les variables.
Erreur fréquente : Assuming that a strong correlation implies causation. Extrapoler la ligne de régression bien au-delà de la plage des données x observées.
Un économiste utilise cette équation pour modéliser la relation entre les dépenses marketing et le chiffre d'affaires total afin de prédire combien de revenus un budget spécifique générera.
Conseil : Always create a scatter plot first to ensure the relationship is actually linear. Vérifiez les valeurs aberrantes, car elles peuvent influencer de manière disproportionnée la pente de la droite de régression. Calculez le coefficient de corrélation (r) pour quantifier la force et la direction de la relation linéaire.
References
Sources
- Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to Linear Regression Analysis.
- Freedman, D., Pisani, R., & Purves, R. (2007). Statistics.