MathematicsStatistik und RegressionsanalyseUniversity

Einfache lineare Regressionsgerade

Diese Gleichung definiert die Ausgleichsgerade, die die Summe der quadrierten Residuen zwischen beobachteten und vorhergesagten Werten für eine lineare Beziehung zwischen zwei Variablen minimiert.

Understand the formulaSee the free derivationOpen the full walkthrough

This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.

Core idea

Overview

Die Regressionsgerade wird mit der Methode der kleinsten Quadrate berechnet, die darauf abzielt, die Varianz der Fehler zu minimieren. Die Steigung b1 repräsentiert die erwartete Änderung von y pro Einheit Änderung in x, während der Achsenabschnitt b0 den vorhergesagten Wert von y angibt, wenn x gleich null ist. Zusammen charakterisieren diese Parameter den linearen Trend innerhalb eines Datensatzes.

When to use: Verwende dies, wenn du die Beziehung zwischen zwei stetigen Variablen modellieren und zukünftige Ergebnisse auf Basis linearer Trends vorhersagen möchtest.

Why it matters: Es ist das grundlegende Werkzeug für prädiktive Analytik und ermöglicht Forschern und Unternehmen, Trends vorherzusagen und die Stärke von Beziehungen zwischen Variablen zu quantifizieren.

Symbols

Variables

y^ = Predicted Value, = Slope, = Y-Intercept, x = Independent Variable, n = Sample Size

y^
Predicted Value
Variable
Slope
Variable
Y-Intercept
Variable
Independent Variable
Variable
Sample Size
Variable
\hat{y}
Variable

Walkthrough

Derivation

Herleitung der einfachen linearen Regressionsgeraden

Diese Herleitung nutzt die Methode der kleinsten Quadrate, um die Summe der quadrierten Residuen zwischen beobachteten Datenpunkten und dem linearen Regressionsmodell zu minimieren.

  • Die Beziehung zwischen den Variablen x und y ist linear.
  • Die Fehler sind unabhängig und identisch verteilt mit einem Mittelwert von Null.
1

Definition der Summe der quadrierten Residuen (SSR)

Wir definieren die Zielfunktion S als die Summe der Quadrate der vertikalen Abstände zwischen jedem beobachteten Datenpunkt und dem vorhergesagten Wert auf der Regressionsgeraden.

Note: Das Minimieren der quadrierten Residuen stellt sicher, dass positive und negative Abweichungen einander nicht aufheben.

2

Partielle Differenzierung nach b_0

Um S zu minimieren, bilden wir die partielle Ableitung nach und setzen diese gleich Null, was zur Normalgleichung für den Achsenabschnitt führt.

Note: Die Vereinfachung ergibt die Gleichung = - \bar{x}.

3

Partielle Differenzierung nach b_1

Wir bilden die partielle Ableitung nach und setzen diese gleich Null, um die Steigung zu finden, die den Fehler minimiert.

Note: Setzen Sie den Ausdruck für aus dem vorherigen Schritt in diese Gleichung ein, um zu isolieren.

4

Lösen des Systems nach b_1

Durch Einsetzen von in die zweite Normalgleichung und algebraisches Lösen leiten wir die Berechnungsformel für den Steigungskoeffizienten her.

Note: Dies entspricht .

Result

Source: Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to Linear Regression Analysis.

Why it behaves this way

Intuition

Stellen Sie sich ein Streudiagramm von Datenpunkten als eine Wolke schwebender Partikel vor. Die Regressionsgerade wirkt wie ein starrer, gewichteter Stab, der durch das Zentrum der Wolke verläuft. Die Formel fungiert als „Gravitationsmechanismus“, der diesen Stab dreht und verschiebt, bis die Summe der vertikalen (quadrierten) Abstände zwischen dem Stab und jedem Punkt in der Wolke ein absolutes Minimum erreicht.

Term
Vorhergesagte abhängige Variable
Die „Ziel-Koordinate“ auf der Ausgleichsgeraden für eine gegebene Eingabe, die als „beste Schätzung“ des Modells fungiert, wo ein Datenpunkt liegen sollte.
Term
Steigung (Regressionskoeffizient)
Die „Änderungsrate“ oder Sensitivität; sie gibt an, um wie viel der Output erwartungsgemäß pro Einheit Erhöhung des Inputs steigt oder sinkt.
Term
Achsenabschnitt
Der „Basiswert“; der erwartete Wert des Outputs, wenn der Input Null ist, was die Gerade an der vertikalen Achse verankert.
Term
Stichprobenumfang
Das Gewicht der Evidenz; es teilt der Gleichung mit, wie viele Datenpunkte zur Bestimmung des Trends beitragen.

Signs and relationships

  • b_1: Das Vorzeichen von gibt die Richtung der Beziehung an: Positiv bedeutet, dass sich beide Variablen in die gleiche Richtung bewegen, während Negativ auf eine inverse Beziehung hindeutet.
  • b_0: Dies ist eine additive Konstante, die die gesamte Gerade vertikal verschiebt und sicherstellt, dass die Gerade durch den Schwerpunkt (Mittelwert) der Daten verläuft.

One free problem

Practice Problem

Gegeben sind die Datenpunkte (1, 2), (2, 3) und (3, 5). Berechne die Steigung b1 der Regressionsgeraden.

Hint: Berechne Zähler und Nenner getrennt: n*sum(xy) - sum(x)*sum(y) sowie n*sum() - (sum(x))^2.

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

Ein Ökonom verwendet diese Gleichung, um die Beziehung zwischen Marketingausgaben und Gesamtumsatz zu modellieren und vorherzusagen, wie viel Umsatz ein bestimmtes Budget generieren wird.

Study smarter

Tips

  • Erstelle immer zuerst ein Streudiagramm, um sicherzustellen, dass die Beziehung tatsächlich linear ist.
  • Prüfe auf Ausreißer, da sie die Steigung der Regressionsgeraden unverhältnismäßig stark beeinflussen können.
  • Berechne den Korrelationskoeffizienten (r), um die Stärke und Richtung der linearen Beziehung zu quantifizieren.

Avoid these traps

Common Mistakes

  • Anzunehmen, dass eine starke Korrelation Kausalität impliziert.
  • Die Regressionsgerade weit über den beobachteten x-Datenbereich hinaus zu extrapolieren.

Common questions

Frequently Asked Questions

Diese Herleitung nutzt die Methode der kleinsten Quadrate, um die Summe der quadrierten Residuen zwischen beobachteten Datenpunkten und dem linearen Regressionsmodell zu minimieren.

Verwende dies, wenn du die Beziehung zwischen zwei stetigen Variablen modellieren und zukünftige Ergebnisse auf Basis linearer Trends vorhersagen möchtest.

Es ist das grundlegende Werkzeug für prädiktive Analytik und ermöglicht Forschern und Unternehmen, Trends vorherzusagen und die Stärke von Beziehungen zwischen Variablen zu quantifizieren.

Anzunehmen, dass eine starke Korrelation Kausalität impliziert. Die Regressionsgerade weit über den beobachteten x-Datenbereich hinaus zu extrapolieren.

Ein Ökonom verwendet diese Gleichung, um die Beziehung zwischen Marketingausgaben und Gesamtumsatz zu modellieren und vorherzusagen, wie viel Umsatz ein bestimmtes Budget generieren wird.

Erstelle immer zuerst ein Streudiagramm, um sicherzustellen, dass die Beziehung tatsächlich linear ist. Prüfe auf Ausreißer, da sie die Steigung der Regressionsgeraden unverhältnismäßig stark beeinflussen können. Berechne den Korrelationskoeffizienten (r), um die Stärke und Richtung der linearen Beziehung zu quantifizieren.

References

Sources

  1. Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to Linear Regression Analysis.
  2. Freedman, D., Pisani, R., & Purves, R. (2007). Statistics.