MathematicsEstadística y Análisis de RegresiónUniversity

Línea de Regresión Lineal Simple

Esta ecuación define la línea de mejor ajuste que minimiza la suma de los cuadrados de los residuos entre los valores observados y predichos para una relación lineal entre dos variables.

Understand the formulaSee the free derivationOpen the full walkthrough

\overset{y}{^} = b_{0} + b_{1} x where b_{1} = \frac{n \sum x y - ( \sum x ) ( \sum y )}{n \sum x ^{2} - ( \sum x ) ^{2}} and b_{0} = \overset{y}{ˉ} - b_{1} \overset{x}{ˉ}

Open Full Walkthrough Try Calculator

This public page keeps the free explanation visible and leaves premium worked solving, advanced walkthroughs, and saved study tools inside the app.

Core idea

Overview

La línea de regresión se calcula utilizando el método de Mínimos Cuadrados Ordinarios (MCO), que busca minimizar la varianza de los errores. La pendiente, b1, representa el cambio esperado en y por cada unidad de cambio en x, mientras que la intersección, b0, indica el valor predicho de y cuando x es cero. Juntos, estos parámetros caracterizan la tendencia lineal dentro de un conjunto de datos.

When to use: Utilice esto cuando necesite modelar la relación entre dos variables continuas y predecir resultados futuros basándose en tendencias lineales.

Why it matters: Es la herramienta fundamental para el análisis predictivo, permitiendo a investigadores y empresas pronosticar tendencias y cuantificar la fuerza de las relaciones entre variables.

Symbols

Variables

y^ = Predicted Value, $b_{1}$ = Slope, $b_{0}$ = Y-Intercept, x = Independent Variable, n = Sample Size

Predicted Value

Variable

b_{1}

Slope

Variable

b_{0}

Y-Intercept

Variable

x

Independent Variable

Variable

n

Sample Size

Variable

\overset{y}{^}

\hat{y}

Variable

Walkthrough

Derivation

Derivacion de Línea de Regresión Lineal Simple

Esta derivación utiliza el Método de Mínimos Cuadrados para minimizar la suma de los residuos al cuadrado entre los puntos de datos observados y el modelo de regresión lineal.

La relación entre las variables x e y es lineal.
Los errores son independientes y están distribuidos de forma idéntica con media cero.

Definir la suma de los residuos al cuadrado (SSR)

Definimos la función objetivo S como la suma de los cuadrados de las distancias verticales entre cada punto de datos observado $y_{i}$ y el valor predicho en la línea de regresión.

S (b_{0}, b_{1}) = i = 1 \sum n (y_{i} - (b_{0} + b_{1} x_{i}))^{2}

Note: Minimizar los residuos al cuadrado asegura que las desviaciones positivas y negativas no se cancelen entre sí.

Diferenciación parcial con respecto a b_0

Para minimizar S, tomamos la derivada parcial con respecto a $b_{0}$ y la igualamos a cero, lo que lleva a la ecuación normal para la intersección.

\frac{\partial S}{\partial b _{0}} = - 2 i = 1 \sum n (y_{i} - b_{0} - b_{1} x_{i}) = 0

Note: Simplificar esto resulta en la ecuación $b_{0}$ = $\overset{y}{ˉ}$ - $b_{1}$ \bar{x}.

Diferenciación parcial con respecto a b_1

Tomamos la derivada parcial con respecto a $b_{1}$ y la igualamos a cero para encontrar la pendiente que minimiza el error.

\frac{\partial S}{\partial b _{1}} = - 2 i = 1 \sum n x_{i} (y_{i} - b_{0} - b_{1} x_{i}) = 0

Note: Sustituya la expresión para $b_{0}$ del paso anterior en esta ecuación para aislar $b_{1}$ .

Resolver el sistema para b_1

Al sustituir $b_{0} = \overset{y}{ˉ} - b_{1} \overset{x}{ˉ}$ en la segunda ecuación normal y resolver algebraicamente, derivamos la fórmula computacional para el coeficiente de pendiente.

b_{1} = \frac{n \sum x _{i} y _{i} - ( \sum x _{i} ) ( \sum y _{i} )}{n \sum x _{i}^{2} - ( \sum x _{i} ) ^{2}}

Note: Esto es equivalente a $b_{1} = \frac{Cov ( x , y )}{Var ( x )}$ .

Result

b_{1} = \frac{n \sum x _{i} y _{i} - ( \sum x _{i} ) ( \sum y _{i} )}{n \sum x _{i}^{2} - ( \sum x _{i} ) ^{2}}

Source: Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to Linear Regression Analysis.

Why it behaves this way

Intuition

Imagine un diagrama de dispersión de puntos de datos como una nube de partículas flotantes. La línea de regresión actúa como un palo rígido y ponderado que pasa por el centro de la nube. La fórmula actúa como un mecanismo de 'gravedad' que gira y desplaza este palo hasta que la suma de las distancias verticales (al cuadrado) entre el palo y cada punto en la nube es un mínimo absoluto.

Term

Variable dependiente predicha

La coordenada 'objetivo' en la línea de mejor ajuste para una entrada dada, actuando como la 'mejor suposición' del modelo de dónde debería caer un punto de datos.

Term

Pendiente (coeficiente de regresión)

La 'tasa de cambio' o sensibilidad; le indica cuánto se espera que aumente o disminuya la salida por cada aumento de una unidad en la entrada.

Term

Intersección

El valor de 'línea base'; el valor esperado de la salida cuando la entrada es cero, anclando la línea al eje vertical.

Term

Tamaño de la muestra

El peso de la evidencia; le dice a la ecuación cuántos puntos de datos están contribuyendo a la determinación de la tendencia.

Signs and relationships

b_1: El signo de $b_{1}$ indica la dirección de la relación: positivo significa que ambas variables se mueven en la misma dirección, mientras que negativo indica una relación inversa.
b_0: Esta es una constante aditiva que desplaza toda la línea verticalmente, asegurando que la línea pase por el centroide (media) de los datos.

One free problem

Practice Problem

Dados los puntos de datos (1, 2), (2, 3) y (3, 5), calcule la pendiente b1 de la línea de regresión.

Hint: Calcule el numerador n*sum(xy) - sum(x)*sum(y) y el denominador n*sum( $x^{2}$ ) - (sum(x))^2 por separado.

The full worked solution stays in the interactive walkthrough.

Where it shows up

Real-World Context

Un economista utiliza esta ecuación para modelar la relación entre el gasto en marketing y los ingresos totales por ventas para predecir cuántos ingresos generará un presupuesto específico.

Study smarter

Tips

Cree siempre un diagrama de dispersión primero para asegurarse de que la relación sea realmente lineal.
Compruebe si hay valores atípicos, ya que pueden influir desproporcionadamente en la pendiente de la línea de regresión.
Calcule el coeficiente de correlación (r) para cuantificar la fuerza y dirección de la relación lineal.

Avoid these traps

Common Mistakes

Asumir que una correlación fuerte implica causalidad.
Extrapolar la línea de regresión mucho más allá del rango de los datos de x observados.

Common questions

Frequently Asked Questions

Esta derivación utiliza el Método de Mínimos Cuadrados para minimizar la suma de los residuos al cuadrado entre los puntos de datos observados y el modelo de regresión lineal.

Utilice esto cuando necesite modelar la relación entre dos variables continuas y predecir resultados futuros basándose en tendencias lineales.

Es la herramienta fundamental para el análisis predictivo, permitiendo a investigadores y empresas pronosticar tendencias y cuantificar la fuerza de las relaciones entre variables.

Asumir que una correlación fuerte implica causalidad. Extrapolar la línea de regresión mucho más allá del rango de los datos de x observados.

Un economista utiliza esta ecuación para modelar la relación entre el gasto en marketing y los ingresos totales por ventas para predecir cuántos ingresos generará un presupuesto específico.

Cree siempre un diagrama de dispersión primero para asegurarse de que la relación sea realmente lineal. Compruebe si hay valores atípicos, ya que pueden influir desproporcionadamente en la pendiente de la línea de regresión. Calcule el coeficiente de correlación (r) para cuantificar la fuerza y dirección de la relación lineal.

References

Sources

Montgomery, D. C., Peck, E. A., & Vining, G. G. (2012). Introduction to Linear Regression Analysis.
Freedman, D., Pisani, R., & Purves, R. (2007). Statistics.