Untitled

Claro, profesor Fuentes. A continuación le explico detalladamente la regresión lineal simple, desde el planteamiento matemático hasta su interpretación, con un enfoque adecuado para su uso en docencia con Python o R.

📌 ¿Qué es la regresión lineal?

La regresión lineal simple es un modelo estadístico que busca describir la relación entre una variable independiente \(x\) y una variable dependiente \(y\), a través de una línea recta que se ajusta lo mejor posible a los datos observados.

📐 Ecuación de la recta de regresión lineal

La forma general de la ecuación es:

\[ \hat{y} = \beta_0 + \beta_1 x \]

Donde:

\(\hat{y}\): valor estimado o predicho de la variable dependiente.
\(\beta_0\): intercepto o término independiente (valor de \(\hat{y}\) cuando \(x = 0\)).
\(\beta_1\): pendiente de la recta, indica el cambio en \(y\) por unidad de cambio en \(x\).
\(x\): valor de la variable independiente.

🧮 ¿Cómo se calculan \(\beta_0\) y \(\beta_1\)?

Se obtienen minimizando los errores (diferencias entre \(y\) observado y \(\hat{y}\)) con el método de mínimos cuadrados:

Ecuaciones:

\[ \beta_1 = \frac{\sum_{i=1}^{n}(x_i - \bar{x})(y_i - \bar{y})}{\sum_{i=1}^{n}(x_i - \bar{x})^2} \]

\[ \beta_0 = \bar{y} - \beta_1 \bar{x} \]

Donde:

\(\bar{x}\): media de \(x\)
\(\bar{y}\): media de \(y\)
\(n\): número de observaciones

📊 Ejemplo numérico sencillo

Supongamos los siguientes datos:

x	y
1	2
2	3
3	5

Paso 1: Calcular medias

\[ \bar{x} = \frac{1+2+3}{3} = 2 \quad ; \quad \bar{y} = \frac{2+3+5}{3} = 3.33 \]

Paso 2: Calcular \(\beta_1\)

\[ \beta_1 = \frac{(1-2)(2-3.33)+(2-2)(3-3.33)+(3-2)(5-3.33)}{(1-2)^2+(2-2)^2+(3-2)^2} \]

\[ = \frac{(-1)(-1.33)+0(-0.33)+1(1.67)}{1+0+1} = \frac{1.33 + 0 + 1.67}{2} = \frac{3}{2} = 1.5 \]

Paso 3: Calcular \(\beta_0\)

\[ \beta_0 = 3.33 - 1.5(2) = 3.33 - 3 = 0.33 \]

Ecuación final:

\[ \hat{y} = 0.33 + 1.5x \]

📐 Interpretación

Pendiente \(\beta_1 = 1.5\): por cada unidad que aumenta \(x\), se espera que \(y\) aumente en 1.5 unidades.
Intercepto \(\beta_0 = 0.33\): cuando \(x = 0\), se espera que \(y\) sea 0.33.

🧪 Error y bondad de ajuste

El error se mide con:

Error cuadrático medio (MSE) o
R² (coeficiente de determinación): indica el porcentaje de la variabilidad de \(y\) explicada por \(x\).

\[ R^2 = 1 - \frac{\text{Suma de errores cuadrados}}{\text{Suma total de cuadrados}} \]

¿Desea que continúe con una implementación en Python o R usando estos datos o con datos reales? También puedo extender a regresión múltiple si lo considera útil.