¿Qué Es La Regresión Lineal Simple?

La Regresión Lineal Simple (RLS) es un método estadístico fundamental que se utiliza para modelar la relación lineal entre dos variables continuas. Es una técnica de aprendizaje supervisado.

El modelo de RLS involucra dos tipos de variables:

1) Variable Dependiente (Y): También conocida como variable de respuesta o resultado. Es la variable que queremos predecir o explicar.
2) Variable Independiente (X): También conocida como variable predictora o explicativa. Es la variable que se utiliza para influir o predecir el valor de la variable dependiente.

Objetivo

El objetivo principal de la Regresión Lineal Simple es encontrar la línea recta que mejor se ajusta a los datos, de manera que esta línea pueda usarse para:

✔️ Predecir el valor de Y para un valor dado de X.
✔️ Comprender la fuerza y dirección de la relación entre X y Y.

Ecuación del Modelo

El modelo de regresión lineal simple se representa matemáticamente con la ecuación de una línea recta:

\[Y = \beta _{0} + \beta _{1}X + \varepsilon\]

Donde:

Y: Es el valor de la variable dependiente.
X: Es el valor de la variable independiente.
$\beta_0$ (Intersección o Intercepto): Es el valor esperado de Y cuando X es 0 (donde la línea cruza el eje Y).
$\beta_1$ (Pendiente o Coeficiente de Regresión): Indica cuánto cambia Y por cada unidad de cambio en X. Este valor define la pendiente de la línea.
$\epsilon$ (Término de Error): Representa la diferencia entre el valor real de Y y el valor predicho por el modelo. Incluye todos los factores no observados que afectan Y.

Hipótesis

1.Salario vs. Años de Experiencia

Este modelo predice el salario (Y) basándose en los años de experiencia (X).

library(knitr)
library(kableExtra)

Hipotesis_1 <- data.frame(
  "Años_De_Experiencia(X)" = c("1.1", "3.2", "5.1" , "7.4" , "10.3" , "12.0"),
  "Salario_Anual(Y)" = c("39.34", "55.79", "75.80" , "98.27" , "122.39" , "143.01"),
  stringsAsFactors = FALSE
)

kable(Hipotesis_1, "html", caption = "Datos relacionados:") %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed"),
    full_width = FALSE,
    font_size = 20
  )

Datos relacionados:
Años_De_Experiencia.X.	Salario_Anual.Y.
1.1	39.34
3.2	55.79
5.1	75.80
7.4	98.27
10.3	122.39
12.0	143.01

Hipótesis a Contrastar

Hipótesis Nula ($\mathbf{H_0}$): $\mathbf{\beta_1 = 0}$. Los años de experiencia no tienen un efecto lineal en el salario.
Hipótesis Alternativa ($\mathbf{H_1}$): $\mathbf{\beta_1 \ne 0}$. Los años de experiencia sí tienen un efecto lineal en el salario.

Interpretación

Supongamos que el modelo de RLS ajustado nos da la siguiente ecuación:

\[Y = 25.79 + 9.49X\]

$\mathbf{\beta_1 = 9.49}$: La pendiente es positiva. Esto sugiere que por cada año adicional de experiencia (X), el salario aumenta en promedio 9.49 miles de USD (o $9,490).
Decisión sobre $H_0$: Si el análisis estadístico (usando el valor p) resulta en un valor significativo (p-value < 0.05), rechazaríamos $H_0$ y concluiríamos que sí existe una relación lineal positiva entre la experiencia y el salario.

2.Consumo Eléctrico vs. Temperatura Media

Este modelo predice el consumo eléctrico ($Y$) basándose en la temperatura media diaria ($X$), asumiendo que el consumo aumenta con el uso de aire acondicionado o calefacción.

library(knitr)
library(kableExtra)

Hipotesis_2 <- data.frame(
  "Temperatura_Media_Diaria(X)" = c("5", "10", "15" , "20" , "25" , "30"),
  "Consumo_Eléctrico(Y)" = c("18.5", "16.0", "20.2" , "25.5" , "32.1" , "40.8"),
  stringsAsFactors = FALSE
)

kable(Hipotesis_2, "html", caption = "Datos relacionados:") %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed"),
    full_width = FALSE,
    font_size = 20
  )

Datos relacionados:
Temperatura_Media_Diaria.X.	Consumo_Eléctrico.Y.
5	18.5
10	16.0
15	20.2
20	25.5
25	32.1
30	40.8

Hipótesis a contrastar

Hipótesis Nula ($\mathbf{H_0}$): $\mathbf{\beta_1 = 0}$. La temperatura media diaria no está relacionada linealmente con el consumo eléctrico.
Hipótesis Alternativa ($\mathbf{H_1}$): $\mathbf{\beta_1 \ne 0}$. La temperatura media diaria sí está relacionada linealmente con el consumo eléctrico.

Interpretación

Supongamos que el modelo de RLS ajustado nos da la siguiente ecuación:

\[Y = 5.23 + 1.05X\]

$\mathbf{\beta_1 = 1.05}$: La pendiente es positiva. Esto sugiere que por cada aumento de 1°C en la temperatura media diaria (X), el consumo eléctrico aumenta en promedio 1.05 kWh (Y).
Decisión sobre $H_0$: Si el valor p es bajo, rechazaríamos $H_0$. Concluiríamos que existe una relación lineal significativa y positiva entre la temperatura media y el consumo eléctrico, lo cual tiene sentido debido al uso de sistemas de climatización.

precios <- c(50, 55, 53, 60, 65)

log_precios <- log(precios)
media_log <- mean(log_precios)
desv_log <- sd(log_precios)

x <- seq(40, 80, length.out = 200)

densidad <- dlnorm(x, meanlog = media_log, sdlog = desv_log)
plot(
  x, densidad,
  type = "l",
  lwd = 2,
  col = "blue",
  main = "Distribución Lognormal de Precios de una Acción",
  xlab = "Precio (X)",
  ylab = "Densidad de probabilidad"
)

polygon(x, densidad, col = rgb(0.2, 0.6, 1, 0.3), border = NA)

points(precios, dlnorm(precios, meanlog = media_log, sdlog = desv_log),
       col = "red", pch = 19)

lambda <- 0.61

x <- 0:6  


probabilidades <- dpois(x, lambda)

datos <- data.frame(
  muertes = x,
  probabilidad = probabilidades
)

x_cont <- seq(0, 6, length.out = 500)

densidad_suave <- spline(x, dpois(x, lambda), xout = x_cont)$y

plot(
  x_cont, densidad_suave,
  type = "l",
  lwd = 2,
  col = "blue",
  main = "Distribución Poisson (Muertes por patadas de caballo)",
  xlab = "Número de muertes (X)",
  ylab = "Probabilidad P(X = x)"
)


points(datos$muertes, datos$probabilidad,
       col = "red", pch = 19)

p_x2 <- dpois(2, lambda)
points(2, p_x2, col = "darkred", pch = 19, cex = 1.5)
text(2, p_x2 + 0.015, paste0("P(X=2) = ", round(p_x2, 3)), col = "darkred")

REFERENCIAS

Ayuda Epidat. (2014, octubre). Distribuciones de probabilidad. Servicio Galego de Saúde (SERGAS). https://www.sergas.es/Saude-publica/Documents/1899/Ayuda_Epidat_4_Distribuciones_de_probabilidad_Octubre2014.pdf

Investopedia. (s. f.). Probability Distribution. Investopedia. https://www.investopedia.com/terms/p/probabilitydistribution.asp

Regresión Lineal Simple

Esteban Gomez Cruz

2025-11-24

¿Qué Es La Regresión Lineal Simple?

La Regresión Lineal Simple (RLS) es un método estadístico fundamental que se utiliza para modelar la relación lineal entre dos variables continuas. Es una técnica de aprendizaje supervisado.

El modelo de RLS involucra dos tipos de variables:

1) Variable Dependiente (Y): También conocida como variable de respuesta o resultado. Es la variable que queremos predecir o explicar.

2) Variable Independiente (X): También conocida como variable predictora o explicativa. Es la variable que se utiliza para influir o predecir el valor de la variable dependiente.

Objetivo

El objetivo principal de la Regresión Lineal Simple es encontrar la línea recta que mejor se ajusta a los datos, de manera que esta línea pueda usarse para:

Ecuación del Modelo

El modelo de regresión lineal simple se representa matemáticamente con la ecuación de una línea recta:

Donde:

Y: Es el valor de la variable dependiente.

X: Es el valor de la variable independiente.

\(\beta_0\) (Intersección o Intercepto): Es el valor esperado de Y cuando X es 0 (donde la línea cruza el eje Y).

\(\beta_1\) (Pendiente o Coeficiente de Regresión): Indica cuánto cambia Y por cada unidad de cambio en X. Este valor define la pendiente de la línea.

\(\epsilon\) (Término de Error): Representa la diferencia entre el valor real de Y y el valor predicho por el modelo. Incluye todos los factores no observados que afectan Y.

Hipótesis

1.Salario vs. Años de Experiencia

Este modelo predice el salario (Y) basándose en los años de experiencia (X).

Hipótesis a Contrastar

Hipótesis Nula (\(\mathbf{H_0}\)): \(\mathbf{\beta_1 = 0}\). Los años de experiencia no tienen un efecto lineal en el salario.

Hipótesis Alternativa (\(\mathbf{H_1}\)): \(\mathbf{\beta_1 \ne 0}\). Los años de experiencia sí tienen un efecto lineal en el salario.

Interpretación

Supongamos que el modelo de RLS ajustado nos da la siguiente ecuación:

\(\mathbf{\beta_1 = 9.49}\): La pendiente es positiva. Esto sugiere que por cada año adicional de experiencia (X), el salario aumenta en promedio 9.49 miles de USD (o $9,490).

Decisión sobre \(H_0\): Si el análisis estadístico (usando el valor p) resulta en un valor significativo (p-value < 0.05), rechazaríamos \(H_0\) y concluiríamos que sí existe una relación lineal positiva entre la experiencia y el salario.

2.Consumo Eléctrico vs. Temperatura Media

Este modelo predice el consumo eléctrico (\(Y\)) basándose en la temperatura media diaria (\(X\)), asumiendo que el consumo aumenta con el uso de aire acondicionado o calefacción.

Hipótesis a contrastar

Hipótesis Nula (\(\mathbf{H_0}\)): \(\mathbf{\beta_1 = 0}\). La temperatura media diaria no está relacionada linealmente con el consumo eléctrico.

Hipótesis Alternativa (\(\mathbf{H_1}\)): \(\mathbf{\beta_1 \ne 0}\). La temperatura media diaria sí está relacionada linealmente con el consumo eléctrico.

Interpretación

Supongamos que el modelo de RLS ajustado nos da la siguiente ecuación:

\(\mathbf{\beta_1 = 1.05}\): La pendiente es positiva. Esto sugiere que por cada aumento de 1°C en la temperatura media diaria (X), el consumo eléctrico aumenta en promedio 1.05 kWh (Y).

Decisión sobre \(H_0\): Si el valor p es bajo, rechazaríamos \(H_0\). Concluiríamos que existe una relación lineal significativa y positiva entre la temperatura media y el consumo eléctrico, lo cual tiene sentido debido al uso de sistemas de climatización.

REFERENCIAS

Ayuda Epidat. (2014, octubre). Distribuciones de probabilidad. Servicio Galego de Saúde (SERGAS). https://www.sergas.es/Saude-publica/Documents/1899/Ayuda_Epidat_4_Distribuciones_de_probabilidad_Octubre2014.pdf

Investopedia. (s. f.). Probability Distribution. Investopedia. https://www.investopedia.com/terms/p/probabilitydistribution.asp