¿Qué Es La Regresión Lineal Simple?

La Regresión Lineal Simple (RLS) es un método estadístico fundamental que se utiliza para modelar la relación lineal entre dos variables continuas. Es una técnica de aprendizaje supervisado.

El modelo de RLS involucra dos tipos de variables:

Objetivo

El objetivo principal de la Regresión Lineal Simple es encontrar la línea recta que mejor se ajusta a los datos, de manera que esta línea pueda usarse para:

Ecuación del Modelo

El modelo de regresión lineal simple se representa matemáticamente con la ecuación de una línea recta:

\[Y = \beta _{0} + \beta _{1}X + \varepsilon\]

Donde:

Hipótesis

1.Salario vs. Años de Experiencia

Este modelo predice el salario (Y) basándose en los años de experiencia (X).

library(knitr)
library(kableExtra)

Hipotesis_1 <- data.frame(
  "Años_De_Experiencia(X)" = c("1.1", "3.2", "5.1" , "7.4" , "10.3" , "12.0"),
  "Salario_Anual(Y)" = c("39.34", "55.79", "75.80" , "98.27" , "122.39" , "143.01"),
  stringsAsFactors = FALSE
)

kable(Hipotesis_1, "html", caption = "Datos relacionados:") %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed"),
    full_width = FALSE,
    font_size = 20
  ) 
Datos relacionados:
Años_De_Experiencia.X. Salario_Anual.Y.
1.1 39.34
3.2 55.79
5.1 75.80
7.4 98.27
10.3 122.39
12.0 143.01

Hipótesis a Contrastar

Interpretación

Supongamos que el modelo de RLS ajustado nos da la siguiente ecuación:

\[Y = 25.79 + 9.49X\]

2.Consumo Eléctrico vs. Temperatura Media

Este modelo predice el consumo eléctrico (\(Y\)) basándose en la temperatura media diaria (\(X\)), asumiendo que el consumo aumenta con el uso de aire acondicionado o calefacción.

library(knitr)
library(kableExtra)

Hipotesis_2 <- data.frame(
  "Temperatura_Media_Diaria(X)" = c("5", "10", "15" , "20" , "25" , "30"),
  "Consumo_Eléctrico(Y)" = c("18.5", "16.0", "20.2" , "25.5" , "32.1" , "40.8"),
  stringsAsFactors = FALSE
)

kable(Hipotesis_2, "html", caption = "Datos relacionados:") %>%
  kable_styling(
    bootstrap_options = c("striped", "hover", "condensed"),
    full_width = FALSE,
    font_size = 20
  ) 
Datos relacionados:
Temperatura_Media_Diaria.X. Consumo_Eléctrico.Y.
5 18.5
10 16.0
15 20.2
20 25.5
25 32.1
30 40.8

Hipótesis a contrastar

Interpretación

Supongamos que el modelo de RLS ajustado nos da la siguiente ecuación:

\[Y = 5.23 + 1.05X\]

precios <- c(50, 55, 53, 60, 65)

log_precios <- log(precios)
media_log <- mean(log_precios)
desv_log <- sd(log_precios)

x <- seq(40, 80, length.out = 200)

densidad <- dlnorm(x, meanlog = media_log, sdlog = desv_log)
plot(
  x, densidad,
  type = "l",
  lwd = 2,
  col = "blue",
  main = "Distribución Lognormal de Precios de una Acción",
  xlab = "Precio (X)",
  ylab = "Densidad de probabilidad"
)

polygon(x, densidad, col = rgb(0.2, 0.6, 1, 0.3), border = NA)

points(precios, dlnorm(precios, meanlog = media_log, sdlog = desv_log),
       col = "red", pch = 19)

lambda <- 0.61

x <- 0:6  


probabilidades <- dpois(x, lambda)

datos <- data.frame(
  muertes = x,
  probabilidad = probabilidades
)

x_cont <- seq(0, 6, length.out = 500)

densidad_suave <- spline(x, dpois(x, lambda), xout = x_cont)$y

plot(
  x_cont, densidad_suave,
  type = "l",
  lwd = 2,
  col = "blue",
  main = "Distribución Poisson (Muertes por patadas de caballo)",
  xlab = "Número de muertes (X)",
  ylab = "Probabilidad P(X = x)"
)


points(datos$muertes, datos$probabilidad,
       col = "red", pch = 19)

p_x2 <- dpois(2, lambda)
points(2, p_x2, col = "darkred", pch = 19, cex = 1.5)
text(2, p_x2 + 0.015, paste0("P(X=2) = ", round(p_x2, 3)), col = "darkred")

REFERENCIAS

Ayuda Epidat. (2014, octubre). Distribuciones de probabilidad. Servicio Galego de Saúde (SERGAS). https://www.sergas.es/Saude-publica/Documents/1899/Ayuda_Epidat_4_Distribuciones_de_probabilidad_Octubre2014.pdf

Investopedia. (s. f.). Probability Distribution. Investopedia. https://www.investopedia.com/terms/p/probabilitydistribution.asp